当前位置 : 首页 > 专利喜报 > 上海交通大学刘虎迪获国家专利权

上海交通大学刘虎迪获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉上海交通大学申请的专利基于深度强化学习的光谱可编程光学频率梳生成方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN117192865B 。

龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202311082437.X，技术领域涉及：G02F1/35；该发明授权基于深度强化学习的光谱可编程光学频率梳生成方法是由刘虎迪;杜宇晗;苏翼凯设计研发完成，并于2023-08-28向国家知识产权局提交的专利申请。

本基于深度强化学习的光谱可编程光学频率梳生成方法在说明书摘要公布了：一种基于深度强化学习的光谱可编程光学频率梳生成系统，基于宽带光学频率梳的实验物理结构部署深度强化学习的智能体并构建智能体与实验环境间的交互模型；构建基于深度强化学习Actor‑Critic架构的策略算法框架，并据此设计智能体和实验环境间的交互内容与规则；以目标频谱和实验频谱的均方根误差为参数构造奖励函数并设计智能体与实验环境的动作执行与奖励反馈，通过深度强化学习算法的训练策略得到最优相位调制决策，从而实现光谱可编程地生成光学频率梳。本发明利用深度强化学习技术训练神经网络，选择最优的相位调制策略，实现光学频率梳的光谱编程和控制。拓展了光学频率梳的应用范围，为其在光通信、精密测量等领域的使用提供了更高的灵活性。

本发明授权基于深度强化学习的光谱可编程光学频率梳生成方法在权利要求书中公布了：1.一种基于深度强化学习的光谱可编程光学频率梳生成方法，其特征在于，基于宽带光学频率梳的实验物理结构部署深度强化学习的智能体并构建智能体与实验环境间的交互模型；构建基于深度强化学习Actor-Critic架构的策略算法框架，并据此设计智能体和实验环境间的交互内容与规则；以目标频谱和实验频谱的均方根误差为参数构造奖励函数并设计智能体与实验环境的动作执行与奖励反馈，通过深度强化学习算法的训练策略得到最优相位调制决策，从而实现光谱可编程地生成光学频率梳，具体包括：步骤A，构建稳定电光光频梳并调控频谱相位，利用非线性效应展宽光频梳频谱，具体包括： A1、通过单波长激光器、级联的一个强度调制器和两个相位调制器产生稳定的初始电光频率梳，其中：单波长激光器输出波长为1550nm的输入光，其功率为10dBm，生成的初始光频梳的中心频率为193.548THz，重复率为10GHz； A2、利用可编程光学处理器对初始光频梳的相位进行调制：选取初始光频梳中心频率附近8nm带宽内，即1546nm至1554nm的相位作为调制对象，相位调制曲线用权重随机的20阶切比雪夫多项式的加权和来表示，具体为：具有n次幂的切比雪夫多项式函数，，其中：wk表示切比雪夫多项式Tkx的权重，W20x表示切比雪夫多项式按权重相加的结果； A3、将调制后的电光频率梳输入掺铒光纤放大器并注入高非线性光纤，利用非线性效应进行光频梳频谱展宽； A4、利用光谱仪采集展宽光谱信息解析得到光谱初始状态和光谱执行状态；步骤B，基于实验得到的宽带光学频率梳的物理结构，即步骤A中得到的光谱初始状态和光谱执行状态部署深度强化学习的智能体，建立基于深度强化学习Actor-Critic架构的策略算法框架，设计深度强化学习智能体和实验环境模块的交互内容与规则，具体包括： B1、构造基于基于Actor-Critic架构的深度强化学习智能体模块，其中：Actor网络生成动作策略，例如输出相位调制决策，并根据Critic网络提供的价值函数Q反馈来更新动作策略，以提高智能体在环境中的表现；Critic网络评估动作策略的优劣并根据智能体采取的动作计算价值函数Q，以评估当前动作策略的优劣，并将Actor网络与环境交互后的状态转换过程存储在经验回放存储器中； B2、通过网络随机采样经验回放存储器对智能体进行训练，具体包括： ①鉴于目标频谱和实验频谱的均方根误差RMSE是评估光频梳控制和塑形效果的关键指标，设置奖励函数Rt=-RMSEStarget，Sexp，其中：目标频谱Starget，实验频谱Sexp，负号为将RMSE转化为最大化问题，使智能体的任务变为最小化目标频谱和实验频谱之间的差异； ②设置智能体的目标为学习最优策略函数πat|st,θ，其中：at为智能体通过Actor网络生成的动作，st为实验环境的状态，θ为Actor网络的参数；Actor网络中的策略梯度，其中：Ast,at为Critic网络的优势函数；计算损失函数，其中：E代表期望值，KL表示KL散度，θold表示旧Actor网络参数，λ是一个超参数，用于控制策略更新和策略稳定性的平衡； ③通过Critic网络评估Actor网络生成的动作策略的优劣：设置Critic网络的价值函数Qst,at，即在状态st采取行动at的预期收益，使用基于TD误差的方法进行更新，带有优势函数的TD误差为：，优势函数，其中：Vst为Critic网络的状态值函数，通过采用优势函数以减小方差并提高算法的收敛速度； B3、在每个时间步骤中，向Actor网络的输出添加一个小的高斯噪声，以鼓励智能体探索新的动作策略，并避免过度依赖过去经验；具体而言，对于生成的动作at，添加的高斯噪声服从均值为零、标准差为σ的高斯分布：，其中：at代表智能体在时间步骤t时生成的原始动作，即相位调制决策，这是Actor网络的输出；a’t表示经过添加高斯噪声后的动作，这个动作将用于在实际环境中执行；N0,σ表示均值为零、标准差为σ的高斯分布。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人上海交通大学，其通讯地址为：200240 上海市闵行区东川路800号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

上海交通大学刘虎迪获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务