Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京航空航天大学邓岳获国家专利权

北京航空航天大学邓岳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京航空航天大学申请的专利安全强化学习驱动的大语言模型安全决策智能体获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120688552B

龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511179405.0,技术领域涉及:G06N3/045;该发明授权安全强化学习驱动的大语言模型安全决策智能体是由邓岳;高宁;李洪珏设计研发完成,并于2025-08-22向国家知识产权局提交的专利申请。

安全强化学习驱动的大语言模型安全决策智能体在说明书摘要公布了:本发明公开了安全强化学习驱动的大语言模型安全决策智能体,该决策智能体包括:高层语义规划器,用于接收文本形式的目标与约束指令,同时接收环境的语言或视觉观测信号,输出文本格式化的安全风险信息与建议动作规划;低层动作执行器,用于接收环境的低维观测和语义编码,其中语义编码来自于文本嵌入转换后的高层语义规划器输出;低层动作执行器的策略网络输出最终的安全动作;训练对齐模块,用于优化策略网络与价值网络;通过环境交互收集的奖励与代价信号,反馈提示高层语义规划器,以及通过安全强化学习算法训练策略网络与价值网络的参数。本发明便于实现在完成给定文本目标的决策的同时,保证决策不会违反给定的文本安全约束。

本发明授权安全强化学习驱动的大语言模型安全决策智能体在权利要求书中公布了:1.一种安全强化学习驱动的大语言模型安全决策智能体系统,其特征在于,该决策智能体系统包括:高层语义规划器、低层动作执行器、训练对齐模块;其中: 高层语义规划器,用于接收文本形式的目标与约束指令,同时接收环境的语言或视觉观测信号,输出文本格式化的安全风险信息与建议动作规划; 低层动作执行器,用于接收环境的低维观测和语义编码,其中语义编码来自于文本嵌入转换后的高层语义规划器输出;低层动作执行器的策略网络输出最终的安全动作; 训练对齐模块,用于优化策略网络与价值网络;通过环境交互收集的奖励与代价信号,反馈提示高层语义规划器,以及通过安全强化学习算法训练策略网络与价值网络的参数;实现决策智能体从大语言模型到环境安全动作输出的对齐过程; 通过一个预先定义好的上下文规划对话框架实现高层语义规划器在文本间端到端的输出,公式化为: ; 其中,表示高层语义规划器的文本输出,包含和,表示对当前时刻高维观测的分析后,判断环境中是否存在安全风险、或是否已触发安全风险的文本描述,以及对应的位置,表示根据对安全风险的分析结果,所提议的下一步粗粒度动作规划;表示高层语义规划器;表示目标指令文本描述;表示安全约束指令文本描述;表示环境提供的高维观测,为构造的文本描述或视觉图片描述,取决于高层语义规划器的设置;表示安全提示词;表示反馈提示词; 所述低层动作执行器从高层语义规划器中提取知识,并将其转换为可执行的动作;具体为:采用文本转换嵌入框架SimCSE-BERT,通过SimCSE-BERT分别将和映射到固定长度的向量,并将其在特征维度上拼接,记作语义编码向量: ; 该向量包含从高层语义规划器中提取的对于环境的安全风险分析知识,用于低层动作执行器的输出; 将环境提供的当前时刻低维观测与语义编码向量在特征维度上拼接,将其输送至策略网络以生成动作: ; 其中,表示动作向量; 所述训练对齐模块,利用环境提供的奖励信号与代价信号对智能体架构中的神经网络部分进行训练调整,具体为: 首先构造价值网络,该网络与策略网络使用相同的输入,分别输出和,分别对应从时刻开始后的期望累计奖励和期望累计代价: ; 然后,使用基于拉格朗日改进的梯度上升训练方法进行优化,原始优化目标为: ; 通过拉格朗日方法,将安全约束条件转换为非约束问题: ; 其中,表示参与优化的神经网络参数;表示累计奖励;表示累计代价;表示预算阈值;表示用于均衡导向目标的损失函数与惩罚不安全动作的损失函数的超参数;为总体的损失函数; 通过不断调节对安全约束学习力度动态调节,调节过程如下: ; 其中,表示第次调节的超参数,表示上一次即第次的超参数,表示控制更新幅度的系数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学,其通讯地址为:100191 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。