Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 众数(厦门)信息科技有限公司;众数智能(厦门)科技有限公司黄世勇获国家专利权

众数(厦门)信息科技有限公司;众数智能(厦门)科技有限公司黄世勇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉众数(厦门)信息科技有限公司;众数智能(厦门)科技有限公司申请的专利多模态大模型增量训练数据筛选方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121145961B

龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511678746.2,技术领域涉及:G06N3/08;该发明授权多模态大模型增量训练数据筛选方法是由黄世勇;吴炳坤;姚锋;王筝;王驰名设计研发完成,并于2025-11-17向国家知识产权局提交的专利申请。

多模态大模型增量训练数据筛选方法在说明书摘要公布了:本发明提供多模态大模型增量训练数据筛选方法,涉及数据处理技术领域,所述方法包括:对新增多模态数据执行模态结构解析,提取各模态向量并计算语义匹配度,剔除低于预设第一阈值的样本;在统一语义空间中计算样本嵌入向量与历史聚类中心的多级语义距离,并根据多级语义距离的变化率划分核心语义区、边界语义区和离散语义区样本;对边界语义区样本进行语义细粒度对齐,当检测到多峰不稳定分布时,执行局部上下文重构以修复语义偏差,若仍不稳定则剔除;进行多轮小批量推理,并基于其语义预测结果计算语义稳定系数,当低于预设第二阈值时判定为潜在漂移样本并剔除;构建增量训练数据集;本发明提高了增量训练数据筛选的自主性和准确性。

本发明授权多模态大模型增量训练数据筛选方法在权利要求书中公布了:1.多模态大模型增量训练数据筛选方法,其特征在于,所述方法包括: S1、对新增多模态数据执行模态结构解析,提取各模态向量并计算语义匹配度,剔除低于预设第一阈值的样本,得到模态一致性样本集; S2、将模态一致性样本集输入当前已训练的多模态大模型,在其统一语义空间中计算样本嵌入向量与历史聚类中心的多级语义距离,并根据多级语义距离的变化率划分核心语义区、边界语义区和离散语义区样本; S3、对边界语义区样本进行语义细粒度对齐,计算对象标签、动作描述与上下文实体的关联权重,当检测到多峰不稳定分布时,执行局部上下文重构以修复语义偏差,若仍不稳定则剔除,生成语义稳定样本集,具体包括: 对边界语义区样本中的图像、文本和语音信息执行语义要素分解,提取对象标签、动作描述和上下文实体三类语义单元,形成语义要素向量集; 根据语义要素向量集,以语义单元之间的共现频率、上下文依存关系及跨模态对应强度为输入,构建语义依存图,并计算语义单元间的第一关联权重分布; 对第一关联权重分布进行平滑与归一化处理,生成稳定的第二关联权重分布; 检测第二关联权重分布的峰值数量、方差和集中度,当检测结果显示分布同时存在多个峰值且集中度低于预设下限时,判定该边界语义区样本存在语义冲突; 对存在语义冲突的样本执行局部上下文重构,将动作描述与对象标签重新匹配,生成重构样本; 对重构样本重新计算语义单元间的关联权重分布,并依据其峰值数量和集中度进行再次检测; 当重构样本的语义分布稳定时,将其保留,当仍呈多峰不稳定状态时,将其剔除,生成语义稳定样本集; S4、将核心语义区样本与语义稳定样本集输入至多模态大模型进行多轮小批量推理,并基于其语义预测结果计算语义稳定系数,当低于预设第二阈值时判定为潜在漂移样本并剔除,形成一致性验证样本集,具体包括: 将核心语义区样本与语义稳定样本集合并形成候选样本集,并输入至当前多模态大模型中,进行多轮小批量推理; 在每轮推理中,对候选样本集中样本的部分模态特征执行随机遮挡或扰动替换,以生成多轮扰动输入序列; 将多轮扰动输入序列输入至多模态大模型,以得到模型在不同模态干扰下的语义预测结果; 根据多轮语义预测结果,计算各样本在不同轮之间的语义预测分布差异,生成语义预测波动数据; 根据语义预测波动数据,计算语义稳定系数; 当语义稳定系数低于预设第二阈值时,将该候选样本判定为潜在漂移样本; 对潜在漂移样本执行回归校准验证,将潜在漂移样本在前一轮与当前轮模型参数状态下的语义预测结果进行比对,若语义差异超出预设容差区间,则将该潜在漂移样本从候选集中剔除,否则保留样本,生成一致性验证样本集; S5、根据一致性验证样本集构建增量训练数据集,并在训练过程中监测其在统一语义空间中的语义中心漂移量,超过预设上限时,由多模态大模型的训练控制模块自动触发样本回溯与再筛选流程,以动态更新训练数据集。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人众数(厦门)信息科技有限公司;众数智能(厦门)科技有限公司,其通讯地址为:361000 福建省厦门市火炬高新区软件园一期曾厝垵北路3号科汇楼402室-A184;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。