Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 上海人工智能创新中心于家硕获国家专利权

上海人工智能创新中心于家硕获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉上海人工智能创新中心申请的专利用于长时节奏化视频的配乐方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116312429B

龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310240155.1,技术领域涉及:G10H1/00;该发明授权用于长时节奏化视频的配乐方法及装置是由于家硕;王耀晖;陈昕苑;孙骁;乔宇设计研发完成,并于2023-03-13向国家知识产权局提交的专利申请。

用于长时节奏化视频的配乐方法及装置在说明书摘要公布了:本发明涉及视频处理技术领域,提出一种用于长时节奏化视频的配乐方法及装置,该方法包括:通过隐式的无条件生成模型提取音频特征;通过上下文感知的条件编码器从长时节奏化视频中提取视频特征;以及通过隐式的条件扩散生成模型使用跨模态注意力模块将所述音频特征和所述视频特征交互融合以生成配乐。通过本发明生成的音乐有更好的节奏匹配度和音乐质量;生成音乐的长度从现有技术的2‑6秒扩充到25‑50秒;可以应用于更多的节奏化视频的场景,将场景从单纯的舞蹈扩充到体育场景。

本发明授权用于长时节奏化视频的配乐方法及装置在权利要求书中公布了:1.一种用于长时节奏化视频的配乐方法,其特征在于,包括下列步骤: 通过隐式的无条件生成模型提取音频特征; 通过上下文感知的条件编码器从长时节奏化视频中提取视频特征;以及 通过隐式的条件扩散生成模型使用跨模态注意力模块将所述音频特征和所述视频特征交互融合以生成配乐, 其中所述视频特征包括RGB特征、视频的节奏特征以及视频的类别特征, 提取RGB特征包括: 使用预训练的I3D网络进行特征提取,并且使用双层的LSTM网络进行建模,表示为下式: cv,h,mc=BiLSTMEnci1,i2,...,iT,h0,mc0, 其中,Enc表示视觉编码器、i表示输入的视觉帧、BiLSTM表示双向长短期记忆网络、h表示隐藏向量、mc表示记忆向量以及cv表示视觉条件特征; 提取视频的节奏特征包括: 提取视频的2D姿势特征; 提取视频节奏,表示为下式: 其中,Mt,j表示第t时刻第j个关节的运动特征、∠Mt,j表示运动特征和x坐标轴的夹角、1θ表示指示函数、K表示bin的个数、Ot表示第t个时刻内的视觉节奏以及η表示归一化函数;以及 根据所述视频节奏生成节奏曲线,并且选取节奏曲线的局部最大值以生成二元向量,所述二元向量表示每一个时序位置是否是视觉节奏点,其中选取节奏曲线的局部最大值的条件表示为下式: 其中,crti表示第i个视觉节奏点所在的时刻的节奏条件特征,prem、postm、prea、posta分别表示取局部均值和最大值的前后阈值,ω表示两个视觉节奏点所在的时序位置的最小间隔,δ表示视觉节奏点阈值; 其中所述配乐方法还包括将所述节奏特征由二元向量转化为高维的节奏特征张量,通过隐式的条件扩散生成模型使用跨模态注意力模块将所述音频特征和所述视频特征交互融合包括: 根据所述节奏特征张量使用跨模态注意力模块进行条件生成,表示为下式: 其中,Att表示注意力函数,d表示特征的维度,WQ、WK、WV表示可学习的向量,c表示条件特征,T表示矩阵转置,i表示第i个中间层;以及 添加条件特征对扩散模型进行优化,表示为下式: 其中,LCLD表示条件隐式扩散函数以及C表示条件特征。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海人工智能创新中心,其通讯地址为:200232 上海市徐汇区云锦路701号37、38层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。