北京中科大洋科技发展股份有限公司王彦彬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京中科大洋科技发展股份有限公司申请的专利一种基于大语言模型的智能视频剪辑方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119155484B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411054282.3,技术领域涉及:H04N21/234;该发明授权一种基于大语言模型的智能视频剪辑方法是由王彦彬;李永葆;朱宇;朱庆余;郑铎;刘焕设计研发完成,并于2024-08-02向国家知识产权局提交的专利申请。
本一种基于大语言模型的智能视频剪辑方法在说明书摘要公布了:本发明公开了一种基于大语言模型的智能视频剪辑方法,基于机构资源库素材,通过大语言模型、跨模态引擎、语音识别与合成、视听语言模型等AI人工智能技术与视音频生产相结合,将专业媒体内容生产中的文字稿件通过大语言模型进行处理,把视音频素材通过跨模态引擎和语音识别引擎等进行综合智能分析,通过语义匹配方式分别在跨模态索引库和同期声索引库中进行智能镜头匹配,供编辑人员对智能编辑结果进行人工快速调整与修改。本发明可用于新媒体短视频、事件播报类视频新闻、电视节目二次创作、影视剧片花和集锦等类型节目的智能生产,为各媒体机构和专业内容生产者提供全新的视频生产方式,满足互联网时代,视频推送制下对海量视频内容的生产要求。
本发明授权一种基于大语言模型的智能视频剪辑方法在权利要求书中公布了:1.一种基于大语言模型的智能视频剪辑方法,其特征在于,所述方法步骤包括: 步骤1,对素材进行跨模态分析,包括: 对视音频素材进行转码,生成一个低码率的代理作为跨模态分析的基础; 对视频进行转场帧检测,并根据检测结果,将连续视频素材拆分为多个场景片段; 对视频内容按照每10帧抽取第1帧作为1个关键帧,对抽帧之后的关键帧进行向量分析,并将前后两个关键帧的向量进行差值计算;若每两个连续帧之间的向量差值∂均小于预设值Δ,则认为该场景无需进一步拆分,将分析的每个关键帧的向量存入索引库进行保存;若前后两个连续关键帧之间的差值大于等于预设值Δ,则增加该两个关键帧之间的中间帧,该片段中的第6帧作为关键帧,先基于AI算法,智能识别视频关键帧;并在两个智能识别的关键帧之间的视频帧,按照每10帧一个分组,将每一组的第一帧再次生成关键帧,进行跨模态向量分析,并将其分析结果向量进行索引对关键帧跨模态分析,生成向量并保存到索引库; 进行音频同期声分析,生成同期声索引并保存到索引库; 步骤2,从机构资源库、本地或云资源库中选择创作所需的素材或素材组; 步骤3,导入文字稿并进行改写和分类:导入视频文字稿并使用大语言模型进行视频文字稿进行改写成需要的文字稿,并分类标注同期声和正文类型;对于同期声,提供连续和单句两种不同标注模式,连续模式用于整段采访或对话,单句用于从采访或对话中精确挑选所说的整句或词组,未标注为同期声的文字部分,系统默认按照正文分类进行处理; 步骤4,根据文字稿的不同分类自动使用不同的智能匹配模型进行镜头匹配:对于标记为同期声的文字内容,系统基于对文字稿件的语义理解,对同期声索引进行相似度匹配,对于文字稿件与语音识别的文字结果不完全相同,按照语义理解结果进行匹配,对于同期声模式匹配的镜头结果,使用该镜头对应的原始画面及声音;对于正文部分,系统基于文字的语义理解,在向量维度将文字与视音频内容进行匹配,根据匹配的比对结果,形成相似度数据,根据相似度来进行镜头的智能匹配,对于正文模式匹配的镜头结果,在最终使用该镜头片段时,只使用该镜头对应的画面部分,声音部分由后续的语音合成的音频内容进行替代; 步骤5,对镜头的智能匹配结果进行调整,生成匹配候选镜头组:将每一句段文字的匹配结果保存为一个镜头组,并按照相似度进行排序,定义镜头组中的最大镜头数量并将每一组镜头中匹配相似度最高的镜头作为首选结果提供给下一步处理; 步骤6,根据镜头匹配结果中前后镜头在原素材中的时间先后顺序,进行场景智能合并和使用视听语言模型来进行对匹配镜头结果的分析和处理;场景智能合并方法为: 每一个镜头匹配结果中包含其原始素材idClipID、入点IN、出点OUT等信息; 假定连续多句段同期声文字的匹配镜头结果分别为C0、C1、C2……;其对应的原始素材id分别为ClipID1、ClipID2、ClipID3……,对应的原始素材入点分别为IN1、IN2、IN3……,对应的原始素材出点分别为OUT1、OUT2、OUT3……; 首先对第一组的两个镜头C1与C0进行素材信息比对,比较两个镜头对应的原始素材ID是否相同; 若ClipID2与ClipID1不同,则两个镜头匹配结果来源于不同素材,无需进行场景合并,进入下一组素材C2与C1比对; 若ClipID2与ClipID1相同,则还需比较两个镜头的连续性,比较镜头C1的素材入点IN2与镜头C0的素材出点OUT1; 若IN2—OUT1t,t为系统预定义值,则表明第二个匹配镜头结果与第一个匹配镜头结果在时间上具备连续性,进行场景合并; 若IN2—OUT1≥t,t为系统预定义值,则表明第二个匹配镜头结果与第一个匹配镜头结果在时间上不具备连续性,不进行场景合并; 以此类推,直到最后一个同期声匹配镜头结果; 步骤7,生成配合和字幕,并添加配乐; 步骤8,完成智能剪辑,进行人工校对,以满足最终发布的审核要求。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科大洋科技发展股份有限公司,其通讯地址为:100193 北京市海淀区中关村软件园11号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。