广东晔生科技股份有限公司吴傲冰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东晔生科技股份有限公司申请的专利语音驱动的智能绘本生成方法、装置、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121393444B 。
龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511979997.4,技术领域涉及:G10L15/22;该发明授权语音驱动的智能绘本生成方法、装置、电子设备及存储介质是由吴傲冰;叶生设计研发完成,并于2025-12-25向国家知识产权局提交的专利申请。
本语音驱动的智能绘本生成方法、装置、电子设备及存储介质在说明书摘要公布了:本申请公开了语音驱动的智能绘本生成方法、装置、电子设备及存储介质,属于人工智能技术领域。所述方法包括:获取含主题采集、内容采集、风格选择、生成分镜的标准化创作步骤清单,该清单为结构化数据对象,经RESTfulAPI接口下发,与用户会话ID绑定存储于数据库;通过WebSpeechAPI转用户语音为文本并录入绘本信息,支持声学模型交互修正;调用文生文模型生成多份分镜内容及嵌入向量式角色画风提示词;结合后调用文生图模型生成静态图,语音失效则AI配音,生成多格式成品并返回HTTPS下载链接。本申请通过语音交互简化输入流程、统一角色画风提示词保持视觉一致性,能够适配不同场景且操作简易。
本发明授权语音驱动的智能绘本生成方法、装置、电子设备及存储介质在权利要求书中公布了:1.一种语音驱动的智能绘本生成方法,其特征在于,至少包括如下步骤: 获取标准化创作步骤清单,所述标准化创作步骤清单包括主题采集、内容采集、风格选择、生成分镜,所述标准化创作步骤清单为结构化数据对象并通过RESTfulAPI接口下发,与用户会话ID绑定存储于数据库; 通过WebSpeechAPI将用户语音实时转化为文本,录入绘本主题、内容、风格序号,支持基于声学模型预训练的交互指令重新获取用户语音并即时修正; 调用预先训练好的文生文模型生成多个分镜内容,每个分镜内容含画面描述文本与全局元数据标记,同时生成包含角色外形特征与风格适配参数的统一角色画风提示词,所述统一角色画风提示词采用嵌入向量形式;其中,所述文生文模型是一个基于Transformer架构的大型语言模型,所述文生文模型的输入包含三元组参数:主题文本、内容文本及风格标识;所述文生文模型的输出为结构化JSON对象,包含10个分镜条目,每个条目含唯一序号、画面描述文本及全局元数据标记; 结合所述分镜内容与所述统一角色画风提示词拼接构成完整提示语,调用基于扩散模型或生成对抗网络架构的文生图模型生成静态图像,生成过程支持失败重试与超时熔断; 基于所述静态图像进行AI配音或获取用户配音,生成MP3格式音频文件; 根据用户设置的参数,通过python-pptx库或FFmpeg工具链导出PPT、AI配音视频或个人配音视频格式的成品,所述成品存储于服务器文件目录并返回HTTPS下载链接。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东晔生科技股份有限公司,其通讯地址为:510000 广东省广州市海珠区华洲路30号1单元301、302房;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励