上线文生视频功能，腾讯大模子再追逐

发布日期：2024-12-30 07:15 点击次数：157

上线文生视频功能，腾讯大模子再追逐

11月底就被“剧透”的腾讯混元大模子文生视频功能，在12月3日崇敬上线。刻下该模子已上线腾讯元宝App，用户可在AI利用中的“AI视频”板块恳求试用，企业客户通过腾讯云提供行状接入，刻下API（利用技艺编程接口）同步洞开内测恳求。自OpenAI发布Sora，国表里的视频生成式大模子递次抢镜，在国内快手和字节跳跃正面交锋，阿里云、MiniMax、好意思图等也有备而来，和同业比拟，腾讯混元不算快节律。

在指示框输入一段描述，就不错生成一段视频，从使用进程看，腾讯混元大模子的文生视频功能和访佛居品无异。在这部分，混元给用户提供了转场视频、多作为视频、超写实视频三种灵感指示。

北京商报记者体验发现，用户不错聘请写实、动画、电影、长短、赛博一又克五种视频作风及五种比例。高等指示部分的聘请更多，包括景别、明后、镜头通顺等，其中景别包括特写、近景等五种，镜头通顺包括固定镜头、手抓照相、拉近镜头等14种。

阐述腾讯提供的评测报告，腾讯混元视频生成模子与国内两个同类模子的抓续时期都是5秒，在文本对都方面的得分分袂是61.8%、62.6%、60.1%，通顺质料方面分袂是66.5%、61.7%、62.9%，视觉质料方面分袂是95.7%、95.6%、97.7%。和GENN-3 alpha（Web）比拟，腾讯混元视频生成模子的抓续时期少一秒，文本对都高14.1个百分点，通顺质料高11.8个百分点，视觉质料抓平。

腾讯混元多模态生成时代负责东说念主凯撒先容，混元基于跟Sora访佛的DiT架构，在架构打算上进行了升级。混元视频生成模子适配新一代文本编码器晋升语义罢职，其语义奴隶智力不错更好地应酬多个主体描画，好意思满更精良的指示和画面呈现；接纳长入的全详实力机制，使每帧视频的相接更畅达，好意思满主体一致的多视角镜头切换；通过图像视频混杂VAE（3D变分编码器），让模子在细节发达存较着晋升，特殊是小人脸、高速镜头等场景。

今日，腾讯文告开源该视频生成大模子，该模子已在Hugging Face平台及Github上发布，包含模子权重、推理代码、模子算法等齐备模子，企业与个东说念主开拓者可免费使用和开拓生态插件。刻下，腾讯混元已开源旗下文生文、文生图和3D生成大模子。

关于为何选在此时上线文生视频功能，凯撒的回话是：“一个月前咱们磨砺罢了，当今上线水到渠成。”业内东说念主士更护理的是，该功能和同业收支的几个月时期差对腾讯的压力，“视频生成的熟练度还莫得到外界念念象得那么高，现阶段还是要我方作念时代打磨”，凯撒说。

在和北京商报记者相易时，比达分析师李锦清暗示，“文生视频的好意思满难度更高，但营业空间更大，短期内竞争门槛不会随即建设，行业和企业有共性或特质的问题要搞定，比如数据即是个槛”。

阐述GIR(GlobalInfo Research)调研，2023年群众文生视频大模子收入约莫720万好意思元，瞻望2030年达到22.19亿好意思元，2024－2030年期间，年复合增长率CAGR有望达到56.6%。

北京商报记者魏蔚

上一篇：AIGC迈入3D时期 “AI教母”李飞飞创业样貌首个后果 “杜撰全国生成器”来了

下一篇：WPS AI对听障东说念主士免费洞开语音速记职权