赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键

5个月前 生活 35观看
摘要《科创板日报》12月4日讯(记者 张洋洋)昨日,腾讯混元大模型正式上线视频生成能力,这是继文生文、文生图、3D生成之后,混元大模型的最新业务进展。与此同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频开源模型。

《科创板日报》12月4日讯(记者 张洋洋)昨日,腾讯混元大模型正式上线视频生成能力,这是继文生文、文生图、3D生成之后,混元大模型的最新业务进展。与此同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频开源模型。ON0喜好网-记录每日喜好的科技时尚娱乐生活

“用户只需要输入一段描述,即可生成视频,”腾讯混元相关负责人透露,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。企业用户通过腾讯云提供服务接入,目前API同步开放内测申请。ON0喜好网-记录每日喜好的科技时尚娱乐生活

imageON0喜好网-记录每日喜好的科技时尚娱乐生活

自从OpenAI 的Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到了前所未有的水平,全球AI厂商加速赶来,掀起视频生成热潮。ON0喜好网-记录每日喜好的科技时尚娱乐生活

2024年接近尾声,今年以来大模型领域最热闹的细分赛道要数视频生成。字节豆包正在推出文生视频内测,Minmax,快手,商汤等也先后推出了文生视频。由清华大学联合生数科技共同研发Vidu 则宣称是中国首个长时长、高一致性、高动态性视频大模型。 ON0喜好网-记录每日喜好的科技时尚娱乐生活

不过,做好文生视频这件事并不简单,这一点从OpenAI在今年初发布了Sora之后,仍未正式对外开放便可见一斑。ON0喜好网-记录每日喜好的科技时尚娱乐生活

这主要是因为当前的视频生成技术产出的结果与用户期望之间仍存在较大差距,这些模型在理解和应用物理规则方面表现不足,并且在生成过程中缺乏有效的可控性。ON0喜好网-记录每日喜好的科技时尚娱乐生活

按照腾讯的说法,混元文生视频大模型主要的优势能力在于,可以实现超写实画质、生成高度符合提示词的视频画面,画面流畅不易变形。ON0喜好网-记录每日喜好的科技时尚娱乐生活

“比如,在冲浪、跳舞等大幅度运动画面的生成中,腾讯混元可以生成非常流畅、合理的运动镜头,物体不易出现变形;光影反射基本符合物理规律,在镜面或者照镜子场景中,可以做到镜面内外动作一致。同时,模型还可以实现在画面主角保持不变的情况下自动切镜头,这是业界大部分模型所不具备的能力。”ON0喜好网-记录每日喜好的科技时尚娱乐生活

从技术角度来看,据腾讯混元相关负责人介绍,混元大模型基于跟Sora类似的DiT架构,在架构设计上进行了多处升级。ON0喜好网-记录每日喜好的科技时尚娱乐生活

混元视频生成模型适配了新一代文本编码器提升语义遵循,其具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换;通过先进的图像视频混合VAE(3D 变分编码器),让模型在细节表现有明显提升,特别是小人脸、高速镜头等场景。ON0喜好网-记录每日喜好的科技时尚娱乐生活

比如写下这么一段提示词,一位中国美女穿着汉服,头发飘扬,背景是伦敦,然后镜头切换到特写镜头:ON0喜好网-记录每日喜好的科技时尚娱乐生活

imageON0喜好网-记录每日喜好的科技时尚娱乐生活

不过在视频生成领域,快手、抖音、智谱科技、生数科技等国内厂商均已推出相应的产品,甚至开启了商业化,腾讯混元此番的节奏并不算快。ON0喜好网-记录每日喜好的科技时尚娱乐生活

对此,腾讯混元相关负责人在接受《科创板日报》记者采访时回应称,当下的视频生成技术,从可用度而言,还未到大规模商用的阶段,还有很多技术难点需要克服,混元大模型文生视频功能也并不急于一时,当下阶段更重要的是开源让更多人用起来,使模型的飞轮能快速转动带动优化模型本身。ON0喜好网-记录每日喜好的科技时尚娱乐生活

在落地应用上,上述负责人表示,混元大模型生成的视频可用于工业级商业场景,例如广告宣传、动画制作、创意视频生成等场景。对于未来的商业化,腾讯暂时还没有详细的规划出来。ON0喜好网-记录每日喜好的科技时尚娱乐生活

目前,腾讯宣布开源该视频生成大模型已在 Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务。ON0喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
新茶饮疯狂“24小时”

新茶饮疯狂“24小时”

零售业有一

11-19 68阅读
商家案例丨华润万家:中秋联名营销,华润万家&抖音联名卡结合职人扫码直播齐发力,季度支付突破3亿

商家案例丨华润万家:中秋联

「生活服务1001」是抖音生活服务出品

11-19 61阅读
 2024芭莎美妆嘉年华“美戏登场” 演绎新美学体验

2024芭莎美妆嘉年华“美

盛誉美妆行业的芭莎国际美妆嘉年华金

11-19 69阅读
疑似OPPO A5 Pro通过认证,或搭载骁龙7s Gen3

疑似OPPO A5 Pro通过认证,

作为OPPO方面今年早些时候推出的A系

11-19 63阅读
iQOO 13手机顶配版正式开售:16+1TB内存组合搭配晶钻光学玻璃,售价5199元

iQOO 13手机顶配版正式开

11月5日,iQOO 13手机顶配版正式开售。

11-19 73阅读
明新材料艺术展Love Leather·情书 闪耀2024苏河艺术季

明新材料艺术展Love Leath

在璀璨夺目的2024苏河艺术季中,明新材

11-19 67阅读
 明新材料艺术展Love Leather·情书 闪耀2024苏河艺术季

明新材料艺术展Love Leat

在璀璨夺目的2024苏河艺术季中,明新材

11-19 60阅读
 《服饰与美容VOGUE》时尚之力盛会首次落地深圳 发现都市生活“自悠自在”新方式

《服饰与美容VOGUE》时尚

10月17-23日,2024年“VOGUE时尚之力盛

11-19 69阅读
尚仄国际LOOLAYY六礼品牌中法时装周巴黎大秀

尚仄国际LOOLAYY六礼品牌

<<高情远韵>> 2024年9月27日13:30-

11-19 71阅读
汉服除了交领上襦,还有一款非常舒适时尚的圆领袍(汉服除了交领上襦)

汉服除了交领上襦,还有一款

圆领袍,顾名思义,就是领口为圆形的长

11-19 66阅读
本质是一只猫

本质是一只猫

甲:“我感觉我本质是一只猫。” 乙:

11-19 65阅读
初入职场

初入职场

问:初入职场,戴什么表比较好? 答:excel

11-19 62阅读
饭菜都不会煮

饭菜都不会煮

男朋友:饭菜都不会煮,结婚以后我们总不

11-19 67阅读
我就是说说

我就是说说

甲:“我就是说说。” 乙:“你就是说

11-19 66阅读
63岁上班

63岁上班

63岁上班,没带助听器。 20岁的老板

11-19 69阅读