实测万相2.1,全球首个中文文字生成开源模型,吊打Sora了?

5个月前 科技 31观看
摘要图片来源:由无界AI生成DeepSeek开源周,其他人也没闲着。2月25日,凌晨Claude发布了Sonnet3.7版本,白天的DeepSeek开源了DeepEP代码库,晚上阿里的最新视频生成模型Wan2.1 亮相,真是热闹的一天啊!相比于一个代码能力更强的语言


NwF喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

DeepSeek开源周,其他人也没闲着。NwF喜好网-记录每日喜好的科技时尚娱乐生活

2月25日,凌晨Claude发布了Sonnet3.7版本,白天的DeepSeek开源了DeepEP代码库,晚上阿里的最新视频生成模型Wan2.1 亮相,真是热闹的一天啊!NwF喜好网-记录每日喜好的科技时尚娱乐生活

相比于一个代码能力更强的语言模型,一个让开发者更为兴奋的底层的代码库,视频生成模型显然更让普通人兴奋。NwF喜好网-记录每日喜好的科技时尚娱乐生活

仍然秉持着“能开尽开”的风格,这次万相开源了14B和1.3B两个参数的全部推理代码和权重,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace和魔搭社区下载体验。NwF喜好网-记录每日喜好的科技时尚娱乐生活

并且采用了最宽松的Apache2.0协议,意思是生成的内容版权完全归开发者所有,既可以用于免费渠道,也可以商用。NwF喜好网-记录每日喜好的科技时尚娱乐生活

在评测集VBench中,万相2.1超越了Sora、Luma、Pika等国内外开源模型。NwF喜好网-记录每日喜好的科技时尚娱乐生活

它的效果到底如何?废话不多说,我们先上评测!NwF喜好网-记录每日喜好的科技时尚娱乐生活


NwF喜好网-记录每日喜好的科技时尚娱乐生活

#01、模型实测


NwF喜好网-记录每日喜好的科技时尚娱乐生活

目前在通义万相里体验2.1极速版和专业版,两个版本都是14B的,极速版生成速度约4分钟左右,专业版的生成速度更慢一些,大概1个小时生成,但效果更稳定一些。NwF喜好网-记录每日喜好的科技时尚娱乐生活

文生视频2.1专业版相比于极速版对于文本理解更精确,画面的清晰度也相对高一些。但两个版本生成的视频画面都存在明显变形,对于一些物理世界的细节理解有欠缺。NwF喜好网-记录每日喜好的科技时尚娱乐生活


提示词:参考盗梦空间拍摄方式,俯拍广角镜头,酒店走廊以每秒15度角持续旋转,两位西装特工在墙壁与天花板间翻滚格斗,领带受离心力影响呈45度飘起。顶灯碎片随重力方向错乱飞溅。

专业版NwF喜好网-记录每日喜好的科技时尚娱乐生活

极速版NwF喜好网-记录每日喜好的科技时尚娱乐生活


提示词:红裙女孩在蒙马特阶梯跳跃,每级台阶弹出旧物收藏盒(发条玩具/老照片/玻璃弹珠),暖调滤镜下鸽子群组成心形轨迹,手风琴音阶与脚步节奏精确同步,鱼眼镜头跟拍。

专业版NwF喜好网-记录每日喜好的科技时尚娱乐生活

极速版NwF喜好网-记录每日喜好的科技时尚娱乐生活

万相2.1是目前全球首个能够直接生成中文文字的开源视频模型。虽然能够准确生成指定文字,但只限比较短的文本,超出一定长度就会出现乱码的情况。NwF喜好网-记录每日喜好的科技时尚娱乐生活


提示词:狼毫毛笔在宣纸上挥洒,墨迹晕染时文字“命运”逐笔浮现,字迹边缘泛起金色微光。

图生视频效果比较稳定,人物一致性较高,没有明显变形,但对提示词的理解不完整,缺少细节。比如案例视频中珍珠奶茶里没有珍珠,石矶娘娘没有变成大胖丫头。NwF喜好网-记录每日喜好的科技时尚娱乐生活


提示词:油画风格,一位穿着朴素的少女拿出一杯珍珠奶茶,轻启朱唇缓缓品尝,动作优雅从容。画面背景是一片深邃的暗色调,仅有的光线聚焦在少女脸上,营造出神秘而宁静的氛围。近景,侧脸特写。


NwF喜好网-记录每日喜好的科技时尚娱乐生活


提示词:石人手臂随着步伐自然摆动,背景光线逐渐从明亮转为昏暗,营造出一种时间流逝的视觉效果。镜头始终保持静止,聚焦于石人的动态变化。初始画面中那个小巧的石人,随着视频的推进,体型逐渐增大,最终在结尾画面中,变身成为一个圆润可爱的石头女孩。

总的来说,万相2.1语义理解和物理表现还是有待提高的,但整体审美在线,而且开源后或许会加快优化更新速度,期待后续可以有更好的呈现效果。NwF喜好网-记录每日喜好的科技时尚娱乐生活


NwF喜好网-记录每日喜好的科技时尚娱乐生活

#02、低成本、高效果、高可控


NwF喜好网-记录每日喜好的科技时尚娱乐生活

在算法设计上,万相依然基于主流DiT架构,和线性噪声轨迹Flow Matching,看着有点复杂,其实大家都差不多是这个思路。NwF喜好网-记录每日喜好的科技时尚娱乐生活

意思是先生成一堆噪点(类似电视雪花屏),直到图片变成纯噪声,模型再开始“去噪”,将每个噪点放在该放的位置,通过多次迭代生成高质量的图片。NwF喜好网-记录每日喜好的科技时尚娱乐生活

但问题在于,传统扩散模型生成视频时计算量极大,需要不停的进行排序优化,这就导致了一生成时间长但视频时间不够长、二占内存耗费算力。NwF喜好网-记录每日喜好的科技时尚娱乐生活

这时候万相提出了一个新颖的3D时空变分自动编码器(VAE),称为Wan-VAE,通过组合多种策略,改进了时空压缩,减少了内存的使用。NwF喜好网-记录每日喜好的科技时尚娱乐生活

这个技术有点类似于《三体》中的“二向箔”,将人从三维变成二维。时空压缩的意思就是压缩视频的时空维度,比如将视频分解为低维来表示,从生产一个三维的立方体,到先生成一个二维的立方体再还原成三维,或采用分层生成来提升效率。NwF喜好网-记录每日喜好的科技时尚娱乐生活

举个简单的例子,Wan-VAE可以把一本《三国演义》压缩成大纲,在大纲里保留恢复内容的方法,大大降低了对内存的占用,同时可以通过此方法,记住更长部头的小说。NwF喜好网-记录每日喜好的科技时尚娱乐生活

解决了内容占用问题,就顺带解决了长视频生产的难题,传统的视频模型只能处理固定长度,超过某一长度就卡顿或崩溃,但如果只存储大纲,并记住前后关联,那么在生成每一帧时,临时存储前几帧的关键信息,便可以避免从第一帧开始重新计算。理论上,按照这种方法,可以对无限长度的1080P视频进行编码和解码,而不会丢失历史信息。NwF喜好网-记录每日喜好的科技时尚娱乐生活

这也就是为什么,万相可以跑在消费级显卡上的原因。传统的高清视频(如1080P)数据量太大,普通显卡内存不够用。但万相在处理视频前,先降低分辨率,比如把1080P缩放到720P,减少数据量,生成完成后在用超分模型提升画质到1080P。NwF喜好网-记录每日喜好的科技时尚娱乐生活

经过万相的测算,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用,且生产速度快,画质不缩水。NwF喜好网-记录每日喜好的科技时尚娱乐生活

这一部分的技术创新,解决的是此前视频生成模型一直无法大规模应用的工程化难题。但与此同时,万相也在生成效果上做了进一步优化。NwF喜好网-记录每日喜好的科技时尚娱乐生活

比如精细化的运动控制,此前Runaway的原生视频模型的单物体、多物体的相对运动控制都是靠运动笔刷绘制轨迹来完成,而万相允许用户通过文本、关键点或简单草图控制视频中物体的运动方式(例如指定"蝴蝶从左下角盘旋飞入画面")。NwF喜好网-记录每日喜好的科技时尚娱乐生活

万相2.1将用户输入的运动轨迹转化为数学模型,在视频生成过程中,作为额外条件引导模型。但这还远远不够,物体的运动要满足真实世界的物理规律,在数学模型的基础上,引入了物理引擎的计算结果,以提升运动的真实性。NwF喜好网-记录每日喜好的科技时尚娱乐生活

总的来说,万相的核心优势在于通过工程化能力解决实际生产场景中的难题,同时通过模块化的设计为后续的迭代流出了空间。对于普通用户来说,实实在在地降低了视频创作门槛。NwF喜好网-记录每日喜好的科技时尚娱乐生活

全面开源的策略也彻底打破了视频模型付费的商业模式,万相2.1的出现,2025年的视频生成赛道,又有好戏看了!NwF喜好网-记录每日喜好的科技时尚娱乐生活

通义万相 AI视频
展开全文
猜你感兴趣
努比亚 Z70 Ultra 手机更多参数曝光,后置 50Mp 35mm 大底主摄

努比亚 Z70 Ultra 手机更多参数

11 月

11-19 112阅读
特斯拉与上汽讨论两轮FSD授权?官方回应

特斯拉与上汽讨论两轮FSD授权?官

11月1

11-19 96阅读
奔驰新款EQE 500 4MATIC纯电轿车上市:售47.8万起,全系四驱

奔驰新款EQE 500 4MATIC纯电轿车

11-19 119阅读
海马体的“中年危机”

海马体的“中年危机”

写真

11-19 116阅读
可栗口语完成数百万元天使轮融资

可栗口语完成数百万元天使轮融资

近日,A

11-19 107阅读
龙波 始终亲力亲为,哪个岗位有需要就扑在哪里 优秀新闻工作者 编辑⑨(龙波始终亲力亲为)

龙波 始终亲力亲为,哪个岗

为激励全市新闻战线认真践行“四向

11-19 109阅读
乔碧萝真实身份曝光, 90后王诗锦接受采访谈事情原委

乔碧萝真实身份曝光, 90后

真人版乔碧萝终于现身,乔碧萝真实

11-19 108阅读
贾乃亮帮清购物车, 网友没胆安利给自家老板!

贾乃亮帮清购物车, 网友没

今天双十二,大家剁手了吗!小编是没

11-19 107阅读
《扫黑风暴》郑毅红结局是什么?她最后有没有落网?

《扫黑风暴》郑毅红结局是

电视剧《扫黑风暴》郑毅红结局是

11-19 112阅读
演员许文广《故乡的泥土》央八开播 首演农民角色获赞好真实

演员许文广《故乡的泥土》

  近日,由原著作者田运章担任总编剧,

11-19 104阅读
《这是我的战争》10周年纪念 最新慈善DLC即将登场

《这是我的战争》10周年纪

「妄想欢庆」——《这是我的战争》10周

11-19 139阅读
《啪嗒砰》精神续作《Ratatan》新预告片分享

《啪嗒砰》精神续作《Rata

Game Source Entertainment 宣布与开

11-19 132阅读
《燕云十六声》PC版不锁帧 1060可畅玩中画质

《燕云十六声》PC版不锁帧

《燕云十六声》官博发布新的文章,主要

11-19 117阅读
元气骑士前传兑换码2024_元气骑士前传新手礼包码

元气骑士前传兑换码2024_

最近元气骑士前传这款游戏十分火爆,那么

11-19 111阅读
原子之心电脉冲枪在哪?电脉冲枪获取方法分享

原子之心电脉冲枪在哪?电

原子之心电脉冲枪在哪?电脉冲枪是原子之

11-19 128阅读