阿里视频生成大模型万相2.1开源！效果超Sora，消费级显卡就能跑_互联网_资讯

阿里视频生成大模型万相2.1开源！效果超Sora，消费级显卡就能跑

2025-02-27 10:31 来源：TechWeb

2月27日消息，大模型开源的风吹到了视频生成大模型。阿里云日前放出重磅消息：万相，开源！

阿里云视频生成大模型万相2.1（Wan）正式开源，此次开源采用Apache2.0协议，14B和1.3B两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务，全球开发者可在Github、HuggingFace、魔搭社区下载体验。

从2023年开始，阿里云就坚定大模型开源路线，其千问（Qwen）衍生模型数量已超过10万个。随着万相的开源，阿里云实现了全模态、全尺寸的开源。

四个开源模型

此次开源共有四个模型，文生和图生各两个，两个参数版本。两个文生视频模型分别是1.3B和14B两个规格；两个图生视频模型都是14B，分辨率一个480P一个720P。

14B版本万相模型：在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出，在权威评测集Vbench中，万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型，稳居榜首位置。

1.3B版本万相模型：不仅超过了更大尺寸的开源模型，甚至还和一些闭源的模型结果接近，同时能在消费级显卡运行，仅需8.2GB显存就可以生成480P视频，适用于二次模型开发和学术研究。

有用户表示，1.3B的万象模型在RTX4090上跑一条5秒钟的480P视频的时间大概只要4分钟。

阿里云特别强调，万相2.1（Wan）大模型是首个具备支持中文文字生成能力，且同时支持中英文文字特效生成的视频生成模型。

实验结果显示，在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中，万相表现出色，并且斩获 5 项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升，万相能稳定呈现人物的旋转、跳跃等高难度动作，并逼真模拟物体碰撞、反弹和切割等真实物理效果。

良好表现的背后，是基于主流的DiT和线性噪声轨迹Flow Matching范式，万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的因果3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标，这些创新共同提升了模型的最终性能表现。

阿里展示了诸多万相大模型生成的视频，大家看看效果：

开源地址：

Github: https://github.com/Wan-Video

HuggingFace: https://huggingface.co/Wan-AI

魔搭社区：https://modelscope.cn/organization/Wan-AI

您可能感兴趣的...