互联网
阿里云Qwen3开源8款「混合推理模型」
2025-04-29 12:08  来源:TechWeb

4月29日消息,今日阿里云Qwen3正式发布并全部开源8款混合推理模型。

此次开源包括两款MoE模型:Qwen3-235B-A22B(2350多亿总参数、 220多亿激活参),以及Qwen3-30B-A3B(300亿总参数、30亿激活参数);以及六个Dense模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。

全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载模型并商用,支持Apache2.0协议开源,也可以通过阿里云百炼调用Qwen3的API服务,

个人用户可立即通过通义APP直接体验Qwen3,夸克也即将全线接入Qwen3。

Qwen3 模型支持 119 种语言和方言。

Qwen3 模型支持两种思考模式:1. 思考模式,适合需要深入思考的复杂问题。2. 非思考模式,适用于对速度要求高于深度的简单问题。这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力,让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

据介绍,旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与一众顶级模型相比,表现出极具竞争力的结果。性能表现超OpenAI-o1、DeepSeek-R1等大模型。

小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B10%,表现更胜一筹, Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

对于部署,阿里云推荐使用 SGLang 和 vLLM 等框架;而对于本地使用,像 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 这样的工具也非常值得推荐。

您可能感兴趣的...
高德地图 上线当天使用高德扫街榜用户超4000万人
2025苹果秋季新品发布会
美团筹备大学校园即时零售新项目
华为公司董事长梁华 2024年全年销售收入超过8600亿元
智慧乌镇点亮数字经济新未来
  • 智慧乌镇点亮数字经济新未来
  • 2024-11-21分享热度:744...
  • 以“拥抱以人为本、智能向善的数字未来——携手构建网络空间命运共同体”为主题的2024年世界互联网大会...
  • GoPro宣布计划裁员约15%
  • 2024-08-20分享热度:270...
  • 曝GoPro将裁员15% 该计划将在2024财年的预计支出基础上减少约5000万美元的运营支出。
发表评论
0评