阿里通义Qwen3：推理模型升级，数学与编程能力飞跃_互联网_资讯

阿里通义Qwen3：推理模型升级，数学与编程能力飞跃

2025-07-31 17:51 来源：TechWeb

7月31日消息，人工智能领域再掀热潮。

阿里通义近日推出的推理模型新版本Qwen3-30B-A3B-Thinking-2507，实现了数学推理和代码能力的关键性提升。根据最新报道，该模型在数学推理评测AIME25中取得了85.0分的高分，同时在代码能力测试LiveCodeBench v6中也以66.0分的成绩，显著超越了包括Gemini2.5-Flash（thinking）和旧款旗舰Qwen3-235B在内的竞争对手。

这款名为通义Qwen3的新推理模型不仅在知识水平评测（GPQA、MMLU-Pro）上展示了明显的进步，还在写作能力（WritingBench）、Agent执行能力（BFCL-v3），以及多轮对话和多语言指令处理（MultiIF）等综合能力上表现出显著优势。通过一系列的测试数据比较，Qwen3的综合性能已经超越了同类产品的标准水平。

此次模型升级的特色之一是显著增加了思考长度，这大大提升了模型在面对复杂任务时的处理能力。开发者现在可以利用这一特性，通过延长模型的思考时间，来挖掘其在逻辑推理和多步骤问题解决方面的潜力。

阿里通义已经将这一先进模型在魔搭社区和HuggingFace上开源，同时推出的Qwen Chat智能对话平台也将为用户带来更流畅和高效的交互体验。这一技术进步不仅代表了通义千问在专用推理模型领域的重要突破，也为全球开发者社区贡献了一个更加强大的AI工具。（Suky）

您可能感兴趣的...

高德地图上线当天使用高德扫街榜用户超4000万人
2025-09-11分享热度:206...
“高德扫街榜”是全球首个基于行为+信用的榜单产品，对商家进行综合评分、排名，涵盖美食、景点、酒店等...

2025苹果秋季新品发布会
2025-08-29分享热度:178...
2025年秋季苹果公司举行的产品发布会活动

美团筹备大学校园即时零售新项目
2025-08-02分享热度:191...
美团正在筹备针对大学校园场景的即时零售新项目“校园mini仓”，在校园内或周边设立小型闪电仓，覆盖零...

传京东6800底薪招外卖员知情人回应
2025-02-17分享热度:148...
#传京东6800底薪招外卖员知情人回应#今日，关于京东外卖“6800元底薪+五险一金”招外卖员的传闻，京东...

华为公司董事长梁华 2024年全年销售收入超过8600亿元
2025-02-05分享热度:741...
在广东省高质量发展大会上，华为公司董事长梁华全年销售收入超过8600亿元。

智慧乌镇点亮数字经济新未来
2024-11-21分享热度:837...
以“拥抱以人为本、智能向善的数字未来——携手构建网络空间命运共同体”为主题的2024年世界互联网大会...

智能手表销量TOP5品牌华为智能手表位列第一
2024-10-30分享热度:310...
智能手表销量前五的品牌分别是华为、苹果、小米、荣耀和vivo，TOP5品牌共占据了67.5%的市场份额。

《三角洲行动》9月26日正式上线
2024-09-24分享热度:310...
《三角洲行动》9月26日正式上线，最大亮点为融合多种射击游戏模式。

华为市场份额跃升至28.4% 首次超过苹果iPad
2024-08-29分享热度:1085...
IDC数据显示，2024年第二季度中国平板电脑市场出货量为720万台，出货量第一名是华为，市场份额28.4%。

GoPro宣布计划裁员约15%
2024-08-20分享热度:306...
曝GoPro将裁员15% 该计划将在2024财年的预计支出基础上减少约5000万美元的运营支出。