谷歌联合研究：合成数据让大模型数学推理能力飙升八倍_互联网_资讯

谷歌联合研究：合成数据让大模型数学推理能力飙升八倍

2025-04-07 17:06 来源：TechWeb

近期，由谷歌、卡内基梅隆大学和MultiOn组成的联合研究团队，发布了一项关于合成数据在大型模型训练中应用的重要研究成果。

专注于人工智能发展的研究机构Epoch AI报告指出，当前全球约有300万亿个公开可用的高质量文本训练标记。但随着像ChatGPT这类大模型的快速发展，对训练数据的需求呈指数级增长，预计在2026年之前，这些现有数据将被耗尽。在此背景下，合成数据成为了关键的替代方案。

研究人员着重探索了两种合成数据类型，即正向数据和负向数据。正向数据是由高性能大模型，如GPT - 4和Gemini 1.5 Pro生成的正确问题解决方案，为模型提供解决数学问题的范例。然而，单纯依靠正向数据进行训练存在明显局限。其一，这种方式可能无法让模型真正理解问题解决背后的逻辑，只是通过模式匹配来学习；其二，随着训练数据量的增加，模型可能会学到虚假的相关性，导致在处理新问题时泛化能力降低。

有鉴于此，研究人员引入了负向数据，也就是经过验证为错误的问题解决步骤。这能帮助模型识别并避免错误，从而增强其逻辑推理能力。尽管使用负向数据存在挑战，因为错误步骤可能包含误导性信息，但研究人员借助直接偏好优化（DPO）方法，成功让模型从错误中学习，并强调每个问题解决步骤的重要性。

DPO方法会为每个问题解决步骤分配一个优势值，以反映其相对于理想解决方案的价值。研究发现，高优势步骤是正确解决问题的关键，而低优势步骤可能意味着模型推理存在问题。基于这些优势值，模型能够在强化学习框架内动态调整策略，更高效地从合成数据中学习和改进。

为验证合成数据的有效性，研究团队选用DeepSeek - Math - 7B和LLaMa2 - 7B等模型，在GSM8K和MATH数据集上开展了全面测试。结果令人惊喜，经过正向和负向合成数据预训练的大模型，在数学推理任务上的性能提升了八倍。这一研究充分彰显了合成数据在增强大模型逻辑推理能力方面的巨大潜力，为大模型的发展开辟了新的方向。（Suky）

您可能感兴趣的...

高德地图上线当天使用高德扫街榜用户超4000万人
2025-09-11分享热度:224...
“高德扫街榜”是全球首个基于行为+信用的榜单产品，对商家进行综合评分、排名，涵盖美食、景点、酒店等...

2025苹果秋季新品发布会
2025-08-29分享热度:185...
2025年秋季苹果公司举行的产品发布会活动

美团筹备大学校园即时零售新项目
2025-08-02分享热度:198...
美团正在筹备针对大学校园场景的即时零售新项目“校园mini仓”，在校园内或周边设立小型闪电仓，覆盖零...

传京东6800底薪招外卖员知情人回应
2025-02-17分享热度:149...
#传京东6800底薪招外卖员知情人回应#今日，关于京东外卖“6800元底薪+五险一金”招外卖员的传闻，京东...

华为公司董事长梁华 2024年全年销售收入超过8600亿元
2025-02-05分享热度:748...
在广东省高质量发展大会上，华为公司董事长梁华全年销售收入超过8600亿元。

智慧乌镇点亮数字经济新未来
2024-11-21分享热度:846...
以“拥抱以人为本、智能向善的数字未来——携手构建网络空间命运共同体”为主题的2024年世界互联网大会...

智能手表销量TOP5品牌华为智能手表位列第一
2024-10-30分享热度:312...
智能手表销量前五的品牌分别是华为、苹果、小米、荣耀和vivo，TOP5品牌共占据了67.5%的市场份额。

《三角洲行动》9月26日正式上线
2024-09-24分享热度:312...
《三角洲行动》9月26日正式上线，最大亮点为融合多种射击游戏模式。

华为市场份额跃升至28.4% 首次超过苹果iPad
2024-08-29分享热度:1092...
IDC数据显示，2024年第二季度中国平板电脑市场出货量为720万台，出货量第一名是华为，市场份额28.4%。

GoPro宣布计划裁员约15%
2024-08-20分享热度:308...
曝GoPro将裁员15% 该计划将在2024财年的预计支出基础上减少约5000万美元的运营支出。