内存焦虑有救了！谷歌发布新型AI内存压缩技术_互联网_资讯_星元科技

互联网

内存焦虑有救了！谷歌发布新型AI内存压缩技术

2026-03-26 12:32 来源：快科技

3月26日消息，谷歌研究院推出全新AI内存压缩技术TurboQuant，精准破解AI推理的内存瓶颈。

该技术可在不损失精度的前提下，将大语言模型缓存内存占用至少缩减6倍，推理速度最高提升8倍。

AI模型运行时有一种“工作内存”，即KV缓存（Key-Value Cache）。每当模型处理信息、生成回答时，KV缓存便会迅速膨胀，且上下文窗口越长，缓存占用的内存越大。

这已成为制约AI系统效率与成本的核心瓶颈，并非模型不够智能，而是运行时的内存难以支撑。

TurboQuant采用向量量化的方法对缓存进行压缩，使AI在占用更少内存的同时记住更多信息，且保持准确性。实现这一效果的关键在于两项技术：名为PolarQuant的量化方法，以及名为QJL的训练与优化手段。研究团队计划在下个月的ICLR 2026会议上正式发布相关成果。

研究团队在Gemma和Mistral等开源大模型上进行了严格的基准测试。实验数据显示，TurboQuant无需任何预训练或微调，即可将键值缓存高效压缩至3比特，在“大海捞针”等长上下文测试中实现零精度损失，内存占用降至原来的六分之一。

此外，在H100 GPU加速器上，4比特TurboQuant的运行速度较未量化的32比特基准提升了高达8倍。

您可能感兴趣的...

中小商家如何开通高德商户通？效果怎么样？
2026-04-17分享热度:59...
商户通是高德地图推出的针对中小商家的推广产品，主要包括展示页面、广告形式、价格、功能和效果本地...

高德地图上线当天使用高德扫街榜用户超4000万人
2025-09-11分享热度:335...
“高德扫街榜”是全球首个基于行为+信用的榜单产品，对商家进行综合评分、排名，涵盖美食、景点、酒店等...

2025苹果秋季新品发布会
2025-08-29分享热度:254...
2025年秋季苹果公司举行的产品发布会活动

美团筹备大学校园即时零售新项目
2025-08-02分享热度:285...
美团正在筹备针对大学校园场景的即时零售新项目“校园mini仓”，在校园内或周边设立小型闪电仓，覆盖零...

传京东6800底薪招外卖员知情人回应
2025-02-17分享热度:171...
#传京东6800底薪招外卖员知情人回应#今日，关于京东外卖“6800元底薪+五险一金”招外卖员的传闻，京东...

华为公司董事长梁华 2024年全年销售收入超过8600亿元
2025-02-05分享热度:838...
在广东省高质量发展大会上，华为公司董事长梁华全年销售收入超过8600亿元。

智慧乌镇点亮数字经济新未来
2024-11-21分享热度:922...
以“拥抱以人为本、智能向善的数字未来——携手构建网络空间命运共同体”为主题的2024年世界互联网大会...

智能手表销量TOP5品牌华为智能手表位列第一
2024-10-30分享热度:342...
智能手表销量前五的品牌分别是华为、苹果、小米、荣耀和vivo，TOP5品牌共占据了67.5%的市场份额。

《三角洲行动》9月26日正式上线
2024-09-24分享热度:337...
《三角洲行动》9月26日正式上线，最大亮点为融合多种射击游戏模式。

华为市场份额跃升至28.4% 首次超过苹果iPad
2024-08-29分享热度:1166...
IDC数据显示，2024年第二季度中国平板电脑市场出货量为720万台，出货量第一名是华为，市场份额28.4%。

发表评论