互联网
DeepSeek发布NSA研究成果,创始人梁文锋亲自参与
2025-02-19 14:20  来源:TechWeb

近日,人工智能公司DeepSeek在海外社交平台上发布了一份技术论文报告,聚焦于原生稀疏注意力(NSA)机制的研究。该论文引起了业界的广泛关注,不仅因为其研究内容的创新性,更因为论文的署名中包含了意外的人物。

论文的第一作者袁景阳是在DeepSeek实习期间完成了这项研究,这一成果的取得对他个人以及DeepSeek来说都是一大喜讯。令人感到惊喜的是,DeepSeek的创始人梁文锋也作为著作者之一出现在论文署名中,排名倒数第二,这一举动在业内引起了不小的讨论。

论文摘要指出,DeepSeek团队认识到长上下文建模对于下一代大型语言模型的重要性。然而,现有的标准注意力机制随着序列长度的增加,其高复杂度成为了性能提升的瓶颈。NSA机制的提出,正是为了解决这一问题。

NSA通过高效处理长序列的能力,使模型能够直接处理如整本书籍、代码仓库或长轮对话等大规模数据,极大地扩展了大型语言模型在文档分析、代码生成、复杂推理等领域的应用范围。

此外,NSA针对现代硬件的优化设计不仅提高了推理速度,还降低了预训练的成本,同时保持了模型的性能。在通用基准测试、长文本任务和基于指令的推理中,NSA的表现均能达到或超越全注意力模型。
DeepSeek团队认为,稀疏注意力机制为提高模型效率同时保持能力提供了一条有希望的途径。

根据公开资料,NSA是一种专为长文本训练与推理设计的稀疏注意力机制,它通过动态分层稀疏策略等先进技术,对传统AI模型的训练和推理过程进行了显著优化。
 

您可能感兴趣的...
高德地图 上线当天使用高德扫街榜用户超4000万人
2025苹果秋季新品发布会
美团筹备大学校园即时零售新项目
华为公司董事长梁华 2024年全年销售收入超过8600亿元
智慧乌镇点亮数字经济新未来
  • 智慧乌镇点亮数字经济新未来
  • 2024-11-21分享热度:735...
  • 以“拥抱以人为本、智能向善的数字未来——携手构建网络空间命运共同体”为主题的2024年世界互联网大会...
  • GoPro宣布计划裁员约15%
  • 2024-08-20分享热度:269...
  • 曝GoPro将裁员15% 该计划将在2024财年的预计支出基础上减少约5000万美元的运营支出。
发表评论
0评