爱AI工具库,国内AIGC产品探索者分享平台
注册
99%工具无需特殊网络!
当前位置:首页

DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

爱AI工具库 2025-02-18
38

感谢IT之家网友 软媒新友1933769 的线索投递!
2 月 18 日,DeepSeek 今日官宣推出 NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理。NSA 的核心组件包括:动态分层稀疏策略粗粒度 token 压缩细粒度 token 选择DeepSeek 官方表示,该机制可优化现代硬件设计,加速推理同时降低预训练成本,并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上,其表现与全注意力模型相当或更加优秀。IT之家附论文链接:https://arxiv.org/abs/2502.11089

来源:IT之家

相关推荐

暂无数据

评论 ( 0 )

aiaitool@163.com

打开微信扫一扫

qrcode

回顶部

×

我的收藏

请先登录登录

请先登录登录