英伟达刷新 DeepSeek V4 推理纪录：单 Token - xn-mkro2sf1o.com-xn--mkro2sf1o.com

英伟达刷新 DeepSeek V4 推理纪录：单 Token

2小时前发布

04114

英伟达刷新 DeepSeek V4 推理纪录：单 Token 成本降至五分之一

NVIDIA 推理软件栈在 Blackwell 平台上持续优化，使得 DeepSeek V4 模型的 Token 生成成本在一个月内降至原先的五分之一。来自 PyTorch 社区的数据显示，在 GB300 离散式部署下，SGLang 引擎的吞吐量从 4 月初的约 2,200 Tokens/秒/GPU，提升至 6 月的约 11,200 Tokens/秒/GPU。这意味着在保持用户约 50 Tokens/秒的高流畅交互体验不变的同时，性能实现了 5 倍的增长。此外，Blackwell Ultra 的聚合部署方案也获得了近 3 倍的提升。

这一性能飞跃得益于多项内核与运行时的深度优化，包括融合技术、显存压缩、量化精度路径，以及改进后的内存预算、可中断计算图支持与推理稳定性修复。NVIDIA 方面表示，若后续再叠加分解式服务、新浮点精度与多 Token 预测等高级优化，系统级吞吐量最高有望提升至 20 倍。

NVIDIA Blog | PyTorch

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容

免责声明：

本站所有内容和资源均来自网络，仅供用户交流、学习与研究使用。版权归原版权方所有，本站不承担任何版权争议责任。

用户下载后不得用于商业或非法用途，需在24小时内从电脑中删除，否则责任自负。

访问和下载文件即表示您同意仅将其用于参考和学习，其他用途后果自负。

如您喜欢该程序，请支持正版软件，购买注册以获得更好的服务。

本站为非营利性个人网站，所有软件信息来自网络，仅供学习和研究参考，无商业用途。会员捐赠仅用于支持服务器的维护，完全自愿。