英伟达刷新 DeepSeek V4 推理纪录:单 Token

英伟达刷新 DeepSeek V4 推理纪录:单 Token

英伟达刷新 DeepSeek V4 推理纪录:单 Token 成本降至五分之一

NVIDIA 推理软件栈在 Blackwell 平台上持续优化,使得 DeepSeek V4 模型的 Token 生成成本在一个月内降至原先的五分之一。来自 PyTorch 社区的数据显示,在 GB300 离散式部署下,SGLang 引擎的吞吐量从 4 月初的约 2,200 Tokens/秒/GPU,提升至 6 月的约 11,200 Tokens/秒/GPU。这意味着在保持用户约 50 Tokens/秒的高流畅交互体验不变的同时,性能实现了 5 倍的增长。此外,Blackwell Ultra 的聚合部署方案也获得了近 3 倍的提升。

这一性能飞跃得益于多项内核与运行时的深度优化,包括融合技术、显存压缩、量化精度路径,以及改进后的内存预算、可中断计算图支持与推理稳定性修复。NVIDIA 方面表示,若后续再叠加分解式服务、新浮点精度与多 Token 预测等高级优化,系统级吞吐量最高有望提升至 20 倍。

NVIDIA Blog | PyTorch

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    暂无评论内容

免责声明:

本站所有内容和资源均来自网络,仅供用户交流、学习与研究使用。版权归原版权方所有,本站不承担任何版权争议责任。

用户下载后不得用于商业或非法用途,需在24小时内从电脑中删除,否则责任自负。

访问和下载文件即表示您同意仅将其用于参考和学习,其他用途后果自负。

如您喜欢该程序,请支持正版软件,购买注册以获得更好的服务。

本站为非营利性个人网站,所有软件信息来自网络,仅供学习和研究参考,无商业用途。会员捐赠仅用于支持服务器的维护,完全自愿。