NVIDIA Dynamo Snapshot:Kubernetes 推理工作负载的快速启动解决方案

冷启动问题在生产环境的推理部署中,需求会随时间波动,需要推理副本进行弹性扩缩容。然而,在 Kubernetes 上冷启动推理工作负载可能需要数分钟。在此期间,GPU 已分配但处于空闲状态,无法生成 token 或处理请求。这种延迟会增加流量高峰期间服务级别协议(SLA)违规的风险……

NVIDIA Dynamo Snapshot冷启动问题在生产环境的推理部署中,需求会随时间波动,需要推理副本进行弹性扩缩容。然而,在 Kubernetes 上冷启动推理工作负载可能需要数分钟。在此期间,GPU 已分配但处于空闲状态,无法生成 token 或处理请求。这种延迟会增加流量高峰期间服务级别协议(SLA)违规的风险……

NVIDIA Dynamo Snapshot

在生产环境的推理部署中,需求会随时间波动,需要推理副本进行弹性扩缩容。然而,在 Kubernetes 上冷启动推理工作负载可能需要数分钟。在此期间,GPU 已分配但处于空闲状态,无法生成 token 或处理请求。这种延迟会增加流量高峰期间服务级别协议(SLA)违规的风险……

来源