GPU利用率不高 gpu利用率突然满载

转载

lemon 2024-03-19 10:12:14

1 背景

处理CPU突增问题时，首先要对整个系统的整体结构和流量路径做到心中有数。例如流量进入系统要经过负载均衡、网关、服务…

引起高利用率的原因可能多种多样，具体情况需要根据具体位置的警报来进行判断。

表现：整个系统链路上各个环节流量均正常。

可能原因：现如今微服务部署，一台物理机上可能划分多个虚拟机器，并分配给不同的业务使用。由于由于单机硬件性能影响，及同宿主机的其它业务影响，导致自身服务部可用。

解决：快速禁用服务，更换机器。通过服务管理中心禁用改机服务，随后替换。

注意事项：这种情况一定是先处理故障，再排查具体影响。保证业务稳定。

表现：监控系统上关于消息服务、HTTP、RPC等请求量快速增长。流量较低时，未出现问题，高流量时发生问题。

可能原因：

解决：

注意事项：如果资源充足的情况，有限使用扩容，这样尽量保证服务可用。其次再考虑限流，同事要评估限流导致的损失是否可控。

表现：与2.2原因一致，只是这种逻辑问题在小流量情况下也会导致服务不可用，单机CPU利用率过高。

可能原因：开发时逻辑有问题。

解决：

注意事项：这种问题，在发布时，一定是要灰度发布，并有一个观察期。随后出现问题快速回滚。

遇到这种问题，优先要保证服务可用。先不要去考虑原因。快速限流、重启、扩容、甚至混滚系统，随后逐步恢复流量。事后分析场景，解决问题。

在没有自动化平台时，要熟练了解解决这些问题的工具。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯