AI园区省电,省的是钱还是命?能耗管控真相让人破防

145.AI园区能耗管控

AI园区省电,省的是钱还是命?能耗管控真相让人破防

你以为省电就是关灯?

在我们所在的这栋楼, 于AI园区里, 白天的时候亮得如同水晶宫一般。空调被设置到16度, 即便穿着羽绒服仍在编写代码。那晚上又是怎样的情形呢? 服务器发出嗡嗡的响声, 散热风扇运转起来吹得仿若台风一般。

没人管。

来了电费单子, 老板的脸变绿了。然而这能去怪谁? 是怪AI过于能消耗? 还是怪我们委实太随意地使用?

并不是这样的。实际上, 真正的那个带有邪恶性质的家伙, 隐匿于你完全没办法看到的所在之地。

为什么你的AI园区电费能买一辆跑车?

你讲, 再多开启几台服务器, 将其算力增强一些, 让项目推进得更为迅速些, 那样不就能够实现回本了吗?

呵呵。

你有没有计算过那GPU处于待机状态时的功耗, 你是否知晓数据中心所谓的PUE值也就是能效比如若下调0.1那般究竟能够节省多少, 对于一个中型的AI园区来讲, 一年的电费高达五六千万之多, 而这里面起码有30%是被无端浪费掉的。

那空调制冷出现过度的状况, 供电线路存在损耗情形, 设备处于空转状态, 散热系统呈现低效态势, 这些并非属于技术方面的问题, 而是管理层面的问题, 更加是有关人性的问题。

你以为你懂能耗?你懂个屁。

能耗管控不是让你去拔电源

有人一拍脑袋:把空调关了!把灯关了!把服务器限速!

嗯,然后呢?机房温度飙升,服务器宕机,算法工程师抱着你哭。

这种“省电”方式,跟把家里电闸拉了有什么区别?

真正的能耗管控,是让每一度电都花在刀刃上。

不是不让你用,是你别他妈浪费。

为什么传统方法全他妈没用?

诸多园区我都见识过了, 安装好些传感器, 弄了好些大屏, 数据看板做得跟科幻影片一样, 然而结果如何呢?

没人看。

鉴于数据量极为庞大, 致使报警频率过高, 运维人员根本无法分辨出究竟哪一个属于真实问题, 哪一个又是虚假警报。最终二话不说, 暂且将报警关闭了事, 企图图个耳清目明心神无扰。

所以,能耗管控的本质不是技术问题,是“人”的问题。

你弄出一个AI能耗管控系统, 倘若无法使得运维方面的大哥感觉好用, 要是没办法让老板觉得具备划算的特性, 那么它就只是一堆毫无用处的废铁罢了。

AI园区能耗管控到底管什么?

我告诉你,真正要管的就三件事:

要对算力进行调度, 不能让GPU处于闲置状况, 也不能使其忙碌到好似要冒烟, 要进行动态分配, 按照需求来供给, 对于该关掉的就关掉, 对于该降低频率的就降低频率。

冷暖气流, 切勿将机房视作冰箱, 冷通道、热通道以及精确送风, 比对你家的中央空调精准程度高出十倍。

每一个人的意识, 从保洁阿姨开始, 到架构师结束, 究竟是谁, 会随手就把灯关闭掉? 又是谁, 在下班的时候, 不会把电脑关掉? 还有, 到底是谁, 在机房里面抽烟? 这些情况, 才是那能耗方面的黑洞所在。

省电不是靠某个系统,是靠一群人的习惯。

我们到底应该怎么干?

别想着一步到位。先从最简单的做起:

装个靠谱的能效监测平台,别搞花架子

找专业团队做一次能耗审计,别自己瞎猜

给每个机柜装个电表,让使用部门自己买单

设立能耗KPI,跟绩效挂钩,别光喊口号

你看,说到底,还是管人。

最后,说句扎心的

我所撰写的这篇文稿并非意在为谁进行广告宣传。泛微e启营的诸位友人, 你们所从事的事业具备正确性, 然而请勿将AI能耗管控弄成PPT竞赛。

最后送大家一句话:省下的每一度电,都是你未来不被裁员的本钱。

甭等到电费单把公司给压垮了, 你才想起来要去管, 那个时候, 你就连能哭的资格都不存在了。

您可以还会对下面的文章感兴趣:

暂无相关文章

最新评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。