机房IT设备AI自动巡检平台:你还在人工跑断腿?它已替你“看”出故障

74.机房IT设备AI自动巡检资产管理平台

机房IT设备AI自动巡检平台:你还在人工跑断腿?它已替你“看”出故障

你见过凌晨三点的机房吗?

我见过。

并不是源于浪漫, 而是由于交换机再度发出警报了。跟随长达七年之久的老旧机房, 光纤如同蜘蛛网那般, 盘绕于吊顶之上, 设备指示灯闪烁的模样, 类似赌场里的老虎机。彼时, 我蹲伏在机柜的后方, 手中的手电筒照亮那已然生锈的标签, 心里想: TMD, 我究竟是运维工程师, 还是机房保洁?

度过了十年的运维生涯, 最害怕的情形便是, 监控大屏呈现出一切正常的状态, 然而现场的设备却冒烟了。

就机房这个物件来说, 该如何表述呢, 它犹如你家那老旧的房屋, 从表面瞧着仿佛完好无损, 然而一旦把墙皮剥开, 内里尽是电线的头儿。

一日之后方才发觉, 存在一个名为“AI自动巡检资产管理平台”之物。

说实话,第一反应是:又来一个花里胡哨的KPI工具。

但真用上了,我才发现自己错了。

什么是AI自动巡检资产管理平台?简单说就是“机房管家”

有种东西, 当你于家中刷抖音之际, 它好似幽灵一般, 在你所在的机房里进行巡逻。

并非是那种设置几个阈值、发送几条告警的“伪智能”, 从设备温度, 到风扇转速, 再到硬盘健康度, 从机柜门的开关次数, 到电源模块的老化曲线, 它通通都会给你紧紧盯着的。

头一回我瞧见其检测出某一个机柜之中的第三块硬盘呈现 “读写延迟异常, 存在80%概率于未来72小时之内产生故障” 的状况时, 讲真的, 后背稍微有点发凉。

在那之日恰为周五午后, 依之前秉性习惯, 此故障极有可能拖拉至周一清晨才会被察觉, 紧接着用户拨打致电恶语谩骂, 随后我便需加时工作。

然而, 此平台在故障发生前三天, 就将故障精准定位到“哪一个机柜的第几块盘”, 还附带有序列号、损坏路径以及连带影响范围这么些信息, 直接推送至我的手机之上。

我当时正在烧烤摊上啃鸡翅,差点没噎着。

它能“看”到什么?比你肉眼多十倍

换做从前进行巡检之时, 你手持着一本登记表还有一支笔, 于各个机柜依次查看灯光情况, 绿色的便视为正常, 黄色的予以记录在案, 红色的则要进行报修处理。

但你可曾思索过这样一个情形, 当你瞅见黄灯亮起之际, 你是否留意到, 此设备实际上已然处于“患病”状态好些时日了呢?

AI自动巡检平台用的是啥?多模态感知。

直白点讲就是, 它不仅要看指示灯, 还要听风扇发出噪音的改变情况, 探测设备表面温度的分布状况, 剖析电源模块电流的波形图样, 甚至凭借振动传感器来判定硬盘是否快要出现故障了。

我这样子表述, 那你的耳朵是无法听清楚电源风扇, 有着从“平稳”状态转变至“抖动”状态的那种轻微变化的, 然而它却是能够的。

而且它将这些数据全部制作成可视化的热力图, 当点开查看时, 哪些机柜呈现出如同发烧般红彤彤的状态, 一下子就清晰明了。

资产管理这个事儿,以前是真乱

说实话,我以前最头疼的不是设备坏,而是设备坏了不知道是啥。

有没有过这样的经历, 机柜当中有好多设备, 上面贴着写了“在二零二零年的情况下, 属于XX的项目范畴的设备之下被定为备用状态的状况”的标签, 然而却没有任一个人清楚这一部设备实际上究竟是被用于做什么事情的呢。

到底有几多的 IT 预算, 实际上是耗费于重复采购以及过度备件方面的呢? 我估摸是没有谁去计算过的。

机房巡检app_机房自动巡检机器系统_74.机房IT设备AI自动巡检资产管理平台

但AI自动巡检资产管理平台能干一件事:资产全生命周期管理。

记录存在于设备入库之时, 也存在于设备安装之时, 还存在于设备调拨之时, 更存在于设备维修之时, 甚至存在于设备报废之时, 并且全部是借助图像识别与条码扫描以及环境感知自动达成的。

臂如你新近增添了一台服务器, 无需依靠手动去录入, 平台凭借摄像头以及网络拓扑能够自动辨别出设备的型号、序列号、端口连接所涉及的关系, 而后径直写入资产的台账。

难道你觉得这样便终结, 并非如此, 它居然会自主告知你, 此台设备三年后就得遭淘汰, 还提议事先做好预算。

当我头一回瞅见这个功能之际,在内心中仅存有一个想法, 即往昔那个于每年年末对着Excel表格去核查资产的夜晚, 已然无法再度回归了。

它能替你“看见”看不见的故障

机房之中的“隐形杀手”究竟是什么呢? 并非是黑客, 也不是断电, 而乃是温湿度产生的波动以及灰尘渐渐的积累。

或许你并不清楚, 倘若机柜之中的进风口被灰尘堵塞了百分之二十, 那么散热效率就会降低百分之四十, 你去触摸一下机柜顶部, 它难道不烫手吗?

借由红外热成像以及气流模型, AI自动巡检平台得以实时去推演机房之内的热量分布情况, 能够提前告知你这样的信息: “左侧第三列机柜上方位置的冷通道压力处于偏低状况, 建议针对地板下通风口展开检查。”。

我试过一次,真的,底下通风口被一根废弃的网线堵得死死的。

这种事儿,你肉眼根本看不出来。

为啥我劝你也上一个?

并非专为谁去做那种带有宣传性的推广行为, 仅仅是感觉历经多年从事运维工作之后, 终于是出现了这样一种工具可以让我们能够获得些许喘息的机会。

从前, 我老是觉着自身好似一名救火队员, 哪里起火就往哪里奔去。当下? 愈发像是身处调控中心的一名指挥官, 瞅着地图里那些呈现绿色的信号点, 间或涌现出一个黄色警示, 我点击查看: “建议予以更换, 预计剩余寿命为30天。”。

然后我不慌不忙地走流程、下单、备件、更换。

用户甚至不知道设备坏过。

你问问自己,这种体验,值不值?

别等“小毛病”变成“大事故”

机房设备它是这样一种东西, 你不去管这个它, 它就会以自己的方式 “自行管理自己”, 然而其方式却是出其不意地给你呈现出死机的状态。

往昔我曾遭受这般亏: 有一回, 一台核心交换机, 历经五年持续运行, 始终安然无恙, 然而在某一天的下午四点, 它却陡然出现故障停止运行, 致使全公司网络中断长达两小时。

事后拆开一看,电源模块里的电容鼓包了四个。

如果那个时候存在一个AI自动巡检平台, 或许在三个月之前便能够察觉到电源纹波出现异常, 进而提前发出预警。

可惜没有如果。

因此呀, 要是你当前依旧凭借着手电筒以及笔记本去巡查机房的话, 听我这么一句劝告: 时代已然改变了。

你不是在省钱,你是在赌运气。

而运气这东西,在机房这种地方,从来都不靠谱。

别等了。

您可以还会对下面的文章感兴趣:

暂无相关文章

最新评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。