降低人工智能时代的停机成本
能够在一定程度上准确预测硬件故障,为在信息技术(IT)领域进行大量资本投资的服务提供商提供了巨大的节约潜力。对于大规模运营成本高昂的高性能计算(HPC)和人工智能(AI)平台的企业客户来说,他们所提供服务的可用性就是一切:系统故障会锁定客户并困住资源,使其失去效用,造成巨大损失。此类故障会造成收入损失,影响员工的整体工作效率,并损害公司的品牌。研究表明,根据行业的不同,计划外停机一小时的平均成本从每小时 100,000 美元到远远超过每小时 500,000 美元不等[1] [2] 。
进入预测性故障分析 (PFA)
通过评估大量的历史数据,预测性故障分析 (PFA) 可以对发生故障的可能性提供有价值的见解。芯片组、电路板、硬盘驱动器和焊接连接的使用寿命都是有限的。历史故障数据的趋势可能预示着未来故障发生的时间范围。
对于大型设备或汽车制造商(及其客户)来说,PFA 有可能提高资产的预期寿命,从而减少高达 5% 的未来支出。PFA 还可用于在操作员和技术人员更自由、更便宜的时候安排维护,从而提高效率并节省高达 20% 的费用[3]。
影响 PFA 性能的因素有很多。根据相关系统的平均工作量、使用的历史数据范围以及所涉及的机器学习 (ML) 或深度学习 (DL) 算法,PFA 的准确性可能会受到质疑。
线性回归和多项式回归通常用于确定剩余使用寿命 (RUI),而长短期记忆 (LSTM) 和随机森林算法可用于完善故障预测,并取得不同程度的成功。[4] [5] [6]
虽然 PFA 有明显的优势,但并非万无一失。为了提供相同水平的服务可用性并保护资本投资的价值,明智的做法是考虑使用远程协助合同来加强任何使用 PFA 的支持计划。
远程协助是一种保险
将遥控手与 PFA 结合使用可为计划内和计划外停机带来好处。
计划中的停机可以提前很长时间安排,这样就可以在资源可自由使用且最经济实惠的时候分配资源。远程服务提供商还可以享受规模经济:有了充足的资源可供调配,与雇佣、培训和管理自己的技术人员相比,可以节省大量成本。(根据所需的技能组合,一个满负荷工作的工程师每年的成本可达六位数或更高)。
对于任何意外停机,恢复服务都是首要问题。 如果没有签订远程协助合同,意外故障的解决将需要更长的时间。部署到现场排除故障和解决问题的资源首先需要经过验证、投保和入职,然后才能部署。而远程服务提供商拥有大规模的资源,已经对资源进行了审查和分配,因此响应时间更快。
战略技术投资
根据服务的性质,大型环境的持续中断可能会花费数百万美元。远程协助合同本身或作为包括 PFA 在内的更广泛的灾难恢复计划的一部分,可以作为一项支出项目,甚至有可能作为更大的软件或服务订购的一部分进行资本化。
运营成本的轻微增加完全可以保护您免受因长期服务中断而造成的数百万美元的损失。
你应该用什么方法来证明对远程支持的投资是合理的?企业财务衡量标准因公司而异,但可以从中得出一些说明。
案例研究
您正在评估一份价值 250,000 美元的远程人工合同,该合同覆盖北美数据中心的三个环境,为期一年。您估计停机成本为每小时 100,000 美元(包括滞留或闲置资源、收入损失、品牌影响等)。上一次由于硬件故障导致停机时,您的应用程序宕机了 6 个小时。对公司的净影响为 60 万美元。
企业财务不会批准 IT 支出,除非投资能达到 10%的门槛率(有时称为最低可接受回报率或 MAAR)。
远程操作合同的一个预期好处是缩短意外停机的平均恢复时间(MTTR)。据估计,平均恢复时间可以大大缩短。如果能将上次停电的平均恢复时间缩短 50%,那么服务恢复时间就能提前三小时,从而节省 30 万美元。
公司财务是否应授权购买这份远程操作合同,作为帮助减少未来意外停机时间的一份保险?
我们用一个简单的公式来计算投资回报率:
投资回报率 = (净利润/投资成本)* 100
在这种情况下,净利润就是 30 万美元的节余减去 25 万美元的合同成本,即 5 万美元。
投资回报率 = (300,000 美元-250,000 美元)/250,000 美元 * 100
50,000 美元除以 250,000 美元就是 20%,也就是财务要求的 MARR 的两倍。
(请记住,这一回报仅以一次停电来衡量。如果在一年内发生多次计划外停机,节省的费用会高出很多)。
公司财务应批准对遥控合同的投资。
摘要
人工智能在预测性故障分析领域取得了长足进步,在未来数月和数年内,预测性故障分析的有效性只会越来越高。
与此同时,投资保护的需求依然存在。对远程操作合同进行战略性投资,有助于减轻意外停机造成的财务影响,同时帮助您充分利用计划停机窗口的灵活性。
说明
[1] https://medium.com/@brijesh_soni/why-random-forests-outperform-decision-trees-a-powerful-tool-for-complex-data-analysis-47f96d9062e7
[2] Yadav, D. K., Kaushik, A., & Yadav, N. (n.d.).使用机器学习和深度学习算法预测机器故障。https://www.elsevier.com/locate/smse
[3] https://www.bakerhughes.com/bently-nevada/blog/unplanned-downtime-key-disruptor-industry
[4]https://medium.com/@jatin2707/machine-failure-prediction-a-comprehensive-guide-524726c3b1fd
[5] https://www.atlassian.com/incident-management/kpis/cost-of-downtime
[6] 摘自 "预测性维护:德勤的方法" https://www2.deloitte.com/content/dam/Deloitte/us/Documents/process-and-operations/us-predictive-maintenance.pdf
主题:遥控、机器学习 (ML)、人工智能 (AI)、深度学习 (DL)、生产力、数据中心、云、预测性故障分析 (PFA)、循环神经网络 (RNN)、高性能计算 (HPC)、企业财务、战略投资、线性回归、长短期记忆 (LSTM)、 随机森林、投资组合理论。