0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

这次人工智能和机器学习“盯”上了数据中心

如意 来源:今日头条 作者:计算机世界 2020-10-29 14:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

关于人工智能的讨论目前主要还集中在自动驾驶汽车、聊天机器人、数字孪生技术、机器人技术以及从大数据集中利用基于AI的“智能”系统获取业务洞察力等方面。目前尽管可以自主运维的数据中心和自动驾驶汽车一样还没有成为现实,但是数据中心人工智能已经在技术、运维和人员等方面取得了许多重大突破。

人工智能(AI)和机器学习(ML)终究有一天将在企业数据中心内发挥重要作用。未来人工智能或许可以帮助企业创建高度自动化的、安全的且具有自我修复功能的数据中心。这些数据中心能够以更高的效率和更高的弹性运行,几乎不再需要进行人工干预。

人工智能提升数据中心效率和扩展业务的潜力主要在以下4个方面:

安全性:公安部在16个城市试点基础上,在全国分两批推广机动车检验标志电子化。

工作负载管理:AI系统可实现工作负载实时地自动向效率最高的基础设施迁移,这些基础设施既可以在数据中心内部,也可以在混合云环境上;既可以在本地,也可以在云端,还可以在边缘环境中。

电源管理:基于AI的电源管理可优化冷却系统,降低电费成本,减少人员数量,提高效率。

设备管理:AI系统可以检查系统是否配置正确,监视服务器、存储和网络设备的健康状况,预测设备的故障时间。

人工智能与安全

安全运营中心(SOC)的安全专业人员常常会被大量的警报搞得精疲力尽。基于AI的系统可以扫描大量遥测数据和日志信息,处理一些简单的工作,从而使得安全专家有时间展开深入的调查。基于AI的系统可以检测、阻止和隔离威胁,并展开溯源以确定到底发生了什么,以及黑客能够利用哪些漏洞。这使得人工智能在实时入侵检测方面极为有用。

迅速进行根本原因分析可以帮助运维人员做出明智的决定并采取行动。人工智能和机器学习可以通过对事件进行快速分类和聚类的方式,识别出重要事件并将其与噪音分离,从而简化事件处理(事件响应)。

除了可以帮助解译那些超出人类能力水平的数据外,AI自动化还可在优化能源使用、工作负载分配和数据中心资产利用效率最大化等方面帮助获取深刻的洞察力。

基于AI的工作负载优化

无论是在本地还是在云端,AI在应用程序层可自动将工作负载移动到适当的位置。例如,将工作负载自动迁移到最节能的服务器上,同时确保服务器以最高效率(利用率为70%~80%)运行。

人工智能系统还可将时间敏感性高的应用程序迁移到高效率服务器上运行,同时确保那些不需要迅速执行的应用程序不会消耗过多的电力。

未来,AI/ML还可根据性能、成本、治理、安全性、风险和可持续性等因素,实时决定将工作负载迁移至何处。

将电源管理与服务器工作负载管理整合在一起

AI带来的好处与出色硬件设计所带来的好处不在一个层次上。电源管理则是最容易进行改进的地方。这关乎生产力,关系到每个BTU是否可以完成更多的工作,关系到每瓦特电能是否能做更多的工作。

这也意味着工作要更加智能化,以及设备是否能够更加智能地工作。如果传感器检测到服务器运行温度过高,那么系统可自动地快速将工作负载转移到未充分利用的服务器上,以避免关键任务应用程序出现中断的危险。同时系统会调查服务器过热的原因,是风扇出现了故障(HVAC问题),还是物理组件出现了故障(设备问题),亦或是服务器出现了过载(工作负荷问题)。

AI系统还可以通过关联HVAC系统数据和环境传感器数据来了解设施目前的状态。例如,基于AI的系统可以帮助数据中心管理员了解当前或潜在的冷却问题。如HVAC单元性能不佳、冷热通道之间的空气量不足,以及由于机柜密度过高阻碍了空气流通导致冷气输送不足等问题。

容量规划也是一个可能改进的地方。除了寻找发热点和冷却点之外,AI系统还能确保数据中心只为适当数量的物理服务器提供电力,如果出现临时性需求激增的情况,系统还可以启动新的物理服务器以提高可用容量。

许多企业之所以正在花大力气研究数据中心电源管理,一方面是为了节省资金,另一方面也是为了承担起企业的环保责任。有数据显示,数据中心消耗了全球3%的电力供应,并造成了约2%的温室气体排放。

谷歌在2018年曾宣布已将其多个超大规模数据中心的冷却系统控制权交给AI程序控制,由AI算法提供的建议使得耗电量下降了40%。

运行状态监控和配置管理监督

安装了大量组件的IT机柜是劳动密集型工作,因此检查工作可能会存在不及时和不彻底情况。运行状态监视可检查设备配置是否正确以及性能是否达到预期效果。

数据中心内还有许多需要定期维护的物理设备。AI系统不仅可以对这些物理设备进行定期维护,还可收集和分析遥测数据,帮助确定需要立即关注的特定区域。以大量传感数据日志为基础的预测性设备故障建模可以发现迫在眉睫的组件或设备故障,并评估是否需要立即维护以避免服务中断。

人工智能系统最终可能会实现“告诉我问题出在哪里,我去解决这些问题”,但是即便实现了这一功能,许多数据中心运营商可能只会接受“如果出了问题,请告诉我要去哪里查看就行了。”

保持设备平稳安全运行的另一个重要环节是控制“配置漂移”。AI可作为“额外的安全检查”,可帮助识别出由于配置导致的数据中心问题。(注:配置漂移为数据中心术语,指临时配置随着时间的变化可能会导致一些问题的发生。)

部署AI所面临的挑战

优化和自动化数据中心是数字化转型计划中不可或缺的一部分。新冠疫情让许多公司开始寻求数据中心的进一步自动化,实现数字数据中心由AI驱动并可自我修复。这使得AI在数据中心中具有广阔的应用前景。一些AI/ML功能可用于事件处理、基础设施运行状况和散热优化。

尽管如此,要想让AI/ML模型超越目前的标准数据中心基础设施管理(DCIM)需要有更多突破,和更多的时间。这与自动驾驶汽车的发展极为类似,早期阶段可能非常具有吸引力,但是与最终承诺的颠覆性经济/商业案例相比仍然相去甚远。

AIOps平台的成熟度、IT技能和运维成熟度均为重大挑战。更高级别的部署面临的挑战还包括数据质量,以及IT基础设施和运维团队缺乏数据科学技能。此外,需要雇用或培训合适的人来管理系统,以及需要数据标准和相关体系结构都是部署AI时所面临的挑战。

但是自始至终最大的挑战还是在于人。各种基础设施的运维人员都在做放权给AI的准备。但是如果人们并不信任做出决定的决策者,那么在如此大规模的过渡期间人员如何培训,如何安抚人员的情绪?在过渡期间,人们普遍会想一个问题,那就是如果自己照做了,自己会失业吗?

对许多企业来说,不仅聘用到资深的数据科学家是一个挑战,就连培训现有员工也困难重重。因为企业员工抵制技术的传统由来已久。以软件定义网络(SDN)为例,SDN已经推出十年了,但是仍有3/4以上的IT运维在使用命令行界面。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74640
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261444
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136223
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能数据中心的光纤布线策略

    随着人工智能(AI)技术的飞速发展,数据中心的光纤布线策略正面临前所未有的挑战和机遇。AI的高带宽需求、低延迟要求以及大规模并行计算的特点,对数据中心的光纤布线提出了更高的要求。本文将从多个方面探讨
    的头像 发表于 11-21 10:21 75次阅读

    赋能人工智能未来:ADI宣布支持800 VDC数据中心架构

    , Inc. (ADI)推出创新解决方案,为数据中心下一代800 VDC架构提供有力支持。该系列解决方案包含高可靠性热插拔与一级电源产品,旨在实现安全、高效且智能的配电,精准满足现代AI工厂系统的供电需求。 赋能人工智能未来:A
    的头像 发表于 08-28 21:18 855次阅读
    赋能<b class='flag-5'>人工智能</b>未来:ADI宣布支持800 VDC<b class='flag-5'>数据中心</b>架构

    Molex莫仕PCIe解决方案如何塑造数据中心格局

    随着人工智能(AI)、机器学习(ML)和云计算的发展,数据中心不得不面对爆炸式增长的数据,压力不断增长。这些工作负载需要更快、更高效的基础设
    的头像 发表于 08-14 09:59 2365次阅读
    Molex莫仕PCIe解决方案如何塑造<b class='flag-5'>数据中心</b>格局

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    应用场景。从数据采集,到模型推理,都能完整且自如地参与,轻松解锁人工智能全流程实训,让你深度体验AI技术的魅力 。 四、九门课程全覆盖,满足多元学习需求 对于高校教学或者技术学习来说,
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    应用场景。从数据采集,到模型推理,都能完整且自如地参与,轻松解锁人工智能全流程实训,让你深度体验AI技术的魅力 。 四、九门课程全覆盖,满足多元学习需求 对于高校教学或者技术学习来说,
    发表于 08-07 14:23

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    如何有效地管理人工智能数据中心的电源

    作者:Kenton Williston 投稿人:DigiKey 北美编辑 人工智能 (AI) 和机器学习 (ML) 的兴起提出了前所未有的电力需求。下一代数据中心在电源管理、效率和可靠
    的头像 发表于 05-25 11:30 673次阅读
    如何有效地管理<b class='flag-5'>人工智能</b><b class='flag-5'>数据中心</b>的电源

    数据中心液冷技术和风冷技术的比较

    (Power Usage Effectiveness,电源利用效率)<1.2,而传统的风冷制冷方式已经无法满足数据中心的散热需求,更加高效的液冷方案应运而生。特别在人工智能领域,随着智算需求的爆发,液冷方案已经成为数据中心的首选
    的头像 发表于 05-09 09:41 2777次阅读
    <b class='flag-5'>数据中心</b>液冷技术和风冷技术的比较

    施耐德电气发布数据中心高密度AI集群部署解决方案

    人工智能(AI)驱动的产业革命浪潮中,数据中心正迎来深刻变革。面对迅猛增长的人工智能算力需求,部署高密度AI集群已成为数据中心发展的必然选择。
    的头像 发表于 04-19 16:54 1238次阅读
    施耐德电气发布<b class='flag-5'>数据中心</b>高密度AI集群部署解决方案

    适用于数据中心和AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G网络技术应运而生
    发表于 03-25 17:35

    Cadence颠覆AI数据中心设计

    日前举办的英伟达 GTC 2025 开发者大会汇聚了众多行业精英,共同探讨人工智能的未来。而人工智能正在重塑全球数据中心的格局。据预测,未来将有 1 万亿美元用于 AI 驱动的数据中心
    的头像 发表于 03-21 15:43 855次阅读

    展望2025:人工智能将改变数据中心建设的方式

    康普企业网络大中华区总经理兼副总裁陈岚 回望2024,人工智能(AI)对行业产生的影响显露无疑。去年,数据中心对AI计算的需求呈指数级增长,这将促使行业采用更高效的流程,加快构建速度,并更具创造性地
    的头像 发表于 02-24 16:27 1035次阅读

    人工智能机器学习以及Edge AI的概念与应用

    人工智能相关各种技术的概念介绍,以及先进的Edge AI(边缘人工智能)的最新发展与相关应用。 人工智能机器学习是现代科技的核心技术
    的头像 发表于 01-25 17:37 1573次阅读
    <b class='flag-5'>人工智能</b>和<b class='flag-5'>机器</b><b class='flag-5'>学习</b>以及Edge AI的概念与应用

    人工智能对数据中心基础设施带来了哪些挑战

    在加密货币和人工智能/机器学习(AI/ML)等新兴应用的驱动下,数据中心的能耗巨大,并将快速增长以满足用户需求。根据国际能源署(IEA)的最新报告,2022 年
    发表于 12-31 13:48 630次阅读
    <b class='flag-5'>人工智能对数据中心</b>基础设施带来了哪些挑战

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    嵌入式人工智能(EAI)将人工智能集成到机器人等物理实体中,使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效
    发表于 12-24 00:33