0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

亚马逊宣布推出全新的AI训练芯片AWS Trainium

我快闭嘴 来源:半导体行业观察综合 作者:半导体行业观察综 2020-12-02 15:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在近日举办的re:Invent开发人员大会上,AWS宣布推出全新的AI训练芯片AWS Trainium,这是该公司用于训练机器学习模型的下一代定制芯片。该公司承诺,通过对TensorFlow,PyTorch和MXNet的支持,它可以提供比云中任何竞争对手更高的性能。

亚马逊方面介绍,AWS Trainium是由AWS设计的第二个定制的 机器学习(ML)芯片,为在云中训练ML模型提供最佳的性价比。除了提供最具成本效益的ML训练外,Trainium还为云中的ML提供了最高的性能和最大的万亿次运算(TFLOPS)计算能力,并支持更广泛的ML应用。

从他们提供的数据可以看到,亚马逊新芯片与标准的AWS GPU实例相比,带来了30%的吞吐量提升,并将每次使用成本降低了45%。

亚马逊指出,Trainium芯片专门针对深度学习培训工作负载进行了优化,适用于图像分类,语义搜索,翻译,语音识别,自然语言处理和推荐引擎等应用。

按照亚马逊的说法,随着ML的使用加速,我们迫切需要通过推理和训练来提高性能并降低基础架构成本。去年,AWS推出了AWS Inferentia,这是一种定制芯片,可为客户提供云中最低成本的高性能ML推理。虽然Inferentia解决了推理成本,即使该成本占ML基础架构成本的90%,但许多开发团队也还受到固定ML训练预算的限制。这限制了改进模型和应用程序所需的培训范围和频率。AWS Trainium通过为云中的ML培训提供最高的性能和最低的成本来应对这一挑战。借助Trainium和Inferentia,客户将拥有从扩展培训工作量到部署加速推理的ML计算的端到端流程。

亚马逊进一步指出,AWS Trainium与AWS Inferentia共享相同的AWS神经元SDK,这就方便Inferentia开发人员开始使用Trainium。由于Neuron SDK已与包括TensorFlow,PyTorch和MXNet在内的流行ML框架集成在一起,因此开发人员可以通过最少的代码更改轻松地从基于GPU的实例迁移到AWS Trainium。

据介绍,AWS Trainium可通过Amazon EC2实例和AWS Deep Learning AMI以及包括Amazon SageMaker,Amazon ECS,EKS和AWS Batch在内的托管服务使用。

因为没有基准测试结果,所以我们尚不清楚Trainium的性能在与Google的张量处理单元(TPU)进行比较时,谁更厉害。后者是Google托管在Google Cloud Platform中的AI训练工作负载的芯片。谷歌表示,即将推出的第四代TPU提供的矩阵乘法万亿次运算能力是第三代TPU的两倍以上。(矩阵通常用于表示输入到AI模型的数据。)它还提供了“显著”的内存带宽提升,同时受益于互连技术的进步。

过去,机器学习的部署受到算法的大小和速度以及对昂贵硬件的需求的限制。实际上, 麻省理工学院的一份报告发现,机器学习可能正在接近计算极限。一项单独的Synced 研究估计,华盛顿大学的Grover假新闻检测模型在大约两周内花费了25,000美元进行训练。据报道,OpenAI花费了高达1200万美元来训练其GPT-3语言模型,而Google估计花费了6,912美元来训练BERT,这是一种双向转换器模型,可为11种自然语言处理任务重新定义最先进的技术。

随着企业需求的增长,Amazon越来越倾向于转向AI和机器学习训练以及推理服务。根据一项估计,2017年全球机器学习市场的价值为15.8亿美元,预计到2024年将达到208.3亿美元。11月,亚马逊宣布将Alexa和Rekognition的部分计算转移到Inferentia支持的实例上,旨在使工作更快,更便宜,同时将其从Nvidia芯片上移开。当时,该公司声称将部分Alexa工作转移到Inferentia,从而使延迟时间缩短了25%,而成本却降低了30%。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53594

    浏览量

    459837
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136273
  • 亚马逊
    +关注

    关注

    8

    文章

    2725

    浏览量

    85464
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊云科技推出全新的Amazon AI Factories 将客户现有基础设施转化为高性能AI环境

    亚马逊云科技在2025 re:Invent全球大会上,宣布推出全新的Amazon AI Factories,助力企业将现有基础设施转化为高性
    的头像 发表于 12-13 13:44 401次阅读

    NVIDIA和AWS扩展全栈合作伙伴关系

    亚马逊云科技(AWS)将 NVIDIA NVLink Fusion 集成到其定制芯片中,包括新一代 Tranium4 芯片、Graviton 和 A
    的头像 发表于 12-13 09:20 585次阅读

    亚马逊发布新一代AI芯片Trainium3,性能提升4倍

    电子发烧友网报道(文/李弯弯)在拉斯维加斯举办的2025年亚马逊云科技re:Invent全球大会上,亚马逊云科技(AWS推出新一代人工智能(AI
    的头像 发表于 12-09 08:37 7699次阅读
    <b class='flag-5'>亚马逊</b>发布新一代<b class='flag-5'>AI</b><b class='flag-5'>芯片</b><b class='flag-5'>Trainium</b>3,性能提升4倍

    亚马逊云科技推出全新前沿AI Agent,重塑软件开发团队协作边界

    马逊云科技在2025 re:Invent全球大会上,宣布全新推出三款前沿AI Agent,重新定义软件构建、安全与运维的方式。
    的头像 发表于 12-05 15:52 158次阅读

    NVIDIA推出面向语言、机器人和生物学的全新开源AI技术

    NVIDIA 秉持对开源的长期承诺,推出了面向语言、机器人和生物学的全新开源 AI 技术,为构建开源生态系统做出贡献,扩展 AI 的普及并推动创新。NVIDIA 正将这些模型、数据和
    的头像 发表于 11-06 11:49 755次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI芯片的实现 1、技术需
    发表于 09-18 15:31

    亚马逊云科技AI联赛:在全新终极AI对决中学习、创新和竞争

    自2018年以来,AWS DeepRacer 已吸引全球超过56万名开发者参与,充分印证了开发者可以通过竞技实现能力成长的实践路径。如今,亚马逊云科技将通过亚马逊云科技 AI 联赛,将
    的头像 发表于 08-05 18:03 610次阅读

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    今日看点丨亚马逊上海AI研究院解散;索尼拟出售以色列芯片部门

          1、 亚马逊上海AI研究院解散! 据报道,AWS亚马逊云科技上海AI研究院的首席应用科学家王敏捷发朋友圈称,他们收到通知,
    发表于 07-24 09:42 1361次阅读
    今日看点丨<b class='flag-5'>亚马逊</b>上海<b class='flag-5'>AI</b>研究院解散;索尼拟出售以色列<b class='flag-5'>芯片</b>部门

    海思SD3403边缘计算AI数据训练概述

    AI数据训练:基于用户特定应用场景,用户采集照片或视频,通过AI数据训练工程师**(用户公司****员工)** ,进行特征标定后,将标定好的训练
    发表于 04-28 11:11

    曙光存储全新升级AI存储方案

    近日,曙光存储全新升级AI存储方案,秉持“AI加速”理念,面向AI训练AI推理和
    的头像 发表于 03-31 11:27 1083次阅读

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    亚马逊云科技发布Amazon Trainium2实例

    近期,亚马逊云科技宣布了一项重要更新:基于Amazon Trainium2的全新Amazon Elastic Compute Cloud(Amazon EC2)Trn2实例现已正式
    的头像 发表于 12-27 14:57 903次阅读

    亚马逊云科技发布全新数据中心组件

    近日,亚马逊云科技宣布了一项重大创新,推出了一系列全新的数据中心组件。这些组件旨在满足新一代人工智能(AI)创新的需求,并帮助客户应对日益复
    的头像 发表于 12-24 15:05 831次阅读

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练
    的头像 发表于 12-19 17:54 1400次阅读