0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

算力、功耗还是架构?四位大咖纵论终端AI的四大挑战

章鹰观察 来源:电子发烧友原创 作者:章鹰 2019-05-14 10:37 次阅读

本站原创,作者:章鹰,电子发烧友执行副主编。

2019年,AI市场风起云涌,一方面不少独角兽公司融资不断扩大,比如2月27日地平线 (Horizon Robotics) 宣布完成由SK中国、SKHynix以及数家中国一线汽车集团 (与旗下基金) 联合领投的B轮融资,获得6亿美金左右的投资,又比如5月8日,旷视科技完成D轮融资,融资额达到7.5亿美元,在热门的边缘计算、视觉领域的前沿研究获得充足的资金支持。

另外一方面,市场对人工智能的期望恢复理性,国内厂商开始进入落地应用阶段。核心AI能力不断扩展,寒武纪在苏州举办的全球智博会上,展示了14个应用案例,寒武纪AI芯片,比如MLU100芯片已经在阿里云城市大脑提供算力支持,寒武纪的AI芯片在智能手机领域的应用呈现扩大之势,此外,在教育行业、智能制造和工业、服务器领域,这家公司都带来了实质性的落地项目。

IDC高级新兴技术研究部高级研究经理卢言霞向记者表示,近五年来,中国AI市场成就斐然,2018年中国软件市场占据全球软件市场规模的3.1%,中国人工智能软件市场占据全球的15.4%,未来还有更大的增长空间。终端AI俨然是落地应用中的重要支持点。

对于终端AI市场,市场有哪些痛点呢?笔者整理了四位大咖的观点,与工程师和电子领域的高管分享。

终端AI应用量最大,算力和功耗是两大难题

图:清华大学微纳电子学系主任魏少军

4月9日,清华大学微纳电子学系主任魏少军在人工智能创新峰会上表示,从应用需求端来看,我们发现应用量最大的并不在云端,而是在终端,ARM公司的专家把人工智能分成“大机器学习”、“中机器学习”和“小机器学习”,三者之间在数量上依次有二次方的增加,从108、1010再到1012。但当AI服务从云端走向终端时,要克服的困难远远比在云端大得多。

在边缘上,资源和功耗都是受限的,而要解决AI问题,算力仍然需要那么大。换句话说,算力需求没变,但资源不足,难度自然变大。这里面涉及两个关键问题,一个是算力本身,一个是功耗。

在智能系统中,最重要的功能是实现智能化,软件承载了智能化的理念和方法,而硬件只是承载智能化所需要的计算。如果能把两者有机融合在一起,让硬件在任何时候都能提供软件运行所需的最佳计算效率,就能够得到我们所需的理想计算模式。

持续创新!推出性能功耗比好的终端AI产品,抢占市场先机

图:寒武纪创始人陈天石

寒武纪是国际上最早从事AI芯片研发的团队之一,研发的终端智能处理器已经运行在数千万的终端设备中,研发的云端智能芯片为云端大规模智能处理提供了高性能和高性价比的芯片方案,推动人工智能计算力突破和提升。

陈天石描述寒武纪公司的战略目标:“3年内占领10亿智能AI终端,占领中国云端高性能芯片1/3市场份额”。在市场策略层面,如何与英伟达竞争,陈天石告诉媒体:“提供性能功耗比更好的芯片。这个市场很大,其实未见得是零和博弈。”

早在2016年,寒武纪就研发了全球第一款商用终端AI处理器,早于国外同行两年,寒武纪的1A处理器是世界上首款智能终端处理器IP产品。第一代1A已经在四款华为手机中使用。

第二款寒武纪的IP 1H是第二代高性能、低功耗的智能终端IP产品,在2017年11月公开发布,这款处理器带来了深度学习处理速度的提升和功耗的降低,在寒武纪1H带来了AI算力的大幅提升,使能和增强人脸识别、物体识别、物体检测、图像分割、智能翻译等AI场景,实现了从图像识别到物体检测的跨越。在苏黎世联邦理工学院的AI Benchmark测试中,搭载麒麟980(集成寒武纪1H)的华为Mate 20 Pro、Mate 20 X和Mate 20,超过了搭载麒麟970的华为P20 Pro,排在了榜首。

2018年5月,寒武纪正式发布了多个最新一代终端 IP 产品——采用 7nm工艺的终端芯片Cambricon 1M、首款云端智能芯片MLU100及搭载了MLU100的云端智能处理计算卡。

寒武纪创始人陈天石博士对公司的定位是,独立芯片公司,服务广大云计算、大数据、服务器厂商、互联网公司和行业巨头,为下游厂商提供不同尺寸、面向不同应用场景的终端AI处理器Ip以及覆盖interference和training的不同处理能力的云端智能芯片。随着华为智能手机在全球市场份额的不断提升,寒武纪在终端AI芯片市场的认可度也不断提升。

物联网应用中,如何实现无处不在的AI应用?

图:清华大学微纳电子系副主任尹首一教授

智能终端的AI计算成为趋势。考虑通讯延时、基于硬件设备、个人隐私考虑,我们需要在终端设备、传感器,各种设备端上实现AI计算。这已经成为电子行业的巨头共识,百分之九十以上的物联网设备上使用CPU是arm公司提供的内核,Google首席科学家在全球半导体大会上报告上说,Google认为,IoT景下,未来AI计算一定是分布式、分层次、分等级的综合系统。

要满足各种场景下AI计算的需求,需要考虑算力和功耗问题的平衡。例如智能手机对语音技术的应用,智能家电中有严苛的功耗约束,因而要在功耗受限场景下实现AI算法和运算就成为关键。

算力与场景结合,联发科在终端AI运用领域不断突破

联发科技副总经理暨家庭娱乐事业群总经理游人杰表示,人工智能的崛起与以往不同,人工智能进入第三次革命,需要三种关键因素的配合:第一、物联网产生的大数据,第二、各种应用层应用多元化,尤其在2012年,Deep Learning新的演算法开发出来后,运算能力、精确率和收敛速度有了很大突破。不仅在云端,或者在终端,能力够强。第三、算力(computation)的不断提升。

目前,联发科的芯片方案已经占据了智能音箱垂直市场份额的60%-70%,大幅度领先竞争对手。联发科的优势是将智能音箱方案拥有更高的硬件整合度。把第一代IC周边电子元器件、电路等全部集成在第二代IC中,同时在软件层面开发更智能的工具Power AQ,可通过Power AQ有效调整智能音箱的音质,加速硬件厂商把产品推向市场。

2019年4月18日,联发科技发布AIoT平台, 包含拥有高集成度和高端APU性能的i300和i500系列处理器芯片,为业界提供面向智能家居、智慧城市和智能工厂三大领域的解决方案,助力人工智能技术和物联网技术的落地融合。

最早,联发科看到了人工智能在移动手机的应用商机,自2018年初起,就推出了NeuroPilot的技术,并将之首次运用在其手机处理平台曦力P60上。NeuroPilot是基于他们的核心监控与调节技术CorePilot的进阶版。CorePilot在2014年就已经被开发出来,其主要作用就是动态监控手机多核处理器的每个核心的工作负载量,并加调节和分配,以提高手机运行的性能并降低电耗。

i500高性能解决方案则是基于强大的计算能力, 结合联发科技的人工智能平台NeuroPilot,搭配低时延的边缘AI处理技术,提供精准的人脸、行为和环境识别分析,大幅度提升准确度、生产效率和智能化水平。

游人杰指出,对于不同的芯片公司,最大的区别就是运算能力的差别。运算的处理能力在晶片里面是三个单元结合起来,我们称之为联合运算能力。CPU+GPU +Deep Learning加速器 ,联发科内部做到CPU八核,CPU的运算好处是可以透过软件的规划,让演算方法在开发的过程中拥有最大的弹性。GPU的运算能力,在人工智能的开发过程中,同时具备高的处理速度,还能提供中等的弹性度。第三、当你的演算方法做到比较成熟后,晶片运算功率做到更低,还需要做AI的Processing,做Deep Learning加速器或者是做视觉影像的处理器,能够让演算法找到最低的功耗处理。

小结

终端AI的进程在不断加速,随着寒武纪、MTK、耐能等国内国际厂商不断推出新品,未来在未联网应用的细分市场,会逐步诞生应用的前三甲企业,在无人机、智能家居、智能硬件、智能手机都是AI未来应用增长点,企业必须研究好消费者需求的转变,在技术能力和市场需求结合的契合度上下大功夫,在算力提升、功耗降低和运算架构支持多元应用不断拓展,才能领先海外厂商,抢占市场的先机。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • MTK
    MTK
    +关注

    关注

    2

    文章

    159

    浏览量

    47523
  • 寒武纪
    +关注

    关注

    11

    文章

    182

    浏览量

    73728
  • AI芯片
    +关注

    关注

    17

    文章

    1648

    浏览量

    34379
收藏 人收藏

    评论

    相关推荐

    iBeLink KS MAX 10.5T大领跑KAS新领域

    打造。这种芯片可以在存储和计算之间实现高速的数据交换,从而提高了运算效率和稳定性。iBeLink ks max10.5T还拥有三档可调的性能模式,可以根据不同的局域网难度和电价,选择合适的功耗
    发表于 02-20 16:11

    请问用强大的SOC来控制汽车是不是能够大幅减少MCU的使用数量?

    来自一用户的咨询,麻烦帮忙解答,越详细越好,有图有真相,可以适当提供一些英飞凌解决方案和产品推荐。 用强大的SOC来控制汽车是不是能够大幅减少MCU的使用数量? 未来电动汽车会使用SOC来代替大量MCU?
    发表于 02-02 07:16

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    ADIS16475数据用16准确还是用32数据准确?

    1.ADIS16475数据用16准确还是用32数据准确? 2.ADIS16475刚上电偏置较大,上电等到温度稳定后偏置较小。现在我用的是突发读取模式读取六轴数据,进行姿态解,倾角
    发表于 12-28 06:09

    强劲的AI边缘计算盒子# 边缘计算

    AI边缘计算
    成都华江信息
    发布于 :2023年11月24日 16:31:06

    陈海波:OpenHarmony技术领先,产学研深度协同,生态蓬勃发展

    。 根深叶茂,OpenHarmony四大技术架构竞争领先,生态蓬勃发展 OpenHarmony以“面向万物智联世界,构建分布式全场景协同的开源操作系统基座与生态系统”为技术愿景,秉持“生态统一
    发表于 11-06 14:35

    赛昉科技RISC-V架构7110

    应用提供充足的支持。   动态调频,更低功耗   功耗方面,JH7110被划分为8个可独立开关的电源域,CPU频率可通过软件调节,客户可依据不同应用场景动态调频,实现灵活的
    发表于 10-30 08:49

    代北斗芯片发布

    全新的第代北斗芯片,较上一代芯片有了全面的提升。芯片采用双核架构设计,计算能力提升100%;存储效能提升一个数量级;观测通道数提升一倍以上,可以跟踪更多卫星信号;工作功耗下降50%,为更多应用场景提供
    发表于 09-21 09:52

    BM1684架构介绍

    L2cache 2.2 峰值 峰值: FP32峰值 = 64 * 16 *
    发表于 09-19 08:11

    AI加速器架构设计与实现》+第2章的阅读概括

    首先感谢电子发烧友论坛提供的书籍和阅读评测的机会。 拿到书,先看一下封面介绍。这本书的中文名是《AI加速器架构设计与实现》,英文名是Accelerator Based on CNN Design
    发表于 09-17 16:39

    【书籍评测活动NO.18】 AI加速器架构设计与实现

    经验总结图解NPU算法、架构与实现,从零设计产品级加速器当前,ChatGPT和自动驾驶等技术正在为人类社会带来巨大的生产变革,其中基于深度学习和增强学习的AI计算扮演着至关重要的角色。新的计算范式需要
    发表于 07-28 10:50

    如何克服LoRa®终端节点设计中的挑战

    本文将介绍LoRa网络架构的四个主要元素,并详细讨论设计人员在开发LoRa终端节点时面临的一些最常见的挑战。我们还会介绍在帮助克服这些挑战并缩短上市时间方面,经过法规认证的LoRa模块
    的头像 发表于 07-13 15:45 369次阅读
    如何克服LoRa®<b class='flag-5'>终端</b>节点设计中的<b class='flag-5'>挑战</b>

    迅为RK3588开发板打包update.img怎么做

    CPU(核Cortex-A76+核Cortex-A55架构)集成MaliG610MP4核GPU,内置AI加速器NPU,
    发表于 05-11 15:30

    迅为国产化RK3588开发平台16G大内存64G存储2路千兆以太网4G/5G通信

    MaliG610MP4核GPU,内置AI加速器NPU,达6Tops,集成独立的8K视频硬件编码器和硬件解码器,提供了许多功能强大的嵌入式硬件引擎,性能更强的同时,
    发表于 05-09 10:31

    中国开源未来发展峰会“问道 AI 分论坛”即将开幕!

    发展峰会“问道 AI 分论坛”将在重庆富假日酒店举办,论坛将邀请国内多位一线 AI 领域大,从底层技术、产品设计、开源社区运营等角度详解“AI
    发表于 05-09 09:49