0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音AI芯片演进至第三阶段,谁将主宰下一个十年?

启英泰伦 2022-08-05 10:36 次阅读

转载自与非网

什么是语音AI芯片

语音AI芯片,顾名思义是处理语音的AI芯片。很多人第一次接触语音AI芯片可能是天猫精灵、小爱同学和小度等智能音箱产品,因为在这些产品中,我们可以体验到智能语音的交互,而语音AI芯片是智能语音交互的基础和核心。

都说这几年AI芯片赛道很火,事实上语音识别、自然语义理解(NLP)和机器学习AI技术中占据重要的位置,是人机交互的基础,而前两项均与语音识别相关,这是因为语音识别不仅方便,而且是人机交互中最符合人类日常交流形态的一种技术,目前已经在智能家居和车载场景得到普遍应用。

为何语音识别要从云端搬至终端?

说到语音识别技术,还要追溯到2010年左右,当时以神经网络为代表的AI技术使得智能语音识别成为可能,并在后来的IoT和AIoT产业浪潮中不断走向成熟。

早期的智能语音识别受限于算力要求,终端没有专用的芯片可以解决算力和功耗成本的均衡问题,无法在终端处理智能语音识别,而云端处理又凭借天然自带内容和服务,模型可以快速迭代,数据收集和训练非常方便等优势,决定了当时的语音识别大都是布置在云端的。

然而,云端的语音识别也有弊端,比如无法做到稳定的实时响应,网络崩溃时更是响应无门;重要的信息都要通过网络传输,有被攻击泄露的风险,无法保障用户隐私安全;此外在成本方面也不具优势,除了持续的带宽消耗外,云端语音需要后台不间断的运行大量服务器来做语音处理,服务器的购置、后续的硬件更换和软件运维、人力费用和电费场地费等都非常昂贵。

9958de6a-143a-11ed-9ade-dac502259ad0.jpg

图 | 为什么选择离线语音

面对云端语音的优劣势,以启英泰伦为代表的企业开始投入对端侧语音识别的研究。不过,我们知道光有需求点还支撑不起一个新产业的崛起,要养活一个产业需要足够的市场容量,实现资金的活流,才能有利于产品的不断迭代,形成正向循环。

根据艾瑞咨询发布数据显示,2020年中国物联网设备连接量达74亿个,预计2025年将突破150亿个。而麦肯锡则用更动态的数据表示出了物联网的增长率,预估目前每秒大约有127台设备连接到互联网。

然而,面对当前物联网的联网量,华为给出了另一个数据:当前大部分具备物联能力的消费类设备只有 5% ~ 20% 的联接激活率。这是为什么呢?究其原因,还是操作交互太过于复杂。而解决这个复杂问题的方法就是加入更多“老少皆宜”的语音配合IoT连接。

有行业内人士预测,语音AI芯片将会快速发展到5-10亿颗/年左右的市场规模,随着应用面的不断拓宽和渗透率的不断提升,该规模还将持续不断提升。

综上,不管是场景需求还是市场容量,都在推动端侧语音识别的落地。但如何落地?不是一蹴而就的。

端侧语音识别芯片的三个发展阶段

语音识别面临的挑战和图像识别不同,它对算力要求没那么高,但对算法的要求很高。启英泰伦创始人兼CEO何云鹏告诉与非网:“这是因为语音识别的应用场景非常多,所以各种噪声就非常多样,有稳态噪声,也有非稳态噪声,要在这些环境中进行高准确率的语音识别是非常困难的。所以,必须掌握智能语音算法全链条技术才能实现更好的语音识别,包括智能语音信号前端降噪处理、语音智能识别、语音合成、语音解码、语音大数据处理及训练、NLP等技术。”

当然,语音识别技术在国内的发展也是在不断迭代中变得更加准确和灵活。我们以启英泰伦的三代自研技术平台BNPU(脑神经网络处理器),来简单概括端侧语音AI芯片的这三个发展阶段。

99752e44-143a-11ed-9ade-dac502259ad0.jpg

图 | 启英泰伦在语音AI芯片上的创新

阶段一:语音识别功能

第一代BNPU芯片实现的是端侧语音识别,是行业首款集成神经网络处理器的语音AI芯片,也是离线语音产业应用兴起的标志。

从集成度的角度来看,BNPU 1.0的方案相对分立,方案价格大约在50到90元左右(CI1006)。

阶段二:离线声纹识别+命令词自学习

第二代BNPU芯片(CI1102/CI1103和CI1122),不仅实现了离线语音识别功能,还能实现离线声纹识别和命令词自学习等个性化的功能。在应用上,可以根据不同人的声纹实现基于用户个性喜好的功能配置,并能通过离线命令词的自学习实现在轻度噪声下的地方口音和方言的识别。

从集成度的角度来看,BNPU 2.0集成了Audio CODEC、Flash 等单元,以及双麦阵增强处理能力,方案价格大约在15到25元左右。

阶段三:深度降噪+深度分离+命令词自学习2.0+离线NLP

第三代BNPU芯片,除了继承第二代的语音识别、声纹识别外,还支持了基于深度学习的降噪技术(深度降噪)、人声分离技术(深度分离)、命令词自学习2.0版本技术,以及行业首次突破性的离线NLP技术。在应用上,CI1301可以实现中等噪声中的语音识别,而CI1302、CI1303、CI1306和CI1312则可实现强噪声环境下的语音识别,比如当油烟机噪声高达80dB时,对于70多dB的人声依然可以良好识别。

从集成度的角度来看,BNPU 3.0不仅集成了Audio Codec的模拟 MIC接口、数字PDM麦克的DMIC接口、通用的ADCMCU常见的串口、PWM、GPIO等接口,还进一步集成了 4线Nor Flash、3路LDO的PMU和高精度的RC振荡器等,方案价格约10元左右。

对于三代产品的方案价格一代更比一代低的疑问,何云鹏表示:“很多人认为离线语音在端侧、数据处理、语音识别和存储会产生很多的成本,实则云上的成本是持续的,传输的成本是长时间的,这个成本可以避免;此外,云端早期建设的成本很高,很多厂家会建不起,还有每年运营的成本,每台设备每年10多元,这个费用在卖设备的时候厂商会包两年,但后面就要客户自己付费,所以不太公平。而随着摩尔定律的发展,端侧语音识别方案的整体成本已呈现30%的速率下降,已经达到了一个通用MCU的成本。”

除了价格以外,更值得一提的是,原本被认为只有云端才能实现的NLP,现在轻量级的NLP在端侧智能语音芯片中也实现了,并且既保障了用户的体验感,又能降低云端搭建和运营成本,降低网络带宽消耗,也能提升用户使用的安全性。

端云融合才是语音AI芯片的最终归宿

当然,说云端搬到端侧,实际上在很多场景下端侧和云端不是非此即彼的关系,从长期来看,端侧和云端是相互融合、相辅相成的关系。

随着端侧语音芯片功能、性能、可靠性变得越来越强大,价格越来越低,端侧语音识别将实现可靠性、隐私保护、成本和灵活性等多方面的优势,再加上集成联网功能可实现AIOT,从而实现大数据爆发时代下的有效数据分析和场景利用。

以空调为例,传统的空调大都只有调温的功能,但在差异化竞争的今天,大厂空调正在往机器人的方向发展,可以提供更多智慧化的服务,比如调整空气的温湿度、清新程度、含氧量、PM 2.5值,以及在早晨起床时放音乐营造氛围、营养咨询等。而这些服务的基础是语音交互,并且一定是延迟更低、工作更稳定的端侧语音识别,而背后的服务交易、用户的习惯大数据等则更适合放在云端,达到协同的效果。

写在最后

国内语音AI芯片正呈现出爆发式增长的趋势,谁将成为领头者?何云鹏表示:“该市场领域未来发展壮大后,会呈现典型的头部领先市场通吃的局面。而启英泰伦在语料数据、算法模型、芯片架构、AI开发平台及应用方案落地等多维度的迭代已经产生了马太效应。经过长达近7年的发展后,启英泰伦已经积累了B端客户超过5000名,平台开发者超过1万名,使用启英泰伦智能语音平台的在校AI学员则超过10万名。如今,整个离线语音行业快速发展,年内装机量将突破2000万台,未来两年,年出货将朝着1亿台迈进。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26150

    浏览量

    263716
收藏 人收藏

    评论

    相关推荐

    【创客营】新品体验!机器视觉VisionBoard开发板免费试用

    ,将产品快递给入营小伙伴,具体到货时间以实际物流为准。 6. 内容回收:收到开发板后,第一阶段先进行软硬件评测,第二阶段是应用作品设计,第三阶段视频教程制作,需按要求定期上传内容(图文 / 视频)
    发表于 03-20 14:03

    制冷剂的发展历程与发展趋势

    些CFCs和HCFCs陆续得到了开发,逐渐替代了已使用100之久的那些早期制冷剂(除NH^3^外),而成为二十世纪制冷剂的主要潮流,在制冷空调和热泵系统中得到了广泛应用。 (第三阶段
    发表于 03-02 17:52

    AI手机时代将至,2024年或成行业转型关键年

    从行业发展阶段来看,AI手机也将成为继功能机、智能手机之后,手机行业的第三阶段
    发表于 02-22 09:13 208次阅读
    <b class='flag-5'>AI</b>手机时代将至,2024年或成行业转型关键年

    OPPO宣告AI手机新时代来临,2024年AI手机行业第三阶段成定局

    在2024年春节期间,OPPO将举办AI领域的盛大发布会,届时将向OPPO及一加的数千万用户推出全新的ColorOS AI新春版系统,其中包含数百项AI功能如AI消重、新版小布助手和
    的头像 发表于 02-18 14:22 285次阅读

    OPPO创始人陈明永:OPPO成立AI中心,加速资源向AI的集中

    今日,OPPO创始人兼首席执行官陈明永发表开年致全体员工的一封信。信中表示:2024年是AI手机元年,AI手机时代将成为继功能机、智能手机之后,手机行业的第三阶段。OPPO成立AI中心
    的头像 发表于 02-18 10:18 208次阅读
     OPPO创始人陈明永:OPPO成立<b class='flag-5'>AI</b>中心,加速资源向<b class='flag-5'>AI</b>的集中

    晶体管的下一个25年

    晶体管的下一个25年
    的头像 发表于 11-27 17:08 256次阅读
    晶体管的<b class='flag-5'>下一个</b>25年

    下一个十年谁会是智能手机战场上的核芯

    电子发烧友网站提供《下一个十年谁会是智能手机战场上的核芯.doc》资料免费下载
    发表于 11-03 10:35 0次下载
    <b class='flag-5'>下一个</b><b class='flag-5'>十年</b>谁会是智能手机战场上的核芯

    欧瑞博新一代智能开关搭载启英泰伦第三AI语音芯片

    近日,全球知名品牌全屋智能家居科技公司欧瑞博发布了新一代智能开关,该智能开关搭载启英泰伦自研的第三AI语音芯片,具备强大的离线语音控制能力
    的头像 发表于 10-19 14:47 463次阅读

    中国台湾南科为目前唯一可量产3nm芯片地区,三期扩建已动工

    据了解,南科第三阶段扩建方案已经动工,今后开发完成后,第三阶段园区的产值有望超过390亿韩元。此外,位于新北夏伦的“智慧绿能科学城”也将引领台湾地区智能科学技术产业的发展。
    的头像 发表于 10-09 09:35 301次阅读

    RISC-V强势崛起为芯片架构第三

    ,RISC-V产业链不断取得新突破。作为×86、ARM之外的芯片架构第三极,RISC-V正在全球尤其是在中国强势崛起。 RISC-V是开发、免费的指令集架构,是由加州大学伯克利分校
    发表于 08-30 13:53

    智能语音开放平台选哪家,启英泰伦提供硬件、软件体化开发服务

    语音固件和SDK,烧录到芯片中即可。全程零代码,极大地简化了开发流程,让开发门槛更低,更高效。 05第三方API接口 平台开放第三方API接口,启英泰伦离线工具、
    发表于 08-17 14:00

    启英泰伦第三语音AI芯片半年出货量突破1000万颗,创历史新高!

    2023年刚过去一半,启英泰伦也迎来了一个重大的里程碑。启英泰伦第三语音AI芯片「CI130X系列」2023年上半年出货量超过1000万颗,创造了历史最快破千万记录,而且也遥遥领先于
    的头像 发表于 07-08 10:05 930次阅读
    启英泰伦<b class='flag-5'>第三</b>代<b class='flag-5'>语音</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>半年出货量突破1000万颗,创历史新高!

    华为与产业伙伴联合发布ETSI《NFV:迈向下一个十年》中文版白皮书

    在2023 MWC上海展期间,华为与产业伙伴联合发布了ETSI《NFV:迈向下一个十年》中文版白皮书。该白皮书回顾了NFV十年发展成就,探讨了NFV未来十年的发展方向、主要驱动力和发展
    的头像 发表于 06-30 23:05 587次阅读
    华为与产业伙伴联合发布ETSI《NFV:迈向<b class='flag-5'>下一个</b><b class='flag-5'>十年</b>》中文版白皮书

    如何开发智能家居语音控制方案

    应用为例,分享启英泰伦推出的第三代高性能神经网络智能语音芯片,以便给广大工程师们提供产品设计思路及产品解决方案。 传统空调遥控器存在控制复杂,老人,孩子控制不便捷,以及容易找不到等不足,因此智能
    发表于 05-31 09:50

    如何在ev3 desfire卡中创建下一个请求?

    我需要在 ev3 desfire 卡中创建下一个请求 AID = 000100(十六进制)的“应用程序”,以及长度为 18 字节并启用所有读/写权限的标准文件。 哪些硬件需要编写或创建AID
    发表于 04-20 06:06