0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音AI芯片演进至第三阶段,谁将主宰下一个十年?

启英泰伦 2022-08-05 10:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

转载自与非网

什么是语音AI芯片?

语音AI芯片,顾名思义是处理语音的AI芯片。很多人第一次接触语音AI芯片可能是天猫精灵、小爱同学和小度等智能音箱产品,因为在这些产品中,我们可以体验到智能语音的交互,而语音AI芯片是智能语音交互的基础和核心。

都说这几年AI芯片赛道很火,事实上语音识别、自然语义理解(NLP)和机器学习AI技术中占据重要的位置,是人机交互的基础,而前两项均与语音识别相关,这是因为语音识别不仅方便,而且是人机交互中最符合人类日常交流形态的一种技术,目前已经在智能家居和车载场景得到普遍应用。

为何语音识别要从云端搬至终端?

说到语音识别技术,还要追溯到2010年左右,当时以神经网络为代表的AI技术使得智能语音识别成为可能,并在后来的IoT和AIoT产业浪潮中不断走向成熟。

早期的智能语音识别受限于算力要求,终端没有专用的芯片可以解决算力和功耗成本的均衡问题,无法在终端处理智能语音识别,而云端处理又凭借天然自带内容和服务,模型可以快速迭代,数据收集和训练非常方便等优势,决定了当时的语音识别大都是布置在云端的。

然而,云端的语音识别也有弊端,比如无法做到稳定的实时响应,网络崩溃时更是响应无门;重要的信息都要通过网络传输,有被攻击泄露的风险,无法保障用户隐私安全;此外在成本方面也不具优势,除了持续的带宽消耗外,云端语音需要后台不间断的运行大量服务器来做语音处理,服务器的购置、后续的硬件更换和软件运维、人力费用和电费场地费等都非常昂贵。

9958de6a-143a-11ed-9ade-dac502259ad0.jpg

图 | 为什么选择离线语音

面对云端语音的优劣势,以启英泰伦为代表的企业开始投入对端侧语音识别的研究。不过,我们知道光有需求点还支撑不起一个新产业的崛起,要养活一个产业需要足够的市场容量,实现资金的活流,才能有利于产品的不断迭代,形成正向循环。

根据艾瑞咨询发布数据显示,2020年中国物联网设备连接量达74亿个,预计2025年将突破150亿个。而麦肯锡则用更动态的数据表示出了物联网的增长率,预估目前每秒大约有127台设备连接到互联网。

然而,面对当前物联网的联网量,华为给出了另一个数据:当前大部分具备物联能力的消费类设备只有 5% ~ 20% 的联接激活率。这是为什么呢?究其原因,还是操作交互太过于复杂。而解决这个复杂问题的方法就是加入更多“老少皆宜”的语音配合IoT连接。

有行业内人士预测,语音AI芯片将会快速发展到5-10亿颗/年左右的市场规模,随着应用面的不断拓宽和渗透率的不断提升,该规模还将持续不断提升。

综上,不管是场景需求还是市场容量,都在推动端侧语音识别的落地。但如何落地?不是一蹴而就的。

端侧语音识别芯片的三个发展阶段

语音识别面临的挑战和图像识别不同,它对算力要求没那么高,但对算法的要求很高。启英泰伦创始人兼CEO何云鹏告诉与非网:“这是因为语音识别的应用场景非常多,所以各种噪声就非常多样,有稳态噪声,也有非稳态噪声,要在这些环境中进行高准确率的语音识别是非常困难的。所以,必须掌握智能语音算法全链条技术才能实现更好的语音识别,包括智能语音信号前端降噪处理、语音智能识别、语音合成、语音解码、语音大数据处理及训练、NLP等技术。”

当然,语音识别技术在国内的发展也是在不断迭代中变得更加准确和灵活。我们以启英泰伦的三代自研技术平台BNPU(脑神经网络处理器),来简单概括端侧语音AI芯片的这三个发展阶段。

99752e44-143a-11ed-9ade-dac502259ad0.jpg

图 | 启英泰伦在语音AI芯片上的创新

阶段一:语音识别功能

第一代BNPU芯片实现的是端侧语音识别,是行业首款集成神经网络处理器的语音AI芯片,也是离线语音产业应用兴起的标志。

从集成度的角度来看,BNPU 1.0的方案相对分立,方案价格大约在50到90元左右(CI1006)。

阶段二:离线声纹识别+命令词自学习

第二代BNPU芯片(CI1102/CI1103和CI1122),不仅实现了离线语音识别功能,还能实现离线声纹识别和命令词自学习等个性化的功能。在应用上,可以根据不同人的声纹实现基于用户个性喜好的功能配置,并能通过离线命令词的自学习实现在轻度噪声下的地方口音和方言的识别。

从集成度的角度来看,BNPU 2.0集成了Audio CODEC、Flash 等单元,以及双麦阵增强处理能力,方案价格大约在15到25元左右。

阶段三:深度降噪+深度分离+命令词自学习2.0+离线NLP

第三代BNPU芯片,除了继承第二代的语音识别、声纹识别外,还支持了基于深度学习的降噪技术(深度降噪)、人声分离技术(深度分离)、命令词自学习2.0版本技术,以及行业首次突破性的离线NLP技术。在应用上,CI1301可以实现中等噪声中的语音识别,而CI1302、CI1303、CI1306和CI1312则可实现强噪声环境下的语音识别,比如当油烟机噪声高达80dB时,对于70多dB的人声依然可以良好识别。

从集成度的角度来看,BNPU 3.0不仅集成了Audio Codec的模拟 MIC接口、数字PDM麦克的DMIC接口、通用的ADCMCU常见的串口、PWM、GPIO等接口,还进一步集成了 4线Nor Flash、3路LDO的PMU和高精度的RC振荡器等,方案价格约10元左右。

对于三代产品的方案价格一代更比一代低的疑问,何云鹏表示:“很多人认为离线语音在端侧、数据处理、语音识别和存储会产生很多的成本,实则云上的成本是持续的,传输的成本是长时间的,这个成本可以避免;此外,云端早期建设的成本很高,很多厂家会建不起,还有每年运营的成本,每台设备每年10多元,这个费用在卖设备的时候厂商会包两年,但后面就要客户自己付费,所以不太公平。而随着摩尔定律的发展,端侧语音识别方案的整体成本已呈现30%的速率下降,已经达到了一个通用MCU的成本。”

除了价格以外,更值得一提的是,原本被认为只有云端才能实现的NLP,现在轻量级的NLP在端侧智能语音芯片中也实现了,并且既保障了用户的体验感,又能降低云端搭建和运营成本,降低网络带宽消耗,也能提升用户使用的安全性。

端云融合才是语音AI芯片的最终归宿

当然,说云端搬到端侧,实际上在很多场景下端侧和云端不是非此即彼的关系,从长期来看,端侧和云端是相互融合、相辅相成的关系。

随着端侧语音芯片功能、性能、可靠性变得越来越强大,价格越来越低,端侧语音识别将实现可靠性、隐私保护、成本和灵活性等多方面的优势,再加上集成联网功能可实现AIOT,从而实现大数据爆发时代下的有效数据分析和场景利用。

以空调为例,传统的空调大都只有调温的功能,但在差异化竞争的今天,大厂空调正在往机器人的方向发展,可以提供更多智慧化的服务,比如调整空气的温湿度、清新程度、含氧量、PM 2.5值,以及在早晨起床时放音乐营造氛围、营养咨询等。而这些服务的基础是语音交互,并且一定是延迟更低、工作更稳定的端侧语音识别,而背后的服务交易、用户的习惯大数据等则更适合放在云端,达到协同的效果。

写在最后

国内语音AI芯片正呈现出爆发式增长的趋势,谁将成为领头者?何云鹏表示:“该市场领域未来发展壮大后,会呈现典型的头部领先市场通吃的局面。而启英泰伦在语料数据、算法模型、芯片架构、AI开发平台及应用方案落地等多维度的迭代已经产生了马太效应。经过长达近7年的发展后,启英泰伦已经积累了B端客户超过5000名,平台开发者超过1万名,使用启英泰伦智能语音平台的在校AI学员则超过10万名。如今,整个离线语音行业快速发展,年内装机量将突破2000万台,未来两年,年出货将朝着1亿台迈进。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42408

    浏览量

    303364
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业具身智能:千亿蓝海,谁将主导下一个十年

    在智能制造与国产替代的宏大背景下,机器人产业正经历场深刻变革。从基于规则的自动化制造,到数据驱动的数字化制造,再到强感知、强交互、高节拍的工业具身智能制造。 工业具身热潮 资本与新品的“双重
    的头像 发表于 05-14 10:54 372次阅读
    工业具身智能:千亿蓝海,<b class='flag-5'>谁将</b>主导<b class='flag-5'>下一个</b><b class='flag-5'>十年</b>?

    中国硬件的下一个黄金十年——新硬件,新十年

    当“中国制造”走到新的历史拐点回顾过去二十年,中国硬件产业完成了次深刻跃迁:从代工制造到自主品牌,从规模扩张到技术积累,从“世界工厂”到全球创新的重要极。无论是消费电子、智能设备,还是新能源
    的头像 发表于 04-14 11:02 517次阅读
    中国硬件的<b class='flag-5'>下一个</b>黄金<b class='flag-5'>十年</b>——新硬件,新<b class='flag-5'>十年</b>

    智能模组的下一个增长点在哪

    如果说过去十年是蜂窝物联网的“连接红利期”,那么从2025开始,行业正悄然迈入全新的阶段——“结构重塑期”。
    的头像 发表于 03-31 11:25 729次阅读

    品声科技十周年,扎根技术向上生长!拥抱AI时代,迎接AI眼镜爆发

    1月17日,品声AI生态圈战略发布会暨10周庆在深圳举行。品声科技CEO陆振李感慨公司的十年是奋斗的十年,历程充满艰辛与感恩,在坚守中向上生长。他说,
    的头像 发表于 01-19 18:04 2407次阅读
    品声科技<b class='flag-5'>十周年</b>,扎根技术向上生长!拥抱<b class='flag-5'>AI</b>时代,迎接<b class='flag-5'>AI</b>眼镜爆发

    云天励飞出席GAIR 2025 AI算力新十年专场

    12月13日,GAIR 2025「AI 算力新十年」专场在深圳举行。作为国内前沿技术与产业变革的重要风向标,GAIR大会历经七届积淀,见证并推动了中国 AI 产业从算法突破、硬件迭代,到商业落地
    的头像 发表于 12-22 09:38 622次阅读

    端到端语音交互革命:百度智能云联合地瓜机器人,重塑AI陪伴体验

    总监孙颖欣在地瓜机器人的DDC2025 人机交互分论坛上指出,大模型时代的交互方式经历了三个关键阶段演进:第一阶段是文本、语音交互第二
    发表于 12-01 01:07 1976次阅读
    端到端<b class='flag-5'>语音</b>交互革命:百度智能云联合地瓜机器人,重塑<b class='flag-5'>AI</b>陪伴体验

    AI在此10 启英泰伦成立10周啦!

    启英泰伦成立十周年十年在科技奔腾不息的长河中不过瞬但对于中国AI语音产业而言这十年却是
    的头像 发表于 11-25 09:29 932次阅读
    <b class='flag-5'>AI</b>在此10 启英泰伦成立10周<b class='flag-5'>年</b>啦!

    李飞飞万字长文:空间智能是AI下一个十年

    1950,当计算机不过是自动化算术和简单逻辑的代名词时,艾伦·图灵提出了至今仍有回响的问题:机器能思考吗?他以非凡
    的头像 发表于 11-19 21:20 1507次阅读
    李飞飞万字长文:空间智能是<b class='flag-5'>AI</b>的<b class='flag-5'>下一个</b><b class='flag-5'>十年</b>

    华为五大创新开启非洲移动产业黄金十年

    、新商业、新联接、新节能”五大场景化创新,携手产业伙伴共同促进网络领先、生态繁荣、服务普惠,开启非洲移动产业下一个黄金十年
    的头像 发表于 11-14 16:23 1794次阅读

    今日看点:我国已完成第一阶段6G技术试验;曝阿里秘密启动“千问”项目对标ChatGPT 我国已完成第一阶段

    我国已完成第一阶段6G技术试验   据工业和信息化部消息,我国已连续四组织开展6G技术试验,目前已完成第一阶段6G技术试验,形成超过300项关键技术储备。6G是未来十年全球最重要的新
    发表于 11-14 10:08 1486次阅读

    未来工业AI发展的三个必然阶段

    与优化 能力的深层革命。 未来十年,工业AI的发展将经历三个清晰的阶段:  智能辅助 → 智能决策 → 自主优化 。这次进化,构成了工业从
    的头像 发表于 10-27 15:47 696次阅读
    未来工业<b class='flag-5'>AI</b>发展的<b class='flag-5'>三个</b>必然<b class='flag-5'>阶段</b>

    科技云报到:西湖大学、智元机器人都选它,存储成为AI下一个风口

    科技云报到:西湖大学、智元机器人都选它,存储成为AI下一个风口
    的头像 发表于 09-03 11:24 901次阅读

    十年积淀,DPVR AI眼镜将正式亮相

    表示想要购买AI眼镜。新的智能设备时代,正在打开。在这个节点,深耕XR领域十年的DPVR(大朋VR),将带来它的首款AI智能眼镜——DP
    的头像 发表于 08-14 11:47 1303次阅读
    <b class='flag-5'>十年</b>积淀,DPVR <b class='flag-5'>AI</b>眼镜将正式亮相

    36氪 | 从无到有的“声”意经:智能语音芯片十年“平民化”演进

    解析,虽算力强大,却存在响应延迟、依赖网络、隐私顾虑等短板。而端侧AI则将关键的处理能力“内置”于设备本身的芯片中,如同在设备上装了即时响应的“大脑”。它能在
    的头像 发表于 08-11 18:12 1812次阅读
    36氪 | 从无到有的“声”意经:智能<b class='flag-5'>语音</b><b class='flag-5'>芯片</b><b class='flag-5'>十年</b>“平民化”<b class='flag-5'>演进</b>

    AI玩具或成为下一个万亿新赛道

    如果你将拥有家庭新成员,你首先会想到什么?是孩子还是宠物?如果我说你下一个家庭成员,或许是会“察言观色”的
    的头像 发表于 07-29 10:15 1339次阅读