0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

应用深度学习变革传统语音信号处理,让机器拥有类似人耳一样的听觉感知能力

MEMS 来源:MEMS 2020-09-01 13:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

智能语音是人工智能技术的重要组成部分,包括声音前端信号处理、语音识别、语义理解、自然语言处理、语音合成等细分领域。在技术的具体落地中,消费级智能硬件是最早显示出市场潜力的赛道,从蓝牙耳机到可穿戴设备再到智能家居,各种产品都离不开相关的智能语音技术,而语音交互的第一步就是听见,声音前端信号处理的效果一定程度上制约了语音识别的效果,当前也有一些公司正在解决这一让各类产品“听得更清晰”的问题。

36氪日前接触到的「大象声科」,是一家专注于机器听觉的人工智能公司。该公司于2017年在深圳成立,致力于应用深度学习变革传统语音信号处理,让机器拥有类似人耳一样的听觉感知能力。据了解,「大象声科」技术的理论基础为CASA(计算机听觉场景分析)+DNN(深度神经网络技术)。CASA 解决的问题是基于人的听觉原理来实现声源分离,该理论的奠基人汪德亮教授也是「大象声科」的首席科学家和联合创始人。公司通过将CASA和深度学习相结合,在业内首家成功实现大规模商用级的噪音和人声的分离,后续有望进一步解决鸡尾酒会问题。(注:鸡尾酒会问题是语音识别领域的痛点和难点,人们在鸡尾酒会中交谈,语音信号会重叠在一起,机器需要将它们分离成独立的信号)

公司创始人兼CEO苗健彰向记者对比了传统信号处理和基于深度学习的信号处理方式的差别——传统的数字信号处理方式主要依据固定噪音特性和方向,通过滤波器对信号进行相应的过滤和增强。但因为生活中的噪音不一定存在固定特性,并可能来自于各种方向反射,所以传统方式或许无法彻底解决复杂噪声环境中的问题。而CASA+DNN的方案是让机器通过训练获得与人类听觉感知相似的机制,从而去认知周边的声场环境,在复杂场景中提取、识别人声。

在技术产业化这一块,「大象声科」首先从“降噪”切入,一方面解决通讯过程中的噪音干扰问题,让人们在复杂的现实噪声场景中拥有更加清晰、更加私密的通话体验;另一方面解决语音识别中噪声干扰问题,让机器在“听清”之后听得“更懂”。为此,公司推出了Vocplus智能语音增强和Vocplus Smart智能语音交互方案,目前已经在手机、耳机、PC、对讲机、VoIP、IoT等行业成功落地。

在研发过程中,苗健彰认为,把技术从理论进行工程落地转化是最大的难点,其中将神经网络小型化和模型的泛化是决定深度学习能否应用于实际产品中的重要环节。“大象声科在这方面有一套独特的技术,能够在不损失精度的情况下,使得算法参数尽量少,计算速度尽量快,这也是为什么目前我们的深度学习降噪算法快速落地到像耳机这类可穿戴产品。另外,市面上已经有上千万台设备搭载了公司的算法,帮助公司沉淀了大量数据。大象声科将人耳的听觉机理与深度学习相结合,也大幅提升了算法的泛化性能,形成了较高的技术壁垒。”他介绍。

相较而言,公司目前在手机、耳机等消费电子行业有比较多的应用案例,这和行业本身的需求和规模相关。“现在中国绝大部分的手机品牌,比如小米、OPPO、vivo都已经有使用「大象声科」的通话降噪技术(Vocplus Telecom)以及游戏抗啸叫技术(DHS)的量产案例。”苗健彰说。在前不久发布的华为FreeLace Pro耳机上,也搭载了公司的Vocplus AI三麦通话降噪方案。

此外,自去年以来的TWS耳机增长浪潮,也让越来越多的耳机厂商逐渐采纳以AI技术为主导的通话降噪方案。「大象声科」是率先在蓝牙耳机上落地AI语音降噪的公司,首个成功量产案例是OPPO Enco Q1 。并且,2020年「大象声科」与漫步者合作,成功落地了第一个AI算法结合骨传导sensor的通话降噪方案,可以让TWS耳机在通话时完全屏蔽周围噪音(包含人声噪音在内),实现私密性更强的通话体验。

谈及客户方的具体考量维度,苗健彰介绍客户主要会围绕通话清晰度进行评价,在这方面,业内有一套衡量通话降噪效果的客观标准3QUEST,测试指标包括:S-MOS(人声保留程度),N-MOS(噪音消除程度),G-MOS(综合通话降噪性能),而公司由于采用较独特的AI技术,在测评中得以展现优势。

在产业合作上,「大象声科」目前已与Qualcomm,CEVACirrus Logic,Infineon,Rockchip和BES等国内外知名芯片厂商建立合作关系。其中值得一提的是,公司在2018年拿到了小米和高通的融资,并在之后和高通一起进行联合技术推广,这也为公司在市场拓展和品牌建设方面提供了一定帮助。在收费模式上,大象有按照license授权和按项目收费两种方式,当前license总装机量在数千万级别,今年的营收在数千万元量级。

在未来的行业延展中,「大象声科」计划进一步完善整个语音技术链条,把应用场景从近场拓展到远场,为更多行业如助听器、智能家居、会议系统、智能车载等带来更精准更智能的语音解决方案。

团队方面,公司创始人兼CEO苗健彰UBC软件工程学硕士毕业,曾就职于IBM、RBC等500强企业,并在加拿大成功创办过一家软件公司 。联合创始人兼首席科学家汪德亮教授是计算机听觉场景分析奠基人之一,也是全球首位将深度学习应用于语音增强的科学家。联合创始人兼CTO张学良多年从事语音分离、增强算法研发工作,是内蒙古大学计算机学院教授。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261425
  • 智能语音
    +关注

    关注

    11

    文章

    821

    浏览量

    50032
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123893

原文标题:用深度学习改变语音信号处理,大象声科让机器像人耳一样“聆听”

文章出处:【微信号:MEMSensor,微信公众号:MEMS】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何选择合适的语音识别芯片型号

    语音识别芯片(又称语音识别IC)是现代智能设备的核心组件,与传统语音芯片相比,其最大特点是能够主动识别并处理
    的头像 发表于 10-30 16:32 458次阅读

    再掀语音交互革命,广和通AI解决方案加速机器听觉进化

    机器人世界里,感知是智能化的第步,是机器人获取环境信息,学习适应并自主决策的前提。听觉作为五
    的头像 发表于 08-26 17:44 618次阅读

    机器人竞技幕后:磁传感器芯片激活 “精准感知力”

    帮助机器人实时修正重心,大幅降低翻倒风险。 在关节运动控制上,磁传感器芯片实现 “毫米级精度保障”。以昆泰芯 KTM59 系列磁编码器的离轴应用为例,其非接触式磁信号捕捉技术,解决了传统光学编码器在
    发表于 08-26 10:02

    颗TTS语音芯给产品增加智能语音播报能力

    ,正在逐渐登上舞台中央。 TTS语音合成芯片和传统播报语音芯片的优缺点 传统播报语音芯片 本质是 "声音 U 盘",通过 ADC 将
    的头像 发表于 08-14 16:33 452次阅读

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    的四核1.4GHz处理器具备强劲的运算性能,能够高效处理语音机器人运行过程中的复杂任务。语音识别和合成需要大量的计算资源,该
    发表于 05-28 11:36

    仿生传感器:机器拥有“生命感知”的神奇科技

    在科幻电影中,机器人通过皮肤感知温度、用“鼻子”识别气味、用“耳朵”捕捉声音的场景曾令人惊叹。如今,这些“超能力”正通过仿生传感器逐渐走进现实。仿生传感器,这融合生物学与工程学的创新
    的头像 发表于 04-28 17:25 914次阅读

    涂鸦打造超强AI IPC技术!深度融合视觉+听觉感知能力,颠覆传统IPC交互玩法

    随着AI大模型能力的突破与成本的下降,IPC开始从单的“看得见”向“看得懂”迭代,并进步向“智能交互、主动决策”的方向升级演进。目前主流设备已标配三大能力:即智能识别与分析、多模态
    的头像 发表于 04-17 18:20 884次阅读
    涂鸦打造超强AI IPC技术!<b class='flag-5'>深度</b>融合视觉+<b class='flag-5'>听觉</b><b class='flag-5'>感知能力</b>,颠覆<b class='flag-5'>传统</b>IPC交互玩法

    人形机器人像人一样感知,这家国产芯片公司选择从信号链入手

    电子发烧友网报道(文/吴子鹏)人形机器人的感知系统,作为其与物理世界交互的关键窗口,极大程度上决定了机器人的智能化水平与应用价值。借助多模态传感器融合,人形机器人有望实现比肩甚至超越人
    的头像 发表于 04-10 00:09 2718次阅读
    <b class='flag-5'>让</b>人形<b class='flag-5'>机器</b>人像人<b class='flag-5'>一样</b>去<b class='flag-5'>感知</b>,这家国产芯片公司选择从<b class='flag-5'>信号</b>链入手

    海伯森技术推动机器感知能力迈向新高度

    的“感知神经元”,公司自主研发的六维力扭矩传感器已批量应用于20余家头部机器人企业,为人形机器人、协作机器人及高端工业场景提供克级力控精度,推动机器
    的头像 发表于 03-10 11:07 852次阅读

    语音信号经过放大器到TLC320AD50C,放大倍数般多少倍?

    语音信号经过放大器到TLC320AD50C,放大倍数般多少倍?还有同相与反向信号定要一样大小吗?
    发表于 02-17 08:24

    为什么要费这么大劲机器人像人一样,而不是更实用的形态?

    为什么要费这么大劲机器人像人一样,而不是更实用的形态? 将机器人设计成人形(即仿人机器人)的意义可以从多个角度探讨,涉及技术、社会、心理和
    的头像 发表于 02-10 10:03 991次阅读

    40个激光雷达!苹果布局机器感知系统,碰撞降低63.7%

    机器感知系统。ARMOR系统的创新之处在于采用 分布式感知方案 。研究团队在机器人的手臂和手掌上战略性地布置了 40个小型ToF激光雷达传感器 ,每边手臂20个。这些传感器体积小巧
    的头像 发表于 01-22 17:58 1425次阅读
    40个激光雷达!苹果布局<b class='flag-5'>机器</b>人<b class='flag-5'>感知</b>系统,<b class='flag-5'>让</b>碰撞降低63.7%

    传统机器学习方法和应用指导

    用于开发生物学数据的机器学习方法。尽管深度学习般指神经网络算法)是个强大的工具,目前也非常
    的头像 发表于 12-30 09:16 1968次阅读
    <b class='flag-5'>传统</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    。 多模态融合的创新与突破 机器人控制技术的另个重要突破在于多模态大模型的应用。相比于仅通过文字进行人机交互的传统方法,现代机器人能够融合视觉、声音、定位等多模态输入信息,为任务执行
    发表于 12-29 23:04

    【「具身智能机器人系统」阅读体验】+初品的体验

    解决许多技术的和非技术的挑战,如提高智能体的自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。 未来的研究需要将视觉、语音和其他传感技术与机器人技术相结合,以探索更加先进的知识表
    发表于 12-20 19:17