0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

应用深度学习变革传统语音信号处理,让机器拥有类似人耳一样的听觉感知能力

MEMS 来源:MEMS 2020-09-01 13:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

智能语音是人工智能技术的重要组成部分,包括声音前端信号处理、语音识别、语义理解、自然语言处理、语音合成等细分领域。在技术的具体落地中,消费级智能硬件是最早显示出市场潜力的赛道,从蓝牙耳机到可穿戴设备再到智能家居,各种产品都离不开相关的智能语音技术,而语音交互的第一步就是听见,声音前端信号处理的效果一定程度上制约了语音识别的效果,当前也有一些公司正在解决这一让各类产品“听得更清晰”的问题。

36氪日前接触到的「大象声科」,是一家专注于机器听觉的人工智能公司。该公司于2017年在深圳成立,致力于应用深度学习变革传统语音信号处理,让机器拥有类似人耳一样的听觉感知能力。据了解,「大象声科」技术的理论基础为CASA(计算机听觉场景分析)+DNN(深度神经网络技术)。CASA 解决的问题是基于人的听觉原理来实现声源分离,该理论的奠基人汪德亮教授也是「大象声科」的首席科学家和联合创始人。公司通过将CASA和深度学习相结合,在业内首家成功实现大规模商用级的噪音和人声的分离,后续有望进一步解决鸡尾酒会问题。(注:鸡尾酒会问题是语音识别领域的痛点和难点,人们在鸡尾酒会中交谈,语音信号会重叠在一起,机器需要将它们分离成独立的信号)

公司创始人兼CEO苗健彰向记者对比了传统信号处理和基于深度学习的信号处理方式的差别——传统的数字信号处理方式主要依据固定噪音特性和方向,通过滤波器对信号进行相应的过滤和增强。但因为生活中的噪音不一定存在固定特性,并可能来自于各种方向反射,所以传统方式或许无法彻底解决复杂噪声环境中的问题。而CASA+DNN的方案是让机器通过训练获得与人类听觉感知相似的机制,从而去认知周边的声场环境,在复杂场景中提取、识别人声。

在技术产业化这一块,「大象声科」首先从“降噪”切入,一方面解决通讯过程中的噪音干扰问题,让人们在复杂的现实噪声场景中拥有更加清晰、更加私密的通话体验;另一方面解决语音识别中噪声干扰问题,让机器在“听清”之后听得“更懂”。为此,公司推出了Vocplus智能语音增强和Vocplus Smart智能语音交互方案,目前已经在手机、耳机、PC、对讲机、VoIP、IoT等行业成功落地。

在研发过程中,苗健彰认为,把技术从理论进行工程落地转化是最大的难点,其中将神经网络小型化和模型的泛化是决定深度学习能否应用于实际产品中的重要环节。“大象声科在这方面有一套独特的技术,能够在不损失精度的情况下,使得算法参数尽量少,计算速度尽量快,这也是为什么目前我们的深度学习降噪算法快速落地到像耳机这类可穿戴产品。另外,市面上已经有上千万台设备搭载了公司的算法,帮助公司沉淀了大量数据。大象声科将人耳的听觉机理与深度学习相结合,也大幅提升了算法的泛化性能,形成了较高的技术壁垒。”他介绍。

相较而言,公司目前在手机、耳机等消费电子行业有比较多的应用案例,这和行业本身的需求和规模相关。“现在中国绝大部分的手机品牌,比如小米、OPPO、vivo都已经有使用「大象声科」的通话降噪技术(Vocplus Telecom)以及游戏抗啸叫技术(DHS)的量产案例。”苗健彰说。在前不久发布的华为FreeLace Pro耳机上,也搭载了公司的Vocplus AI三麦通话降噪方案。

此外,自去年以来的TWS耳机增长浪潮,也让越来越多的耳机厂商逐渐采纳以AI技术为主导的通话降噪方案。「大象声科」是率先在蓝牙耳机上落地AI语音降噪的公司,首个成功量产案例是OPPO Enco Q1 。并且,2020年「大象声科」与漫步者合作,成功落地了第一个AI算法结合骨传导sensor的通话降噪方案,可以让TWS耳机在通话时完全屏蔽周围噪音(包含人声噪音在内),实现私密性更强的通话体验。

谈及客户方的具体考量维度,苗健彰介绍客户主要会围绕通话清晰度进行评价,在这方面,业内有一套衡量通话降噪效果的客观标准3QUEST,测试指标包括:S-MOS(人声保留程度),N-MOS(噪音消除程度),G-MOS(综合通话降噪性能),而公司由于采用较独特的AI技术,在测评中得以展现优势。

在产业合作上,「大象声科」目前已与Qualcomm,CEVACirrus Logic,Infineon,Rockchip和BES等国内外知名芯片厂商建立合作关系。其中值得一提的是,公司在2018年拿到了小米和高通的融资,并在之后和高通一起进行联合技术推广,这也为公司在市场拓展和品牌建设方面提供了一定帮助。在收费模式上,大象有按照license授权和按项目收费两种方式,当前license总装机量在数千万级别,今年的营收在数千万元量级。

在未来的行业延展中,「大象声科」计划进一步完善整个语音技术链条,把应用场景从近场拓展到远场,为更多行业如助听器、智能家居、会议系统、智能车载等带来更精准更智能的语音解决方案。

团队方面,公司创始人兼CEO苗健彰UBC软件工程学硕士毕业,曾就职于IBM、RBC等500强企业,并在加拿大成功创办过一家软件公司 。联合创始人兼首席科学家汪德亮教授是计算机听觉场景分析奠基人之一,也是全球首位将深度学习应用于语音增强的科学家。联合创始人兼CTO张学良多年从事语音分离、增强算法研发工作,是内蒙古大学计算机学院教授。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1821

    文章

    50366

    浏览量

    267041
  • 智能语音
    +关注

    关注

    11

    文章

    829

    浏览量

    50350
  • 深度学习
    +关注

    关注

    73

    文章

    5610

    浏览量

    124651

原文标题:用深度学习改变语音信号处理,大象声科让机器像人耳一样“聆听”

文章出处:【微信号:MEMSensor,微信公众号:MEMS】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深度相机:从技术突破到全场景落地,解锁三维感知新可能

    在智能制造、智能机器人、户外巡检等领域快速升级的当今,三维感知技术已成为连接物理世界与数字世界的重要桥梁,而深度相机作为三维感知的重要载体,正逐步打破
    的头像 发表于 04-15 15:04 349次阅读
    <b class='flag-5'>深度</b>相机:从技术突破到全场景落地,解锁三维<b class='flag-5'>感知</b>新可能

    语音芯片是如何机器“开口说话”的?文读懂语音芯片工作原理及选型指南

    工作原理、主流类型到应用选型,为你全面解析这机器拥有“声音”的核心元器件。、什么是语音芯片
    的头像 发表于 04-14 08:59 145次阅读
    <b class='flag-5'>语音</b>芯片是如何<b class='flag-5'>让</b><b class='flag-5'>机器</b>“开口说话”的?<b class='flag-5'>一</b>文读懂<b class='flag-5'>语音</b>芯片工作原理及选型指南

    智能机器人从0到1系统入门课程 带源码课件 百度网盘下载

    机器人 AI 交互:语音识别 + 视觉识别入门实践 在人工智能技术飞速演进的当下,机器人正从冰冷的自动化设备向具备感知能力的智能体进化。传统
    发表于 04-11 16:41

    语音空调技术方案:从“声控”到“感知”,HomeSense™ 引领空间智能新体验

    在智能家居浪潮中,空调作为调节室内环境的核心设备,其智能化水平直接影响着用户的舒适度与体验。传统语音控制空调,虽解放了双手,但往往停留在“单向指令”阶段,缺乏对环境与人的主动感知能力。用户仍需手动
    的头像 发表于 03-16 11:30 191次阅读

    SLAM如何为自动驾驶提供空间感知能力

    [首发于智驾最前沿微信公众号]在人工智能与机器人领域,如何机器像生物一样理解空间,是个绕不开的核心命题。当人类在
    的头像 发表于 02-09 09:12 572次阅读
    SLAM如何为自动驾驶提供空间<b class='flag-5'>感知能力</b>?

    如何在NVIDIA Jetson Thor上提升机器感知效率

    构建自主机器人需要具备可靠且低延迟的视觉感知能力,以实现在动态环境中的深度估计、障碍物识别、定位与导航。这些功能对计算性能有较高要求。NVIDIA Jetson 平台虽为深度
    的头像 发表于 12-24 10:14 4650次阅读
    如何在NVIDIA Jetson Thor上提升<b class='flag-5'>机器</b>人<b class='flag-5'>感知</b>效率

    四川大学:研究种具有四重感知能力的柔性机器人传感器

    在本研究中,作者受自然皮肤感知能力的启发,提出了种新型的内在柔性机器人传感器,其四重感知功能集成于单设备中,包括空间接近
    的头像 发表于 12-10 18:16 2448次阅读
    四川大学:研究<b class='flag-5'>一</b>种具有四重<b class='flag-5'>感知能力</b>的柔性<b class='flag-5'>机器</b>人传感器

    如何选择合适的语音识别芯片型号

    语音识别芯片(又称语音识别IC)是现代智能设备的核心组件,与传统语音芯片相比,其最大特点是能够主动识别并处理
    的头像 发表于 10-30 16:32 753次阅读

    RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知

    更多"、"互动更流畅"是开发者面临的核心挑战。传统的单屏幕和有限的视觉输入已成为提升机器人智能化水平的瓶颈。而瑞芯微RK3576高性能处理器的出现
    发表于 10-29 16:41

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    物理形状的信息,分为缓慢适应1型神经元(SA-1)和快速适应1型神经元(FA-1)。 4、听觉 具身智能需要像人耳一样强大的听力感官来感知声音,并将他们传输到认知系统,从而使系统通过声
    发表于 09-18 11:45

    语音机器人交互系统:核心技术与应用挑战

    、核心技术模块 1. 自动语音识别(ASR):这是系统的“耳朵”。它负责将用户输入的模拟语音信号转换为计算机可处理的文本信息。当前,基于深度
    的头像 发表于 09-02 11:08 1014次阅读

    再掀语音交互革命,广和通AI解决方案加速机器听觉进化

    机器人世界里,感知是智能化的第步,是机器人获取环境信息,学习适应并自主决策的前提。听觉作为五
    的头像 发表于 08-26 17:44 1058次阅读

    机器人竞技幕后:磁传感器芯片激活 “精准感知力”

    帮助机器人实时修正重心,大幅降低翻倒风险。 在关节运动控制上,磁传感器芯片实现 “毫米级精度保障”。以昆泰芯 KTM59 系列磁编码器的离轴应用为例,其非接触式磁信号捕捉技术,解决了传统光学编码器在
    发表于 08-26 10:02

    颗TTS语音芯给产品增加智能语音播报能力

    ,正在逐渐登上舞台中央。 TTS语音合成芯片和传统播报语音芯片的优缺点 传统播报语音芯片 本质是 "声音 U 盘",通过 ADC 将
    的头像 发表于 08-14 16:33 898次阅读

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    的四核1.4GHz处理器具备强劲的运算性能,能够高效处理语音机器人运行过程中的复杂任务。语音识别和合成需要大量的计算资源,该
    发表于 05-28 11:36