0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

快商通李稀敏:近场声纹识别将普及,本地化的AI能力是刚需

智能生物识别说 2019-11-01 18:11 次阅读

快商通公检法事业线总经理李稀敏博士就“人机语音交互是否必须要先唤醒和离线语音技术在本地端上的实现是否未来的趋势”为题进行分享:


01 人机交互必须要先唤醒吗?


语音交互流程被划分为五个环节 – 唤醒、响应、输入、理解、反馈。其中唤醒是每一次用户与语音产品交互的第一个接触点,唤醒环节的体验在整个语音交互流程中至关重要,它的体验好坏将直接影响用户对产品的“第一印象”。就目前市面上常见的语音交互产品来说,一个眼神或者一个动作还不能引起它的注意,因此需要定义一个将产品从待机状态切换到工作状态的词语,即所谓的“唤醒词”。比如“小度小度”“若琪”“叮咚叮咚”。那么,人机交互我们必须要先唤醒吗?李稀敏认为:随着技术场景越来越成熟,当机器具备足够的智能化,机器是可以不需要唤醒词,就像跟人对话一样自然。但距离无唤醒交互的实现,还有一段路要走。从声纹识别的角度来看有两种场景,第一种,用唤醒词作为命令词,设备在休眠或锁屏状态下也能检测到用户的声音(设定的语音指令,即唤醒词),让处于休眠状态下的设备直接进入到等待指令状态,开启语音交互第一步。第二种设置一个“唤醒词”,这时候我们可以将设备唤醒比作水龙头的开关,如果水龙头没有开关的话,摁都摁不住是吧?就像智能音响交互的时候,设备乱七八糟的识别了一大堆语音,这个东西出来摁都摁不住,所以人机交互还是要有“唤醒”步骤。但是否需要唤醒词,还需根据场景的需求来决定,没有所谓的通用答案。


02 声纹识别是否可以改进人机交互方式?


最近一段时间很火的苹果AirPods,华为荣耀FlyPods Pro都在主打身份识别。目前的唤醒大家都是在用这个特定的唤醒词,如果改用声纹识别,是否可以改变这种交互的方式?李稀敏认为:在不同的场景中,最佳的唤醒的方式可以不同,但在耳机等可穿戴设备的场景中,声纹识别因其高易用性、非接触、不需要前置设备等优点,相对其他生物识别技术,能够更好的解决该场景的实际身份认证的问题,进而改进人机交互体验。


03 实现本地端离线语音技术是未来趋势?


“在贴身的耳机,也就是本地端做声纹识别,其实避免了一个技术问题:远场识别”,李稀敏解释。远场的文本无关身份识别由于复杂的信号传播环境等原因,是目前的技术难点,还有很长的路要走。但相对来说,近场的身份识别,在本地端可以通过技术手段快速解决问题。所以,接下来本地端近场身份识别能够大面积普及,在今后很多场景,我们随身携带一个小设备都能够直接识别身份。


关于本地化是不是未来的趋势。从数据的角度来讲,很多人是不希望自己的声音信息,人脸信息,通过设备或各种隐私接口上传到云端且变为不可控。李稀敏认为,从这个角度来看,本地化的AI的能力是一个刚需。


04 大热的语音合成技术TTS,跟声纹识别PK,谁会更胜一筹?


对于使用录音、合成语音等攻击手段的识别,是声纹识别必须要解决的问题。快商通在为银行、保险等金融客户设计声纹身份识别系统,这个是第一个需要解决的问题。


目前,对声纹认证的攻击,大概分成几类,第一类是模仿,第二类是语音合成或者语音转换,第三类是录音重放。根据实际欺诈的手段来讲,目前主要是防录音重放。其中,录音重放是最难检测的。解决了录音重放问题,就相当于解决了语音拼接和语音合成问题。


快商通在这一点上做得比较领先,我们的首席科学家李海洲院士,团队在ASVspoof2017自动说话人验证欺骗和对策挑战赛中获得第一名。包括在许多银行客户的测试中,我们都是100%检测到录音重放。


另外分享个故事,除了算法和系统本身领先,解决方案还需要数据驱动,大量的录音样本、各种设备、各种采样率、各种时长、各种环境的训练。1年前,我们在北京几家银行做测试的时候,白天我们在地铁上,在最嘈杂的环境下,各种测试都攻不破。


但晚上,我住在清华大学里,在10:00、11:00左右夜深人静、一点声音都没有的时候,掏出了我们的APP进行测试,却被攻破了。说明当时我们的训练数据没有覆盖到无杂音、无噪音的情况,当然,现在已经覆盖到了(笑)。


关于快商通:


快商通是一家从事人工智能技术与应用研发的创新型科技企业,在声纹识别、自然语言处理、深度学习、大数据等方面拥有原创核心竞争力。


面向企业服务、金融、公检法、医疗、物联网等领域,为全球客户提供包含人工智能算法、应用软件、平台软件及内嵌人工智能功能的软硬件一体化解决方案。致力于持续为客户创造价值,让人工智能走进每个人的生活。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏

    评论

    相关推荐

    开发者手机 AI - 目标识别 demo

    功能简介 该应用是在Openharmony 4.0系统上开发的一个目标识别AI应用,旨在从上到下打通Openharmony AI子系统,展示Openharmony系统的AI
    发表于 04-11 16:14

    源2.0适配FastChat框架,企业快速本地化部署大模型对话平台

    北京2024年2月28日 /美通社/ -- 近日,浪潮信息Yuan2.0大模型与FastChat框架完成全面适配,推出"企业快速本地化部署大模型对话平台"方案。该方案主要面向金融、法律、教育等领域
    的头像 发表于 02-29 09:57 294次阅读
    源2.0适配FastChat框架,企业快速<b class='flag-5'>本地化</b>部署大模型对话平台

    比亚迪匈牙利工厂将落地,未来产品将欧洲本地化

    比亚迪董事长兼总裁王传福则强调,未来公司计划利用本地化资源加快开发具有欧洲特色的品牌产品。他表示将充分发挥比亚迪作为全球顶尖新能源汽车制造商的优势,推动匈牙利实现汽车行业的电动化转型。
    的头像 发表于 02-01 14:05 270次阅读

    汽车多模态交互研究:大模型及多模态融合,推进AI Agent上车

    语音交互方面:语音交互在AI大模型的赋能下,功能愈加智能化、情感化。唇动识别声纹识别等技术的上车,使语音交互精准度得到进一步提升,控制范围也从车内拓展至车外;
    的头像 发表于 11-24 16:12 617次阅读
    汽车多模态交互研究:大模型及多模态融合,推进<b class='flag-5'>AI</b> Agent上车

    OpenHarmony AI框架开发指导

    一、概述 1、功能简介 AI业务子系统是OpenHarmony提供原生的分布式AI能力的子系统。AI业务子系统提供了统一的AI引擎框架,实
    发表于 09-19 18:54

    本地化ChatGPT?Firefly推出基于BM1684X的大语言模型本地部署方案

    API的方式来应用,很难本地化部署。随着大模型适用领域的扩展,大模型登陆边缘设备的需求凸显,越来越多的行业需要把大语言模型应用在专业的领域上。在这个背景下,Firef
    的头像 发表于 09-09 08:02 1069次阅读
    <b class='flag-5'>本地化</b>ChatGPT?Firefly推出基于BM1684X的大语言模型<b class='flag-5'>本地</b>部署方案

    生物识别和人脸识别的区别

      生物识别和人脸识别都是当今广泛应用于安全领域的技术。生物识别是一种基于个体生理和行为特征的识别技术,包括指纹识别、虹膜
    发表于 08-28 17:29 883次阅读

    卷积神经网络的变压器铁心松动故障声纹识别方法

    卷积神经网络的变压器铁心松动故障声纹识别方法 随着卷积神经网络的广泛应用,其在声纹识别领域中的应用也越来越受到关注。然而,在实际应用中,存在许多挑战,如何有效地解决这些挑战并实现高效的声纹识别是当前
    的头像 发表于 08-17 16:30 536次阅读

    启英泰伦新成果发布交流会线上直播预约开启

    信号的清晰度和逼真度,使得通话更加清晰、准确,提高语音交流的效率和舒适性,为用户提供更好的使用体验。 04 声纹识别突破性进展 启英泰伦声纹识别技术再上一台阶。可同时注册多个身份认证,并在较短时间内进行
    发表于 08-15 14:31

    声智“声纹数据驾驶舱”助力多元行业发展

    随着声纹识别技术的日益成熟,其已被广泛应用到信息、公共安全、金融、智能安防和智能家居等各个领域。声纹是一种具有显著声学特性的生物特征信息,与指纹、人脸、虹膜等生物识别信息一样,能够用于身份识别
    的头像 发表于 07-04 15:11 636次阅读

    为什么虹膜识别普及

    虹膜识别需要专门的设备进行扫描和识别,用户需要接触设备,这种依赖特定设备的特性也限制了虹膜识别普及
    发表于 06-20 17:01 1680次阅读

    如何开发智能家居语音控制方案

    杂音而影响设备控制;更不会被误唤醒,以避免发生半夜”鬼音“控制,而严重影响用户睡眠。 且方案支持离线自定义唤醒词和命令词,支持离线语义识别,支持本地声纹识别本地NLP(部分型号),能
    发表于 05-31 09:50

    戴尔科技集团与 NVIDIA 联合发布用于安全、本地化部署生成式 AI 的 Project Helix

    •  Project Helix 使企业能够轻松构建和部署值得信赖的生成式 AI •  戴尔和 NVIDIA 的基础设施与软件包含内置的数据安全功能,用于本地生成式 AI 应用 戴尔科技集团全球大会
    的头像 发表于 05-25 09:15 363次阅读

    DIY 城市 AI:研究人员推动超本地化气候建模行动

    由 NVIDIA Jetson 驱动的 Waggle 边缘计算设备,采集超本地化气候信息。Waggle 是一个由阿贡国家实验室开发的边缘计算开源传感器平台。 基于该平台,科学家们在 Sage 门户网站应用商店中分享专为边缘设计的开源 AI 代码,Sage 门户网站由国家科
    的头像 发表于 05-19 00:50 271次阅读

    三种近场通信技术的特点分析

    的中文全称为近场通信技术,NFC是在非接触式射频识别(RFID)技术的基础上,结合无线互连技术研发而成,它为我们日常生活中越来越普及的各种电子产品提供了一种十分安全快捷的通信方式。 近场
    发表于 05-18 11:15 2次下载
    三种<b class='flag-5'>近场</b>通信技术的特点分析