0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

让万物听说:亚马逊Alexa语音交互系统背后的声音

姚小熊27 来源:与非网 作者:夏珍 2020-06-17 14:41 次阅读

“宿命”之说

“目前音频压缩算法的码率日趋降低,研究空间相对较窄,主要是在某种算法的基础上对特定应用的改进和定制。音频信号的研究还可以在下列更广阔的方向开展下去:基于信号模型的音频内容描述、特征提取、分类与检索。这些研究可以作为多媒体数据库研究的一个子课题,实现音频数据库的组织和管理,基于内容的音频点播等。在人机交互方面,音频内容的描述可以用于音频一视频信号处理(Audio 一 Visual Signal Processing),实现音视频信号交互、信号对应、信号关连等应用。”

这段文字来源于 2003 年一篇题为《基于正弦+噪声模型的宽带音频信号的表示与压缩》的文章,是今天笔者要介绍的主人公——宋少鹏的硕士毕业论文节选。细读这段文字,一个即将毕业的学生对音频信号未来的发展是有积极想法的,我们似乎就可以清晰地看到这个年轻人将走上的职业生涯道路。

时间是最好的证明,这个从华南理工大学无线电系毕业的小伙子近 20 年来真的就只做了一件事,这件事就是音频信号处理。常有人问他为什么喜欢这个领域、认定这个方向的时候,他都会笑着答道,“儿时的兴趣,我一直对声波、电波充满兴趣,小时候听黑胶唱片,听磁带,就一直想钻进去看看是谁在里面唱歌。此外,我的中文名字宋少鹏的拼音首字母缩写是 SSP,而音频信号处理(Sound Signal Processing)的英文首字母缩写也是 SSP,因此这是一种宿命,很早就注定了的。”

我的职业生涯一路向前,没有转折

上面讲到 2003 年宋少鹏硕士毕业,这一年他放弃了大公司的 offer,选择进入一家以色列芯片公司 Zoran 做软件开发,钻研音频 DSP 技术。值得一提的是,全球第一个全套杜比单芯片解决方案就来自这家公司。

2010 年,他又去了微软亚洲硬件中心,从事硬件产品的研发制造,经手产品包括智能摄像头、Kinnet 体感设备等。

就在 2012 年左右,他发现智能手机、电视、汽车都在向联网化发展,由于给用户带来了丰富的内容、社交和娱乐体验,这些产业得到蓬勃发展。与此同时,音频设备却还没有联网,这在一个专业音频从业者眼中,便是机遇。而眼前急切要弄清楚的是:如何联网?如何承载娱乐和社交?

带着这些思考,还在微软供职的宋少鹏便寻找机会开始尝试,这次尝试不算成功,在他看来,原因有两点,一是当时行业环境还不太成熟,二是大公司的体制存在一定的限制。

宋少鹏在后来接受利器的采访时被问到职业生涯的转折点,他直言不讳地说:“我的职业生涯一路向前,没有转折。”因此,回溯到上述那次不太成功的尝试,摸清原因,认准方向也是他职业道路上的收货,当然不止于此,他还结识了一帮志同道合的朋友。于是在 2013 年的某一天,他带着这个团队毅然决然的开始了他们的创业闯荡。

2014 年,米唐在深圳这个远离中国的政治和经济中心的湾区成立了,他喜欢那里自发式、民营式、创新型的经济模式,大家都来自江西、湖南、江苏、四川、中国各地,移民所带来的一些共同的特质,比如说勇敢、不屈服、创新,这些都与他的团队惺惺相惜。

从产品到解决方案,都在用心做“耳朵”

公司成立初期,产业的不成熟,加上创业公司交付能力的有限,使得米唐没办法短时间内在语音交互领域拿出产品化的东西,基于讯飞 SDK 和谷歌 SDK 的尝试又均不能满足这个团队对产品体验的要求,而一家公司要生存下去就必须要有良好的资金回流,于是他们的第一款产品“方糖音箱”放弃了语音的交互,只保留了两项特殊的“体感”操作方式:轻拍音箱顶部开始播放音乐或暂停,向左或向右倾斜切换上下曲目。

这款音箱通过 WiFi 连接上网,可脱离手机独立工作,并内置了不少音乐电台,比如豆瓣电台、荔枝 FM、还有一些国际电台,同时它还能记录个人喜好,进行智能推荐。若是用户在互动中能会心一笑,那在宋少鹏的眼中,除了趣味更是一种关怀带来的暖意。

“产品就像艺术品,源于生活,高于生活,要从生活中抽象提炼需求,发掘人性。”这与宋少鹏以人性、人文观点来思考产品设计的观点高度契合。但生活要继续,公司更需发展,经济基础决定上层建筑,即使方糖在 2015 年就开始销往海外,并推出了同样设计的蓝牙音箱,以谋取更多的利润,一年数万台的销量还是显得捉襟见肘。

作为一家始终观察着这个领域的创业企业,2015 年底,他们看到了亚马逊的 Echo 和背后的 Alexa 语音交互系统。最初亚马逊 Echo 以 MVP(最小可用原型)的形态交付用户,语音识别和语义理解都仅能满足流媒体播放的简单需求,但是经过一两年的打磨,到了 2016 年,Echo 的体验就好了很多,它既可以提供音频内容,也可以提供生活服务,包括音乐、电台、有声书、新闻、天气、闹钟、日程等。这时候亚马逊也将 Alexa 语音交互平台开放出来,于是米唐团队在第一时间找到了亚马逊。大概花了三四个月的时间,在众多想接入 Alexa 的竞争者中,方糖成为首个通过亚马逊认证的第三方音箱产品。

“通过亚马逊的认证后,Alexa 团队的人就主动找到了我,问我一年能够卖多少,我说几万台,亚马逊就说做他们的技术方案商,可以帮米唐一年卖几百万个解决方案”,宋少鹏回忆称这是亚马逊帮团队找到了方向。于是,一个擅长做技术的团队,开始从做 C 端产品转向做 B 端的方案,并决意将自己定位为聚焦海外市场的语音交互解决方案提供商。

“让万物听说”是使命所在

目前,米唐的业务已扩展到家用电器、汽车和消费电子产品等多个领域,而其核心竞争力是他们的远场语音交互算法,在响应速度、识别率、去噪、声源定位和产品良率方面均做得还不错。

“作为创业狗,在哪都能工作。出差路上的飞行和堵车时的 YY 是获得灵感的方式,出差的时候会带一本书,和一个趁早笔记本。”宋少鹏如是说,“当你做一个事情,真正站在场景和用户的角度去思考,才有可能在价值上有所突破,而当你受制于既得利益时,其实会做很多束缚手脚的事情。”

未来的米唐会发展成怎样,没人可以预判,但“让万物听说”会成为它和它背后的这个团队不变的使命。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SSD
    SSD
    +关注

    关注

    20

    文章

    2686

    浏览量

    115475
  • 语音交互
    +关注

    关注

    3

    文章

    271

    浏览量

    27819
  • 亚马逊
    +关注

    关注

    8

    文章

    2479

    浏览量

    82368
收藏 人收藏

    评论

    相关推荐

    亚马逊Alexa部门再次裁员,传统智能语音助手已来到终章

    电子发烧友网报道(文/黄山明)近日,美国科技巨头亚马逊宣布,将裁撤Alexa语音助手业务部门数百个岗位,并表示将投入更多资源打造生成式AI功能。从侧面表明亚马逊的智能
    的头像 发表于 11-28 01:22 1217次阅读

    STM32Wx助力万物互联3.0

    STM32Wx 助力万物互联3.0内容包括:主流通信技术、STM32 大步迈进无线领域、STM32 完整的MCU和MPU产品组合、2.4GHz 产品系列、Sub1GHz 产品系列等。
    发表于 09-05 07:45

    面向万物智联的应用框架的思考与探索

    本文转载自 OpenHarmony TSC 《峰会回顾第3期 | 面向万物智联的应用框架的思考与探索》演讲嘉宾 | 余枝强回顾整理 | 廖涛排版校对 | 李萍萍 嘉宾简介余枝强
    发表于 08-08 17:04

    语音识别唤醒词:让智能设备主动“听”你的声音

    语音识别唤醒词是指在语音助理和智能设备中使用的特定词语或短语,用于唤醒设备并启动语音交互。随着智能科技的飞速发展,语音识别唤醒词成为了现代智
    的头像 发表于 08-07 20:21 1225次阅读

    如何使用Alexa语音服务集成在受约束的联网设备上设置语音命令

    本指南供硬件和软件架构师学习如何使用Alexa语音服务集成在受约束的联网设备上设置语音命令。AWS联网核心的
    发表于 08-02 12:53

    智能座舱的语音交互系统技术应用

    从用户发出语音指令到实现与智能设备的交互,其过程并不像其名词描述的那么简单,要实现通过语音来完成人机交互,要解决解决三个关键问题,如何让机器听清用户的
    发表于 07-28 10:17 340次阅读
    智能座舱的<b class='flag-5'>语音</b><b class='flag-5'>交互</b><b class='flag-5'>系统</b>技术应用

    语音识别唤醒词-开启智能化的语音交互时代

    语音识别唤醒词是指在语音交互系统中使用的特定词语或短语,用于唤醒系统并启动语音识别功能。这项技术
    的头像 发表于 07-09 00:53 927次阅读

    惊人的亚马逊Alexa机器人魔术表演

    电子发烧友网站提供《惊人的亚马逊Alexa机器人魔术表演.zip》资料免费下载
    发表于 07-06 15:09 0次下载
    惊人的<b class='flag-5'>亚马逊</b><b class='flag-5'>Alexa</b>机器人魔术表演

    【CW32饭盒派开发板试用体验】+万物互联之温湿度显示

    场合来编写。附上屏幕刷新和温湿度采集流程。 联网,总不能在当地显示,得联网才行。下一篇,我们将让开发板和网络连接起来,万物互联之ESP8266联网。
    发表于 06-26 20:33

    Cibus Tabula E-Ink的Alexa语音接口

    电子发烧友网站提供《Cibus Tabula E-Ink的Alexa语音接口.zip》资料免费下载
    发表于 06-16 11:48 0次下载
    Cibus Tabula E-Ink的<b class='flag-5'>Alexa</b><b class='flag-5'>语音</b>接口

    适用于AWS的M5Core2/Core2上的亚马逊Alexa

    电子发烧友网站提供《适用于AWS的M5Core2/Core2上的亚马逊Alexa.zip》资料免费下载
    发表于 06-14 15:36 0次下载
    适用于AWS的M5Core2/Core2上的<b class='flag-5'>亚马逊</b><b class='flag-5'>Alexa</b>

    使用CENTAURI 200物联网网关将Alexa与您的物联网解决方案集成

    亚马逊Alexa是基于云的下一代语音物联网生态系统。兼容的Amazon Echo暗指连接到Alexa服务的硬件。
    发表于 06-12 09:21 136次阅读

    语音识别技术的概念及应用前景

    解决的问题,就是使得设备可以用听觉感知周围的世界,用声音和人做最自然的交互操控和生活更为便捷。 智能语音的基础在于通过神经网络技术,提升语音
    发表于 05-27 09:41

    面向万物智联的应用框架的思考和探索(下)

    。其中,开发效率和运行体验是永恒的诉求,业界也在持续不断的发展和演进。 本文重点围绕移动应用框架,梳理其关键发展脉络,并分析其背后的技术演进思路以及目前的局限;同时,进一步结合万物智联的新场景和新生
    发表于 05-06 10:17

    面向万物智联的应用框架的思考和探索(中)

    效的并行化机制等。 1.3 如何设计应用框架,实现系统性跨越 如上所述,现有的原生应用框架以及三方跨平台框架都有自身定位/设计上的局限。那在万物智联的场景下,应该如何设计应用框架,才能较好的满足相关
    发表于 05-05 14:41