0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度与科大讯飞的竞争正在从语音交互延伸到视觉交互等多模态技术上

电子工程师 来源:未知 作者:李倩 2018-03-22 09:28 次阅读

近两年来,随着人们越来越频繁使用智能产品,所产生的数据越来越庞大,这些数据又被大公司所利用,庞大的数据也将催生“机器人大脑”。

目前市面上已经诞生出越来越多的机器人产品,如:早教机器人、陪护机器人、商场机器人、银行机器人、法务机器人等等,但是在实际的场景应用中,机器人并不能带来真正的智能。

最主要的功能就是体现在机器人大脑,用专业术语讲就是“语义”,我们在语义的采集上还处在非常初级的阶段,如果处理不了语义理解,那机器人在实际场景中的应用就是一个“呆子”。

让机器人开口说话,除了语义之外,语音也是关键的技术,国内科大讯飞在语音技术上的造诣,让国内很多做机器人的企业受惠,其语音处理技术基本上已经能满足人们日常生活中的使用需求。

但是国内机器人产业接下来的发展将会开始加速,在这次1号机器人网研讨会上,不管是百度,还是科大讯飞所传递的信息就是已做好全面出击的准备。

虽然国内语音语义的发展正在加速,但是对机器人企业而言,速度还不够快,目前不管是百度,还是科大讯飞所提供的语音语义还是不能满足机器人在实际应用中的要求。

城市漫步总经理李正说:“在人们与机器人对话的过程中,一些简单的问题,机器人是可以回答,但是稍微复杂一些的问题,机器人就回答不了,BAT或科大讯飞所提供的语义,让机器人处在小孩3岁左右的智力水平。对很多机器人企业而言,目前的瓶颈也是在这里,很难有所突破。”

科大讯飞销售总监廖凯说:“其实讯飞也很苦恼,语音助理已经通过国家各种考试,很难说它的智力不行,讯飞高考机器人基于目前的成长速度,到2020年会考上一本,去年的数据显示,语文考了90多分,数学考了110多分。”

只能说人们日常交流中,所体现的语言很复杂,目前的大数据还不能够支撑人们复杂的日常交流。

百度自然语言技术开放负责人张晶晶说:“人工智能聪明程度其实很大程度上取决于数据,百度为什么在人工智能领域国内领先,因为背后是庞大的数据,比如百度搜索,每天有60亿次搜索,这些数据支撑百度深度语义理解,像这种过亿用户的APP,百度有14个,这些数据支撑了百度大脑每时每刻都在进化。”

“国内各大平台,如:百度UNIT、讯飞AIUI、小i机器人、思必驰等,其实各家的侧重点不同,因此,最终的测试结果也会不同,像百度的对话效果只有达到95%以上才会放出来。”

但是在这次1号机器人网研讨会上,机器人企业对各大平台所提供的语义依然不是特别满意。

或许国内各大机器人企业过于依赖BAT等企业,希望依靠BAT大企业的投入完善语音语义技术,但是百度已经在语音语义上投入了3亿元,虽然技术积累很快,但是目前的瓶颈是依然还不能支撑机器人日常复杂的对话交流。

狗尾草联合创始人张博说:“3至5岁小孩,同一个问题,在每个年龄段寻求的答案都不同,所以对语义的要求非常高,如果真要做好语义理解,就需要把语义理解做的足够细,再接入知识图谱,如果是批量的知识图谱,那就需要各大平台开放知识库,让机器人企业去调用,满足更高级开发的产品需求。”

从这次1号机器人网研讨会上反馈,现阶段让各大平台完全开放知识库不现实,像百度、科大讯飞、小i机器人等投入巨资打造知识库,机器人企业想调用深层次语义,就需要支付相应的报酬。

当然很多机器人企业对语音还是另有看法,比如AI与UI,明明很多场景直接通过UI就可以解决的事情,干嘛非要用语音,把简单的事情复杂化。

这个问题的着重点在于,目前看来语音确实还不是最好用的产品,但是长远看语音将会是最便捷的交互方式。

当汽车和火车刚发明的时候,跑起来还没有马车快,但是终究汽车和火车是发展方向。

科大讯飞廖凯说:“人与机器发生交互的时候,输入输出信息有两种,我们从机器身上获取的信息,最简单的方式就是视觉,一目了然;但我们输出的信息最自然的方式是语音。这是语音的特性,未来一定会颠覆传统以键盘或触屏的输出方式。”

接下来,我们回到产品上来,对机器人企业而言,现阶段就算依靠BAT等企业的语音语义技术,也不能让产品具备高智慧,充其量只能达到小孩3岁左右的智力水平。

所以未来的方向在于细分场景,比如:订机票、订酒店等,采用百度和科大讯飞的语音语义可以非常成熟的完成,让用户从查询机票到预订票到购买机票等全过程,期间进行的多轮复杂人机对话可达7层以上。

因此,在一些细分商用场景,语音已经可以做到替代客服的工作,对机器人企业而言,如何让机器人+语音语义+使用场景落地才是接下来重点思考的方向。

百度张晶晶认为,通过百度大数据分析,儿童故事机的市场规模很大,目前正是更新换代的时间节点,因此,百度对儿童领域的投入会有所加大。

科大讯飞廖凯说:“今年大型商用机器人会有所发展,目前讯飞晓曼机器人已经入驻红星美凯龙、居然之家,以及一些零售商场。晓曼机器人目前已经可以做到导航领路、提供资讯、针对商场还提供了一套机器人营销方案,通过大数据帮助商家提高客户的转化率。”

目前国内大型商用机器人研发投入大,但是相对售价高、利润高,很多机器人企业在大型商用机器人身上舍得投入,因此,对科大讯飞而言,也有更强的动力去做技术的迭代。

如果从竞争的角度去分析,目前百度和科大讯飞提供的语音语义方案是旗鼓相当。

但是接下来的竞争将会更加深入,涉及到多模态技术交互。

科大讯飞在AIUI的构架下,加入手势识别、图像识别,使得人机交互技术更加复杂;百度也是一样,在提供语音交互的基础上加入图像识别,提供一站式服务。

因此,百度与科大讯飞的竞争正在从语音交互延伸到视觉交互等多模态技术上,对机器人企业而言,全新的时代即将来临,在主流人工智能企业激烈的竞争下,能够享受到的技术红利是,可以以低成本的方案去创造一台全新的机器人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    26820

    浏览量

    201027
  • 科大讯飞
    +关注

    关注

    19

    文章

    741

    浏览量

    60318
  • 自然语言
    +关注

    关注

    1

    文章

    265

    浏览量

    13176

原文标题:百度与科大讯飞竞争将从语音扩散到视觉

文章出处:【微信号:robot-1hjqr,微信公众号:1号机器人网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    科大发布星火语音大模型

    科大行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年01月31日 09:17:28

    人机交互技术有哪几种 人机交互技术的发展趋势

    的几种形式: 图形用户界面(GUI):图形用户界面是目前最为常见的人机交互技术形式。它通过图形化的方式展示信息,用户可通过鼠标、键盘等设备进行操作。GUI简单直观,易于学习使用,适用于大众用户。 语音
    的头像 发表于 01-22 17:47 762次阅读

    语音识别技术最新进展:视听融合的多模态交互成为主要演进方向

    多种模态(声学、语言模型、视觉特征等)进行联合建模,基于深度学习的多模态语音识别取得了新进展。   多模态
    的头像 发表于 12-28 09:06 1356次阅读
    <b class='flag-5'>语音</b>识别<b class='flag-5'>技术</b>最新进展:视听融合的多<b class='flag-5'>模态</b><b class='flag-5'>交互</b>成为主要演进方向

    科大讯飞语音控制模块怎么用

    科大讯飞语音控制模块是一种人机交互技术,它利用语音识别和语音合成
    的头像 发表于 12-25 13:58 450次阅读

    汽车多模态交互研究:大模型及多模态融合,推进AI Agent上车

    语音交互方面:语音交互在AI大模型的赋能下,功能愈加智能化、情感化。唇动识别、声纹识别等技术的上车,使
    的头像 发表于 11-24 16:12 510次阅读
    汽车多<b class='flag-5'>模态</b><b class='flag-5'>交互</b>研究:大模型及多<b class='flag-5'>模态</b>融合,推进AI Agent上车

    情感语音识别技术在人机交互中的应用与展望

    一、引言 随着人工智能技术的不断发展,人机交互已经渗透到日常生活的方方面面。情感语音识别作为人机交互中的关键技术之一,能够通过分析人类
    的头像 发表于 11-22 10:40 277次阅读

    情感语音识别技术在人机交互中的应用与挑战

     一、引言 随着人工智能技术的不断发展,人机交互已经成为了研究的热点之一。情感语音识别技术作为人机交互中的重要组成部分,能够通过识别人的
    的头像 发表于 11-09 15:27 336次阅读

    智能座舱的语音交互系统技术应用

    从用户发出语音指令到实现与智能设备的交互,其过程并不像其名词描述的那么简单,要实现通过语音来完成人机交互,要解决解决三个关键问题,如何让机器听清用户的
    发表于 07-28 10:17 323次阅读
    智能座舱的<b class='flag-5'>语音</b><b class='flag-5'>交互</b>系统<b class='flag-5'>技术</b>应用

    语音识别唤醒词-开启智能化的语音交互时代

    语音识别唤醒词是指在语音交互系统中使用的特定词语或短语,用于唤醒系统并启动语音识别功能。这项技术的出现为智能化的
    的头像 发表于 07-09 00:53 798次阅读

    语音识别技术的概念及应用前景

    智能语音技术是人工智能应用最成熟的技术之一,并拥有交互的自然性,就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数
    发表于 05-27 09:41

    车企提“智”升级,车载语音识别技术成就语音交互新体验

    、个性化的用户体验,车企提“智”升级,对车载语音交互系统的功能和性能提出了更高的要求。在此背景下,车载语音识别等技术逐渐成为了车载语音
    的头像 发表于 04-23 18:13 429次阅读

    车企提“智”升级,车载语音识别技术成就语音交互新体验

    、个性化的用户体验,车企提“智”升级,对车载语音交互系统的功能和性能提出了更高的要求。在此背景下,车载语音识别等技术逐渐成为了车载语音
    的头像 发表于 04-23 15:15 383次阅读

    智能交互终端的功能 智能交互终端怎么设置

    智能交互终端是指能够通过人机交互的方式,实现信息互动、控制操作等功能的设备。具体包括以下几个方面的功能:   1. 语音交互:智能交互
    的头像 发表于 04-16 11:53 2861次阅读

    车载手势交互研究的六种技术路线

    量同比增长315.6% 随着智能座舱技术的迭代升级,座舱服务从被动智能逐渐演变为主动智能,人机交互模式从单一模态交互方式转向多模态
    的头像 发表于 04-14 15:13 1117次阅读
    车载手势<b class='flag-5'>交互</b>研究的六种<b class='flag-5'>技术</b>路线

    机器人市场化的人机语音交互

    的主要功能之一。尽管国内的科大讯飞,百度以及目前最为火爆的国外ChatGPT已经在人机语音交互技术上不断地进行突破,特别是ChatGPT给人
    的头像 发表于 04-03 11:33 480次阅读
    机器人市场化的人机<b class='flag-5'>语音</b><b class='flag-5'>交互</b>