0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

炬芯科技 2019 多模态交互技术开发者大会:AI多模态交互如何助力教育

Carol Li 来源:电子发烧友网 作者:Carol Li 2019-12-24 11:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2020年AI多模态交互技术将会迎来较大爆发。12月19日,在炬芯科技第四届Techlife炬芯2019多模态交互技术开发者大会上,来自喜马拉雅、达摩院、玩瞳科技、IP方CEVA的行业大咖们,从内容赋能、语音赋能到视觉算法赋能、IP加速等多角度,共同探讨多模态交互在教育上的落地情况。

多模态交互技术赋能新智能硬件

喜马拉雅今年的用户突破6亿,拥有7000万以上的主播,其中100万以上是认证主播,在整个音频行业的覆盖率73%,每个用户平均每天的播放时长超过170分钟,喜马拉雅硬件生态事业部总经理余涛表示,“我们的目标是,提供高度粘性,给用户提供有价值的产品。”

喜马拉雅硬件生态事业部总经理余涛

硬件生态事业部主要做内容赋能,喜马拉雅希望通过内容赋能,让大家能够把产品的体验做得更好。在余涛看来,人们拥有很多碎片化的时间,从古代到现代,人本质上的需求是不会变的,而变的是我们以怎样的方式去实现人们的需求。就像喜马拉雅现在做的音频的产业一直是存在的,而必须求变的是,需要通过怎样的交互,生意模式,去给大家带来更多的思考。

为此,喜马拉雅接下来将会基于场景化,给大家带来不同场景化的东西。怎么做呢?即基于场景,让人们在不同的碎片时间,可以有不同碎片时间的音频的享受。所以我们在各种场景下,对内容做了筛选,比如从现在的故事维度到教课维度,把所有的内容分为10个大类,包括博学、英语到科普,从不同维度输出内容。

实际上,所有的硬件厂商,未来也是一样。如何让用户把爱不释手的硬件拿到手,那就是要能为这些用户提供更多的价值。

喜马拉雅正在打造深圳硬件生态,已经为很多头部厂商输出内容,比如为阿里、天猫、小米里面的喜马专区,小米、小天才、华为的手表,三星、联想的手机的内容。此外,喜马拉雅硬件事业创业部2020年提出了一个双百计划,即三年内,有一百个年收入分成超过一百万的企业,这是接下来的目标。

相信,喜马拉雅的内容在更多的智能产品中出现,丰富的内容体系将在多模态交互技术赋能的新智能硬件中焕发更蓬勃的生命力。

“阿里巴巴在语音助手方面,比谷歌更好。”

“谈到达摩院语音实验室的时候,经常有朋友很惊讶的问到,阿里巴巴还做语音吗,那做得怎么样呢?”阿里巴巴达摩院语音实验室资深算法专家高杰在会上说到。事实上,阿里巴巴达摩院的语音技术的表现已经相当优秀,今年MIT Technology Review中讲到2019年十大技术突破,有一点提到语音助手技术,是这么说的,“阿里巴巴在语音助手方面,比谷歌更好。”这个评论是针对,阿里菜鸟送货电话机器人去做的。高杰表示,在我们擅长的小小领域,比如电商客服,送货,人工智能对话方面是实实在在做得最好的。

图:阿里巴巴达摩院语音实验室资深算法专家高杰

图:MIT Technology Review 2019提到“阿里巴巴在语音助手方面,比谷歌更好。”

高杰还从三个方面谈到了达摩院的语音能力和优势,他说,“数据积累、算法和计算能力是语音AI三大基石。在数据积累方面,达摩院语音技术连续4年,每年识别阿里巴巴集团内超过1亿通的电话,还提供手机淘宝、支付宝、手机高德等阿里巴巴集团内所有App的语音识别相关功能,具有电视、车载、儿童教育、公共空间等多领域的语音交互数据,具备多语音、重口音、方言能力;在算法方面,具有三国五地精英齐聚的百人精英团队,具备信号处理、语音识别、语音合成、对话处理的能力;在计算能力方面,背靠阿里云,弹性计算百万并发经受双十一考验,语音识别使业内最先进的CTC-LFR建模技术提速3倍以上。”

在会上,高杰重点介绍两款产品,语音原子产品和语音交互产品。语音原子产品,包含语音识别和语音合成,具有自学习、弹性计算、稳定、方便接入的特点。语音交互产品旨在让每台设备都能听会说懂你,该产品从2015年到2018年,已经在手机、汽车、电视、智能家居等场景中应用,包括支付宝、虾米音乐、多模态地铁售票机、手机高德APP、儿童机器人、荣威系列、海尔远场景语音电视等等。

高杰表示,达摩院语音实验室的愿景是为阿里巴巴经济体提供无处不在的语音交互能力。语音技术作为多模态中发展最成熟,也是最重要的一环,我们期待语音技术在多模态交互场景中有着更多的亮眼表现。

视觉将是下一代机器人的基本能力

玩瞳科技VisionTal专注于实体学习桌面的智能视觉分析,旨在打造多模态的智能学习体验。在会上,玩瞳科技CTO潘鑫表示,政策利好产业发展,2018年,中国发布的《教育信息2.0行动计划》强调“智慧教育创新发展行动”要加强智能教学助手、教育机器人、智能学伴、语音文字信息化等关键技术研究与应用。教育机器人作为机器人应用于教育领域的代表,将成为智慧学习环境的重要组成部分。

玩瞳科技CTO潘鑫

在谈到下一代机器人的发展方向时,潘鑫认为,视觉将是下一代机器人的基本能力。视觉的能力将使机器人改变以往的被动服务形式,迈向主动服务。从而为使用者提供更好的服务体验。

玩瞳科技在教育视觉领域深耕多年,在视觉识别算法上走在行业前列,在完整的技术体系支持下,推出了多款视觉识别的教育硬件产品,并且和机器人/故事机、教育电子、互联网巨头、垂直教育多领域合作,积累了丰富的实践经验。

让教育硬件从听到到看,多模态的交互趋势,玩瞳已做好准备。

CEVA DSP一站式解决方案助力极速开发产品

CEVA是一家以色列的IP授权公司,在DSP领域处于领先地位,客户遍布全球各地,行业应用覆盖非常广,包括计算机视觉、AI、通讯等领域。CEVAKeyAccountsMananger田元在会上表示,CEVA每年出货量非常可观,有CEVAinside的终端产品出货超过10亿台。

CEVA Key Accounts Mananger 田元

在会上,田元重点谈到音频相关的应用,重点讲到智能音箱和TWS耳机,调研机构数据显示,接下来几年,TWS耳机每年都有500—800 milion的出货量,智能音箱市场表现更为稳定,接下来几年会维持大概200 milion的出货量,在田元看来,未来几年,整个市场需求相当可观。

那么,面对如此大的市场需求,为什么用DSP而不是通用处理器来处理跟语音相关的东西?田元解释道,DSP,即数字信号处理器,语音作为数字信号,天然需要用DSP处理。那么又为什么用CEVA的DSP?田元说,“CEVA可以同时提供低功耗产品和高性能产品,此外,还和软件合作伙伴们一起,打造非常完备的生态系统,可以保证开发者、芯片客户、终端用户,快速开发产品,快速落地。CEVA除了提供DSPIP本身之外,还提供整套一站式解决方案,涵盖DSP IP、跟音频相关的软件等等。”

CEVA还会阵对不同的场景需求,提供不同的解决方案,这样,IC设计公司可以有更多的选择。以炬芯的芯片为例,超低功耗的解决方案对应炬芯ATS283X平台,高性能解决方案对应ATS3609D平台,优质的芯片集成的优质IP,可为终端智能硬件的产生做好充足准备。

AI多模态交互技术智启新教育

人机交互正在从键盘鼠标的交互转变成语音视觉等多模态交互。交互门槛的不断降低,给交互体验带来了明显提升。炬芯科技产品总监肖凯平表示,语音和视觉是AI交互主要的交互手段,语音方面,不同的产品,要求会有不同,但体验一定要“过门槛”,2mic是入门级要求,需要在本地完成AFE+WMC所有的计算;视觉方面,算法的计算量很大,本地化NN的性价比不够,在本地完成一部分计算,大部分工作在“云”完成。

炬芯科技产品总监肖凯平

为实现更优质交互体验,炬芯作为一家芯片设计厂商的也在持续深耕技术,希望用更优质产品给智能机器赋能。炬芯科技推出了ATS3607、ATS3607D、ATS3609、ATS3609D四款多模态智能交互芯片,充足的算力、超低的功耗、强大的可扩展性,将赋予机器更多的可能性。

图:炬芯多模态交互AI芯片平台ATS3609D

据肖凯平介绍,炬芯多模态交互AI芯片平台ATS3609D,具有语音+图像智能、音视频能力、教育内容等,其中语音+图像智能更适用“重”语音,“轻”图像双模交互的场景;音视频能力双向视频通话,应用在线教育产品;教育+AI,可以给传统教育提供不一样的体验。

图:炬芯多MIC语音芯片平台ATS3607D,可应用于车载、家电、办公领域

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38118

    浏览量

    296659
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1645

    浏览量

    48933
  • 炬芯科技
    +关注

    关注

    2

    文章

    137

    浏览量

    11201
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    导科技AI智能交互硬件方案介绍

    AI智能交互硬件是通过集成人工智能技术(如大语言模型、模态交互、机器学习等),赋予传统玩具智能
    的头像 发表于 12-03 17:00 1433次阅读
    <b class='flag-5'>芯</b>导科技<b class='flag-5'>AI</b>智能<b class='flag-5'>交互</b>硬件方案介绍

    集成端侧AI的可穿戴模态生理参数采集设备是脑机接口家用的未来?

    HUIYING集成端侧AI的可穿戴模态生理参数采集设备系统概述随着对实时生理监测与人机交互需求的增长,传统可穿戴设备在
    的头像 发表于 11-05 18:03 1293次阅读
    集成端侧<b class='flag-5'>AI</b>的可穿戴<b class='flag-5'>多</b><b class='flag-5'>模态</b>生理参数采集设备是脑机接口家用的未来?

    大模型驱动下的人机交互革命,“超拟真人互动” 让玩具读懂你的情绪

    电子发烧友网报道(文/黄山明)日前,在大湾区AI玩具生态大会上,百度智能云正式发布基于“超拟真人互动”理念的智能硬件模态交互解决方案。该方
    的头像 发表于 10-31 09:21 6108次阅读
    大模型驱动下的人机<b class='flag-5'>交互</b>革命,“超拟真人互动” 让玩具读懂你的情绪

    模态与智能体:学术界与产业界共话边缘智能新未来-2025安凯微电子开发者技术

    2025年10月24日,在“2025安凯微电子开发者技术论坛”(ADF 2025)期间,多位学术界专家与产业界行业资深人士齐聚H大厦多功能厅,围绕“从多媒体到模态,从智能硬件到智能体
    的头像 发表于 10-29 10:15 3443次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>与智能体:学术界与产业界共话边缘智能新未来-2025安凯微电子<b class='flag-5'>开发者</b><b class='flag-5'>技术</b>论

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    “看图说话+语音问答”的融合交互。 五、结论与未来发展方向如果说 “大模型上云” 是 AI 的 “星辰大海”,那么 “模态落地端侧” 就是 AI
    发表于 09-05 17:25

    基于米尔瑞微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    关键词:瑞微 RK3576、NPU(神经网络处理器)、端侧小语言模型(SLM)、模态 LLM、边缘 AI 部署、开发板、RKLLM随着
    发表于 08-29 18:08

    汽车模态交互测试:智能交互的深度验证

    在汽车智能座舱测试的关键进程中,北京沃华慧通测控技术有限公司展现出了独特的价值与优势。作为一家专注于测控技术领域的企业,沃华慧通在智能座舱测试方面积累了丰富的经验和专业的技术能力。其研发的测试设备能够精准模拟各种复杂的车载环境,
    的头像 发表于 06-25 09:00 1199次阅读
    汽车<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>交互</b>测试:智能<b class='flag-5'>交互</b>的深度验证

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式
    的头像 发表于 06-12 10:17 407次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>+空间智能:盾华以<b class='flag-5'>AI</b>+智慧路灯杆,点亮城市治理新方式

    长城汽车亮相2025华为鲲鹏昇腾开发者大会

    近日,长城汽车受邀参与鲲鹏昇腾开发者大会2025(KADC2025),与华为及全球开发者聚焦AI算力高效应用与技术创新。本次
    的头像 发表于 05-27 17:18 778次阅读

    通元NPU适配Qwen2.5-VL-3B视觉模态大模型

    熟悉爱通元NPU的网友很清楚,从去年开始我们在端侧模态大模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的模态大模MiniCP
    的头像 发表于 04-21 10:56 2593次阅读
    爱<b class='flag-5'>芯</b>通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    随着千行百业数智化进程的不断加速,模态AI大模型的应用需求不断攀升,图像、语音、视频等多样化的交互方式正逐渐成为推动行业变革的新动力。   3月20日,全球物联网整体解决方案供应商移
    发表于 03-21 14:12 426次阅读
    移远通信智能模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>AI</b>大模型,重塑智能<b class='flag-5'>交互</b>新体验

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    随着千行百业数智化进程的不断加速,模态AI大模型的应用需求不断攀升,图像、语音、视频等多样化的交互方式正逐渐成为推动行业变革的新动力。3月20日,全球物联网整体解决方案供应商移远通信
    的头像 发表于 03-20 19:03 665次阅读
    移远通信智能模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>AI</b>大模型,重塑智能<b class='flag-5'>交互</b>新体验

    模态交互技术解析

    模态交互 模态交互( Multimodal Interaction )是指通过多种感官通道(
    的头像 发表于 03-17 15:12 3520次阅读

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    探索智慧实践,洞见AI未来!星宸科技2024开发者大会暨产品发布会成功举办

    在人工智能技术飞速发展的当下,模态大模型加速向行业深耕,为更大范围满足AI产业创新融合需求,12月20日,星宸科技以“Leading AI
    的头像 发表于 12-23 14:34 1429次阅读
    探索智慧实践,洞见<b class='flag-5'>AI</b>未来!星宸科技2024<b class='flag-5'>开发者</b><b class='flag-5'>大会</b>暨产品发布会成功举办