炬芯科技 2019 多模态交互技术开发者大会：AI多模态交互如何助力教育-电子发烧友网

2020年AI多模态交互技术将会迎来较大爆发。12月19日，在炬芯科技第四届Techlife炬芯2019多模态交互技术开发者大会上，来自喜马拉雅、达摩院、玩瞳科技、IP方CEVA的行业大咖们，从内容赋能、语音赋能到视觉算法赋能、IP加速等多角度，共同探讨多模态交互在教育上的落地情况。

多模态交互技术赋能新智能硬件

喜马拉雅今年的用户突破6亿，拥有7000万以上的主播，其中100万以上是认证主播，在整个音频行业的覆盖率73%，每个用户平均每天的播放时长超过170分钟，喜马拉雅硬件生态事业部总经理余涛表示，“我们的目标是，提供高度粘性，给用户提供有价值的产品。”

喜马拉雅硬件生态事业部总经理余涛

硬件生态事业部主要做内容赋能，喜马拉雅希望通过内容赋能，让大家能够把产品的体验做得更好。在余涛看来，人们拥有很多碎片化的时间，从古代到现代，人本质上的需求是不会变的，而变的是我们以怎样的方式去实现人们的需求。就像喜马拉雅现在做的音频的产业一直是存在的，而必须求变的是，需要通过怎样的交互，生意模式，去给大家带来更多的思考。

为此，喜马拉雅接下来将会基于场景化，给大家带来不同场景化的东西。怎么做呢？即基于场景，让人们在不同的碎片时间，可以有不同碎片时间的音频的享受。所以我们在各种场景下，对内容做了筛选，比如从现在的故事维度到教课维度，把所有的内容分为10个大类，包括博学、英语到科普，从不同维度输出内容。

实际上，所有的硬件厂商，未来也是一样。如何让用户把爱不释手的硬件拿到手，那就是要能为这些用户提供更多的价值。

喜马拉雅正在打造深圳硬件生态，已经为很多头部厂商输出内容，比如为阿里、天猫、小米里面的喜马专区，小米、小天才、华为的手表，三星、联想的手机的内容。此外，喜马拉雅硬件事业创业部2020年提出了一个双百计划，即三年内，有一百个年收入分成超过一百万的企业，这是接下来的目标。

相信，喜马拉雅的内容在更多的智能产品中出现，丰富的内容体系将在多模态交互技术赋能的新智能硬件中焕发更蓬勃的生命力。

“阿里巴巴在语音助手方面，比谷歌更好。”

“谈到达摩院语音实验室的时候，经常有朋友很惊讶的问到，阿里巴巴还做语音吗，那做得怎么样呢？”阿里巴巴达摩院语音实验室资深算法专家高杰在会上说到。事实上，阿里巴巴达摩院的语音技术的表现已经相当优秀，今年MIT Technology Review中讲到2019年十大技术突破，有一点提到语音助手技术，是这么说的，“阿里巴巴在语音助手方面，比谷歌更好。”这个评论是针对，阿里菜鸟送货电话机器人去做的。高杰表示，在我们擅长的小小领域，比如电商客服，送货，人工智能对话方面是实实在在做得最好的。

图：阿里巴巴达摩院语音实验室资深算法专家高杰

图：MIT Technology Review 2019提到“阿里巴巴在语音助手方面，比谷歌更好。”

高杰还从三个方面谈到了达摩院的语音能力和优势，他说，“数据积累、算法和计算能力是语音AI三大基石。在数据积累方面，达摩院语音技术连续4年，每年识别阿里巴巴集团内超过1亿通的电话，还提供手机淘宝、支付宝、手机高德等阿里巴巴集团内所有App的语音识别相关功能，具有电视、车载、儿童教育、公共空间等多领域的语音交互数据，具备多语音、重口音、方言能力；在算法方面，具有三国五地精英齐聚的百人精英团队，具备信号处理、语音识别、语音合成、对话处理的能力；在计算能力方面，背靠阿里云，弹性计算百万并发经受双十一考验，语音识别使业内最先进的CTC-LFR建模技术提速3倍以上。”

在会上，高杰重点介绍两款产品，语音原子产品和语音交互产品。语音原子产品，包含语音识别和语音合成，具有自学习、弹性计算、稳定、方便接入的特点。语音交互产品旨在让每台设备都能听会说懂你，该产品从2015年到2018年，已经在手机、汽车、电视、智能家居等场景中应用，包括支付宝、虾米音乐、多模态地铁售票机、手机高德APP、儿童机器人、荣威系列、海尔远场景语音电视等等。

高杰表示，达摩院语音实验室的愿景是为阿里巴巴经济体提供无处不在的语音交互能力。语音技术作为多模态中发展最成熟，也是最重要的一环，我们期待语音技术在多模态交互场景中有着更多的亮眼表现。

视觉将是下一代机器人的基本能力

玩瞳科技VisionTal专注于实体学习桌面的智能视觉分析，旨在打造多模态的智能学习体验。在会上，玩瞳科技CTO潘鑫表示，政策利好产业发展，2018年，中国发布的《教育信息2.0行动计划》强调“智慧教育创新发展行动”要加强智能教学助手、教育机器人、智能学伴、语音文字信息化等关键技术研究与应用。教育机器人作为机器人应用于教育领域的代表，将成为智慧学习环境的重要组成部分。

玩瞳科技CTO潘鑫

在谈到下一代机器人的发展方向时，潘鑫认为，视觉将是下一代机器人的基本能力。视觉的能力将使机器人改变以往的被动服务形式，迈向主动服务。从而为使用者提供更好的服务体验。

玩瞳科技在教育视觉领域深耕多年，在视觉识别算法上走在行业前列，在完整的技术体系支持下，推出了多款视觉识别的教育硬件产品，并且和机器人/故事机、教育电子、互联网巨头、垂直教育多领域合作，积累了丰富的实践经验。

让教育硬件从听到到看，多模态的交互趋势，玩瞳已做好准备。

CEVA DSP一站式解决方案助力极速开发产品

CEVA是一家以色列的IP授权公司，在DSP领域处于领先地位，客户遍布全球各地，行业应用覆盖非常广，包括计算机视觉、AI、通讯等领域。CEVAKeyAccountsMananger田元在会上表示，CEVA每年出货量非常可观，有CEVAinside的终端产品出货超过10亿台。

CEVA Key Accounts Mananger 田元

在会上，田元重点谈到音频相关的应用，重点讲到智能音箱和TWS耳机，调研机构数据显示，接下来几年，TWS耳机每年都有500—800 milion的出货量，智能音箱市场表现更为稳定，接下来几年会维持大概200 milion的出货量，在田元看来，未来几年，整个市场需求相当可观。

那么，面对如此大的市场需求，为什么用DSP而不是通用处理器来处理跟语音相关的东西？田元解释道，DSP，即数字信号处理器，语音作为数字信号，天然需要用DSP处理。那么又为什么用CEVA的DSP？田元说，“CEVA可以同时提供低功耗产品和高性能产品，此外，还和软件合作伙伴们一起，打造非常完备的生态系统，可以保证开发者、芯片客户、终端用户，快速开发产品，快速落地。CEVA除了提供DSPIP本身之外，还提供整套一站式解决方案，涵盖DSP IP、跟音频相关的软件等等。”

CEVA还会阵对不同的场景需求，提供不同的解决方案，这样，IC设计公司可以有更多的选择。以炬芯的芯片为例，超低功耗的解决方案对应炬芯ATS283X平台，高性能解决方案对应ATS3609D平台，优质的芯片集成的优质IP，可为终端智能硬件的产生做好充足准备。

AI多模态交互技术智启新教育

人机交互正在从键盘鼠标的交互转变成语音视觉等多模态交互。交互门槛的不断降低，给交互体验带来了明显提升。炬芯科技产品总监肖凯平表示，语音和视觉是AI交互主要的交互手段，语音方面，不同的产品，要求会有不同，但体验一定要“过门槛”，2mic是入门级要求，需要在本地完成AFE+WMC所有的计算；视觉方面，算法的计算量很大，本地化NN的性价比不够，在本地完成一部分计算，大部分工作在“云”完成。

炬芯科技产品总监肖凯平

为实现更优质交互体验，炬芯作为一家芯片设计厂商的也在持续深耕技术，希望用更优质产品给智能机器赋能。炬芯科技推出了ATS3607、ATS3607D、ATS3609、ATS3609D四款多模态智能交互芯片，充足的算力、超低的功耗、强大的可扩展性，将赋予机器更多的可能性。

图：炬芯多模态交互AI芯片平台ATS3609D

据肖凯平介绍，炬芯多模态交互AI芯片平台ATS3609D，具有语音+图像智能、音视频能力、教育内容等，其中语音+图像智能更适用“重”语音，“轻”图像双模交互的场景；音视频能力双向视频通话，应用在线教育产品；教育+AI，可以给传统教育提供不一样的体验。

图：炬芯多MIC语音芯片平台ATS3607D，可应用于车载、家电、办公领域

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26335

浏览量
263940
阿里巴巴

阿里巴巴

+关注

关注
7

文章
1571

浏览量
46420
炬芯科技

炬芯科技

+关注

关注
1

文章
82

浏览量
10607

李未可科技正式推出WAKE-AI多模态AI大模型

李未可科技多模态 AI 大模型正式发布，积极推进 AI 在终端的场景应用 4月18日，2024中国生成式AI大会上李未可科技正式发布为眼

发表于 04-18 17:01 •13次阅读

李未可科技正式推出WAKE-<b class='flag-5'>AI</b>多<b class='flag-5'>模态</b><b class='flag-5'>AI</b>大模型

未来已来，多传感器融合感知是自动驾驶破局的关键

数据，与现有主流AI计算平台完全兼容，它可以复用已有的图像数据样本，免除了产品的神经网络训练数据需要完全重新采集的困扰。 “多维像素”数据组合示意图昱感微的融合感知技术采用最前沿的多传感器前融合

发表于 04-11 10:26

MWC2024：高通推出全新AI Hub及前沿多模态大模型

2024年世界移动通信大会（MWC）上，高通再次展现其技术领导力，通过发布全新的高通AI Hub和展示前沿的多模态大模型技术，推动了5G和

发表于 02-26 16:59 •722次阅读

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据，为更丰富的交互和查询响应提供了可能性。

发表于 01-19 16:11 •255次阅读

HarmonyOS SDK，助力开发者打造焕然一新的鸿蒙原生应用

控件，支持开发者快速集成满足规范要求的登录按钮，并提供统一的授权登录交互 UI，尽可能的简化 API 调用次数；地图选点控件，提供统一地点选择和地点搜索能力，仅需 1 个 API、约 10 行代码

发表于 01-19 10:31

多模态加持芯底座，大模型提速AI未来，星宸科技2023开发者大会暨产品发布会圆满落幕

2023年12月22日，星宸科技2023开发者大会暨产品发布会在深圳成功举办，此次大会以“Leading AI Everywhere”为主题，赋予“引领

发表于 01-05 15:13 •771次阅读

多<b class='flag-5'>模态</b>加持芯底座，大模型提速<b class='flag-5'>AI</b>未来，星宸科技2023<b class='flag-5'>开发者</b><b class='flag-5'>大会</b>暨产品发布会圆满落幕

语音识别技术最新进展：视听融合的多模态交互成为主要演进方向

电子发烧友网报道（文/李弯弯）所谓“模态”，英文是modality，用通俗的话说，就是“感官”，多模态即将多种感官融合。多模态交互技术是近年

发表于 12-28 09:06 •1473次阅读

语音识别<b class='flag-5'>技术</b>最新进展：视听融合的多<b class='flag-5'>模态</b><b class='flag-5'>交互</b>成为主要演进方向

多模态加持芯底座，大模型提速AI未来，星宸科技2023开发者大会暨产品发布会圆满落幕

12月22日，星宸科技股份有限公司（以下简称：星宸科技）以“Leading AI Everywhere”为主题的2023开发者大会暨产品发布会在深圳益田威斯汀酒店隆重举行。大会

发表于 12-23 18:58 •1496次阅读

汽车多模态交互研究：大模型及多模态融合，推进AI Agent上车

语音交互方面：语音交互在AI大模型的赋能下，功能愈加智能化、情感化。唇动识别、声纹识别等技术的上车，使语音交互精准度得到进一步提升，控制范围

发表于 11-24 16:12 •576次阅读

汇川技术开发者线下沙龙 | 以技术为王，为突破而生

近日，汇川技术开发者大会线下沙龙活动（东莞站）圆满举行。在模块化、标准化编程成为行业新潮流的大背景下，如何开发标准化程序成为许多工程师们亟待解决的需求。此次线下沙龙，100余位行业工程师、技

发表于 11-22 16:20 •572次阅读

分布式智慧教育交互平台：技术助力教育发展

交互平台基于分布式架构，利用多种智能通信技术、视频技术、软件技术等构建了一个互联互通、协同教学的教育环境。该平台在

发表于 09-05 11:12 •273次阅读

基于Transformer多模态先导性工作

中，不同模态之间的信息可以相互补充、交互作用，从而提供更深入、更全面的理解和沟通。以人类的感知为例，我们在日常生活中通常会同时接收多种感知信息。当我们观看一部电影时，我们不仅仅依靠视觉信息来理解情节和角色，还借助于听觉信息

发表于 08-21 09:49 •545次阅读

开放原子开源基金会OpenHarmony开发者大会2023演讲资料汇总

、交通、教育、政务、家居等众多行业，OpenHarmony生态发展欣欣向荣。本届OpenHarmony开发者大会将对OpenHarmony 3.2Release新特性、新能力进行深入介绍，同时邀请

发表于 05-29 16:34

ImageBind：跨模态之王，将6种模态全部绑定！

最近，很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此，视频 - 音频嵌入无法直接用于图像 - 文本任务，反之亦然。学习真正的联合嵌入面临的一个主要障碍是缺

发表于 05-11 09:30 •665次阅读

开放原子开源基金会OpenHarmony开发者大会2023圆满举办

4月19日，以“开源正当时，共赢新未来”为主题的开放原子开源基金会OpenHarmony开发者大会2023（以下简称“大会”）成功举办。本次大会由开放原子开源基金会指导，OpenHar

发表于 04-21 10:12

搜索历史

炬芯科技 2019 多模态交互技术开发者大会：AI多模态交互如何助力教育

多模态交互技术赋能新智能硬件

“阿里巴巴在语音助手方面，比谷歌更好。”

视觉将是下一代机器人的基本能力

CEVA DSP一站式解决方案助力极速开发产品

AI多模态交互技术智启新教育

评论

李未可科技正式推出WAKE-AI多模态AI大模型

未来已来，多传感器融合感知是自动驾驶破局的关键

MWC2024：高通推出全新AI Hub及前沿多模态大模型

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

HarmonyOS SDK，助力开发者打造焕然一新的鸿蒙原生应用

多模态加持芯底座，大模型提速AI未来，星宸科技2023开发者大会暨产品发布会圆满落幕

语音识别技术最新进展：视听融合的多模态交互成为主要演进方向

多模态加持芯底座，大模型提速AI未来，星宸科技2023开发者大会暨产品发布会圆满落幕

汽车多模态交互研究：大模型及多模态融合，推进AI Agent上车

汇川技术开发者线下沙龙 | 以技术为王，为突破而生

分布式智慧教育交互平台：技术助力教育发展

基于Transformer多模态先导性工作

开放原子开源基金会OpenHarmony开发者大会2023演讲资料汇总

ImageBind：跨模态之王，将6种模态全部绑定！

开放原子开源基金会OpenHarmony开发者大会2023圆满举办