基于对图片的语音描述，可以学习在图片中辨认目标物体-电子发烧友网

最近，麻省理工学院的计算机科学家们提出了一种系统，基于对图片的语音描述，可以学习在图片中辨认目标物体，给定一张图片和音频解释，模型可以实时辨认出音频描述的相关区域。

与现有的语音识别技术不同，该模型不需要对其训练的样本进行手动标注，而是模型直接从录音中学习单词，并从原始图片中学习目标物体，将它们相互连接。

目前，模型仅仅可以辨认几百个不同的单词和目标物体类别，但是研究者希望，未来他们的这种语音和目标辨认相结合的技术可以节约大量手工劳动，为语音辨认和图像识别打开新的世界。

像Siri之类的语音识别系统需要对上千小时的录音进行转译。用这些数据，系统学会将语音信号映射到具体的单词上。但一旦词汇中出现了新术语，这种方法就不管用了，系统就要重新训练。

计算机科学和人工智能实验室（CSAIL）的研究者，David Harwath表示：“我们想用一种更自然的方法进行语音识别，使用人类常用的信号和信息来训练。但是那样的机器学习算法并不容易获取。我们想到了一种类似教小孩走路并叙述自己所看到的景象的方法。”Harwath曾参与发表了一篇论文，论文中的模型在最近的计算机视觉欧洲会议上进行了展示。

在上述论文中，研究人员用一张图片展示了他们的模型，图片上有一位年轻的金发小女孩，她有一双蓝色的眼睛，穿着蓝色的连衣裙，背景中有一座白色灯塔，灯塔的顶部是红色的。模型会学习图片中的哪些像素与小女孩有关，例如哪些是“女孩”、“金发”、“蓝眼睛”、“蓝裙子”等等。随着音频的播放叙述，模型会在图片上对这些区域进行高亮。

其中一种有前景的应用就是在两种不同的语言之间进行装换，无需双语标注器。全世界大约有7000种语言，只有100种左右有足够的数据进行语音识别。但是，是否有这样一种情景，当两种说着不同语言的人描述同一幅图画呢？如果模型学会语言A所描述的语言信号所对应的图中物体，同时也学会了B所描述的同样物体，那么它就能将这两种信号看作是彼此的翻译版本。

Harwath说表示，这有助于解决神话故事中的“巴别塔”问题。

音频-视觉联系

这项工作是Harwath等人早期一项研究的扩展，他们当时研究将语音与相关主题的图片相连接。在早期研究中，他们从Mechanical Turk平台的分类数据集中选择不同场景的图片，之后让人对图片进行描述，就像给小孩子讲故事，录制大约10秒钟的视频。他们收集了20多万份图片和与之对应的音频注解，分成了上百种不同类别，例如沙滩、购物广场、城市街道、卧室等等。

之后，他们设计了一款模型，由两个独立的卷积神经网络构成。其中一个处理图像，另一个处理光谱（音频信号的视觉表示）。模型的最高层会计算两个网络的输出，并将语音模式映射到图片数据上。

例如，研究者会A注释输入到图片A中，这是相对应的。之后又会随机选择一个注释B输入到图片A中，这就是错误的配对。经过对比上千种错误的陪读，模型学会了与图片A相对应的语音信号，然后将这些信号和注释中的单词联系起来。正如2016年一份研究中所描述的，模型学会了表示“water”这个词的语音信号，然后检索出了所有带水的图片。

但是Harwath表示，这并不能证明当某人说出特定单词时就指的是某个像素。

matchmap

在新的论文中，研究人员对之前的模型进行了修改，将特定词语和特定的像素补丁联系在一起。研究人员在同样的数据集上训练模型，但是最终共有40万个图片注释对子，他们从中随机选取了1000对用作测试。

在训练时，模型像上述那样给予不同的注释，但这次，分析图片的卷积神经网络将图片用网格分成不同的部分，每个单元都有对应的像素补丁。分析音频的卷积神经网络将声谱也分成不同片段，也就是说一秒钟可能会有一到两个单词。

在正确的图片和注释对子下，模型会将第一个图片网格与第一段音频对应起来，然后将同样的图片网格与第二段音频对应，如此下去。对每个网格和音频片段，模型都会给出一个相似度分数，表示音频信号与目标物体的相似程度有多少。

但其中的难题是，在训练过程中，模型并不知道音频和图片对应的标准是什么。所以这篇论文最大的贡献就是，它通过教网络哪些图片和注释是同属一类，而哪些不是，就能自动推断这些跨形态连接。

论文作者将语音和图片像素之间的联系称作“matchmap”。训练了数千对图片和注释对子之后，网络会在matchmap中主线缩小与词语相对的目标物体。

论文的写作者Florian Metze说：“很高兴看到这种神经方法连接起图片元素和音频片段，并且不用文本作为中间工具。这并非是模仿热泪学习，而是完全基于彼此之间的连接。这也许能帮助我们理解，通过音频和视频线索如何形成视觉表示。机器翻译是一种应用，但它也能用于对濒危语言的记录上。我们也可以想象如何将这种技术应用到废除刘的语音中，或者残障人士身上。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音识别

语音识别

+关注

关注
37

文章
1635

浏览量
111831
机器学习

机器学习

+关注

关注
66

文章
8116

浏览量
130550
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24348

原文标题：MIT设计跨模态系统，让模型“听音识图”

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

这张图片中的DBL是什么意思？

这张图片中的DBL是什么意思，在前面板中对应的是波形图表，求哪位大神指导？

发表于 05-06 09:00

新手请教图片中的文件位置是什么控件？

新手请教图片中的open or create end 这些文件位置是什么控件？

发表于 03-01 13:34

怎样在labview的图片里插入与plc的通信接口，类似图片中的组态软件这种，在线等，急！

怎样在labview的图片里插入与plc的通信接口，类似图片中的组态软件这种，在线等，急！有36张不同模型角度的图片，怎样在插入通信之后，切

发表于 08-25 21:43

图片中的电子器件是什么？

本帖最后由 heroen08808 于 2016-10-29 10:02 编辑 图片中的电子器件是什么？

发表于 10-28 07:29

图片中箭头指向什么单位啊

图片中箭头指向什么单位啊是年吗怎么出现这个单位

发表于 09-21 10:53

请问图片中的是什么类型的数据？怎么制作？

高手，请教图片中的是什么类型数据，怎么制作？

发表于 10-04 10:31

请问图片中显示的应该如何解决啊？

`我上载了一张图片，不知道如何解决图片中的问题。`

发表于 03-23 17:33

基于图片特征的并行化海量图片快速去重技术

针对海量图片中的去除重复图片效率低的问题，提出一种基于图片特征的并行化海量图片快速去重技术。首先，对图片提取

发表于 12-14 11:48 •2次下载

基于深度学习的图片中商品参数识别方法

一个trade-off.目前电商领域的飞速发展产生了大量包含商品参数的图片。使用传统方法难以有效地提取出图片中的商品参数信息．针对这一问题。本文提出了一种将深度学习检测算法和传统OCR技术相结合的方法，在保证了识别速度的同时大

发表于 12-15 10:15 •0次下载

深度学习为图片压缩算法，可以节省55%带宽

通过深度学习技术设计压缩算法不仅能在不借助HEVC的情况下设计出更适合商用的更高压缩比的图片压缩算法，还可以在保持图片画质同时，尽可能降低图片

发表于 03-14 13:31 •6346次阅读

谷歌新闻：谷歌解雇48名员工新推机器学习标注图片功能

Google在2018 ACM多媒体会议上，推出一种使用机器学习来标注图片界面，让使用者快速为图片中物体标记出轮廓以及标签，提高整体标记速度达三倍。

发表于 10-26 14:42 •2703次阅读

目标检测算法有哪些目标检测算法原理图

目标检测定义，识别图片中有哪些物体以及物体的位置（坐标位置）。其中，需要识别哪些物体是人为设定限制的，仅识别需要检测的

发表于 12-06 15:49 •3997次阅读

如何在超大分辨率的图片中检测目标

本文通过一篇YOLT的文章引出超大分辨率的图片遇到目标检测任务该如何处理？此类问题一般出现在遥感领域和医疗影像中居多，我们先来分析超大图像的目标检测存在哪些问题，然后学习一下YOLT是

发表于 04-16 09:27 •1301次阅读

搜索历史

基于对图片的语音描述，可以学习在图片中辨认目标物体

评论

这张图片中的DBL是什么意思？

图片中的[I/O]是什么类型的IO？

新手请教图片中的文件位置是什么控件？

请问大神们怎么样解决图片中的问题？