通过YouTube视频中的图像和声音来训练深度神经网络-电子发烧友网

如何从混杂的背景噪音中过滤出特定的声音，这一“经典鸡尾酒会问题”有望在AI的帮助下得以解决。

因为我们的大脑可以专注于想听到的内容，所以人耳可以准确地从嘈杂声中分辨出特定的声音。然而，基于机器的“声源分离”技术多年来却一直让工程师们束手无策。麻省理工学院的研究人员正在利用MV（音乐短片）训练神经网络，以便更好地定位声音来源。

该团队的深度学习系统可以“直接通过一些未经标记的YouTube视频进行学习，分辨出每种物体对应的声音，”麻省理工学院研究人员Hang Zhao说道。他也曾是NVIDIA研究部门的实习生。

Zhao认为，该技术极具突破性，在语音、听力学、音乐和机器人学领域均有广泛的应用。

通过“刷视频”来学习

麻省理工学院开发出了一种新方法，即通过YouTube视频中的图像和声音来训练深度神经网络。他们的目标是让神经网络能够精确定位视频中图像的位置（精确到像素级）。

该团队将其系统称为PixelPlayer，并通过YouTube上的MV对PixelPlayer进行了60个小时的训练。到目前为止，该系统已经可以识别20多种乐器。

该团队在麻省理工学院的计算机科学和人工智能实验室 (Computer Science and Artificial Intelligence Lab) 开展了这项研究，共开发出了三个卷积神经网络，它们可协同工作以生成相应结果。其中一个卷积神经网络负责对视觉输入进行编码，一个负责对音频输入进行编码，第三个则负责基于视觉和音频输入合成输出。

PixelPlayer训练数据集由714个YouTube视频组成。“由于我们使用了四块NVIDIA GPU，卷积神经网络才能够以非常快的速度处理数据，”Zhao表示，“它大约用了一天的时间便学会了。”

PixelPlayer是一个自我监督型（self-supervised）的系统。这意味着该系统不需要人类对乐器或乐器声音进行任何标注，也可以识别出大号和小号等乐器的外观、乐器声音以及发声方式。

吹响胜利的号角

对视频中的声源进行定位后，PixelPlayer即可分离出其波形。目前，PixelPlayer在识别两种或三种不同乐器时表现最佳，但该团队的目标是尽快扩大其识别范围。在谈到分离乐器声音的过程时，Zhao说道：“我们正在努力将一个MP3文件分离为多个MP3文件。”

PixelPlayer在音乐领域有诸多用途。据Zhao介绍，音频工程师可以应用此款AI工具增强某些音量较低的乐器声音，或去除某种背景噪音。此外，它还可以帮助音频工程师改善现场录音或重新灌录音乐的效果。

改善助听器功能也是研究人员为“鸡尾酒会问题”开发深度学习解决方案的目的。

不仅是音乐和听力学领域，其应用范围还可用于识别我们周围的声音。例如，聆听森林中珍稀鸟类的鸣叫声。“机器人也可以借助该系统理解周围环境中的声音。”Zhao补充道。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98720
人工智能

人工智能

+关注

关注
1776

文章
43824

浏览量
230584
深度学习

深度学习

+关注

关注
73

文章
5236

浏览量
119900

原文标题：让音乐更悦耳：AI助力解决“鸡尾酒会问题”

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

人工神经网络原理及下载

这个网络输入和相应的输出来“训练”这个网络，网络根据输入和输出不断地调节自己的各节点之间的权值来满足输入和输出。这样，当

发表于 06-19 14:40

从AlexNet到MobileNet，带你入门深度神经网络

通过堆叠卷积层使得模型更深更宽，同时借助GPU使得训练再可接受的时间范围内得到结果，推动了卷积神经网络甚至是深度学习的发展。下面是AlexNet的架构：AlexNet的特点有：1.借助

发表于 05-08 15:57

人脸识别、语音翻译、无人驾驶...这些高科技都离不开深度神经网络了！

，如何用一个神经网络，写出一套机器学习算法，来自动识别未知的图像。一个 4 层的神经网络输入层经过几层算法得到输出层实现机器学习的方法有很多，近年被人们讨论得多的方法就是深度学习。

发表于 05-11 11:43

基于赛灵思FPGA的卷积神经网络实现设计

FPGA 上实现卷积神经网络 (CNN)。CNN 是一类深度神经网络，在处理大规模图像识别任务以及与机器学习类似的其他问题方面已大获成功。在当前案例

发表于 06-19 07:24

【案例分享】ART神经网络与SOM神经网络

，同理，阈值越大，则容纳的模式类也就越多----------以上纯属个人理解，如果有错误欢迎指正。ART比较好地缓解了竞争型学习中的“可塑性-稳定性窘境”，其中可塑性指神经网络要能够学习新知识，稳定性

发表于 07-21 04:30

如何设计BP神经网络图像压缩算法？

，并能在脑海中重现这些图像信息，这不仅与人脑的海量信息存储能力有关，还与人脑的信息处理能力，包括数据压缩能力有关。在各种神经网络中，多层前馈神经网络具有很强的信息处理能力，由于其采用B

发表于 08-08 06:11

浅谈深度学习之TensorFlow

DNN（深度神经网络算法）现在是AI社区的流行词。最近，DNN 在许多数据科学竞赛/Kaggle 竞赛中获得了多次冠军。自从 1962 年 Rosenblat 提出感知机（Perceptron）以来

发表于 07-28 14:34

如何移植一个CNN神经网络到FPGA中？

）第二步：使用Lattice sensAI 软件编译已训练好的神经网络，定点化网络参数。该软件会根据神经网络结构和预设的FPGA资源进行分析并给出性能评估报告，此外用户还可以在软件

发表于 11-26 07:46

深度神经网络是什么

多层感知机深度神经网络in collaboration with Hsu Chung Chuan, Lin Min Htoo, and Quah Jia Yong. 与许忠传，林敏涛和华佳勇合作

发表于 07-12 06:35

图像预处理和改进神经网络推理的简要介绍

为提升识别准确率，采用改进神经网络，通过Mnist数据集进行训练。整体处理过程分为两步：图像预处理和改进神经网络推理。

发表于 12-23 08:07

卷积神经网络模型发展及应用

神经网络已经广泛应用于图像分类、目标检测、语义分割以及自然语言处理等领域。首先分析了典型卷积神经网络模型为提高其性能增加网络深度以及宽度的模

发表于 08-02 10:39

如何进行高效的时序图神经网络的训练

现有的图数据规模极大，导致时序图神经网络的训练需要格外长的时间，因此使用多GPU进行训练变得成为尤为重要，如何有效地将多GPU用于时序图神经网络训练

发表于 09-28 10:37

卷积神经网络简介：什么是机器学习？

通过网络训练来确定才能使模型工作。这将在后续文章“训练卷积神经网络：什么是机器学习？—第 2 部

发表于 02-23 20:11

卷积神经网络如何识别图像

为多层卷积层、池化层和全连接层。CNN模型通过训练识别并学习高度复杂的图像模式，对于识别物体和进行图像分类等任务有着非常优越的表现。本文将会详细介绍卷积神经网络如何识别

发表于 08-21 16:49 •1415次阅读

卷积神经网络和深度神经网络的优缺点卷积神经网络和深度神经网络的区别

深度神经网络是一种基于神经网络的机器学习算法，其主要特点是由多层神经元构成，可以根据数据自动调整神经元之间的权重，从而实现对大规模数据进行预

发表于 08-21 17:07 •2314次阅读

搜索历史

通过YouTube视频中的图像和声音来训练深度神经网络

评论