利用机器学习算法中的深度神经网络,识别音乐类型等听觉任务上模拟人类表现的模型-电子发烧友网

麻省理工学院(MIT)的研究人员利用机器学习算法中的深度神经网络，创造出了第一个可以在识别音乐类型等听觉任务上模拟人类表现的模型。

该模型由许多信息处理单元组成，通过输入大量的数据来训练此模型，以完成特定的任务。研究人员利用该模型来阐明人脑是如何执行同样的任务的。

Josh McDermott说：“这些模型第一次给我们提供一个能够执行对人类有意义的感官任务的机器系统，并且是在人类的水平等级上进行这项工作。”他是麻省理工学院大脑和认知科学系的神经科学Frederick A.和Carole J. Middleton的助理教授，也是这项研究的资深作者。 “从历史上看，这种感官的处理方式很难理解，部分原因是我们没有一个非常明确的理论基础，也没有一个很好的方法来对可能正在发生的事情进行开发建模。”

这项研究发表在4月19日的《Neuron》杂志上，这项研究也证明了人类的听觉皮层排列在在一个等级分明的组织中，就像视觉皮质一样。在这种类型的排列中，感官信息经过连续的处理，基本信息处理得更早，而像单词含义一样的更高级特征在后期处理。

麻省理工学院研究生Alexander Kell和斯坦福大学助理教授Daniel Yamins是论文的主要作者。其他作者是麻省理工学院前访问学生Erica Shook和前麻省理工学院博士后Sam Norman Haignere。

大脑建模：模型学会了像人类一样准确地执行任务

当神经网络在20世纪80年代首次出现时，神经科学家们希望这种系统可以用来模拟人脑。然而，来自那个时代的计算机不够强大，无法建立足够大的模型来进行一些实际任务，如物体识别或语音识别等。

在过去的五年里，随着计算能力和神经网络技术的进步，使用神经网络来执行这些困难的现实任务已经成为一种可能，而且它们已经成为许多工程应用程序中的标准方法。与此同时，一些神经科学家对这些系统是否能够来模拟人脑进行了重新审视。

Kell说：“这对于神经科学来说是一个激动人心的机会，因为我们可以创造出可以代替人类来执行某些工作的系统，然后我们可以对这些模型进行测试并将它们与大脑进行比较。”

麻省理工学院的研究人员训练他们的神经网络来执行两个听觉任务，一个涉及语音，另一个涉及音乐。在语音任务中，研究人员给模型提供了成千上万的两秒钟长的录音。任务是识别音频中单词。在音乐任务中，该模型被要求识别那些两秒钟音乐片段的类型。每个片段还包括背景噪音，使任务更加现实也更加困难。

在完成了成千上万的数据训练之后，模型学会了像人类一样准确地执行任务。

Kell说：“这个想法是随着时间的推移，模型在任务中变得越来越好。希望它正在学习一些一般的东西，所以如果你给模型输入一种它以前从未听过的新声音，它会做得很好，这已经在实验中得到了证明。”

该模型还倾向于在人类最容易犯错误的片段上犯错误。

组成神经网络的处理单元可以以多种方式组合在一起，形成可以影响模型的性能的不同模型结构。

麻省理工研究团队发现，这两项任务的最佳模型是将处理分为两组阶段。第一阶段是在任务之间共享的，但在此之后，它分成两个分支，用于进一步的分析：一个用于语音处理任务，另一个用于音乐处理任务。

分级的证据：初级听觉皮层和其他有区别

然后，研究人员用他们的模型对一个长期存在的关于听觉皮层结构的问题进行了探索：它是否分级。

在分级系统中，一系列的大脑区域在流经系统的感官信息上执行不同类型的计算。有证据表明，视觉皮层有相同类型的组织结构。前期的区域，被称为初级视觉皮质，对简单的特征如颜色或方向做出反应。后端的区域则执行更复杂的任务，如对象识别。

然而，很难测试这种类型的组织是否也存在于听觉皮层中，部分原因是没有一个好的模型来对人类的听觉行为进行复制。

McDermott说：“我们认为，如果我们可以构建一个和人类执行同样任务的模型，我们就能够比较将模型不同阶段的不同部分与大脑进行比价，这样可以得到一些证据来证明大脑中的一些部分是否是分级的组织。”

研究人员发现，在他们的模型中声音的基本特征，如频率在早期阶段更容易被提取。当信息在神经网上不断向后传输的过程中，一些基本特征越来越难提取，而更高层次的信息，例如词的含义变得更容易提取。

为了验证模型阶段是否可以复制人类听觉皮层处理声音信息的方式，研究人员使用了功能性磁共振成像(fMRI)来测量大脑处理真实声音时听觉皮层的不同区域。然后，他们比较了在处理相同的声音时，大脑和模型的区别。

他们发现，模型的中间阶段与大脑初级听觉皮层的活动相似性最高，随后的网络与初级皮质以外的活动相呼应。研究人员说，这为听觉皮层以一种类似于视觉皮层的分级方式排列提供了证据。

McDermott说：“我们非常清楚地看到，初级听觉皮层和其他所有东西之间的区别。”

作者现在打算开发一种可以执行其他类型的听觉任务的模型，例如特定声音的发声位置定位，来探讨这些任务是否可以通过本文中发现的思路来完成，或者说其他的一些任务通过对人脑进行研究，以获得新的思路。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4562

浏览量
98625
语音识别

语音识别

+关注

关注
37

文章
1635

浏览量
111822
机器学习

机器学习

+关注

关注
66

文章
8093

浏览量
130510

原文标题：MIT开发听觉神经网络模型，学会从2秒片段识别音乐类型

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

神经网络解决方案让自动驾驶成为现实

学习技术无疑为其指明了道路。以知名品牌为首的汽车制造业正在深度学习神经网络技术上进行投资，并向先进的计算企业、硅谷等技术引擎及学术界看齐。在

发表于 12-21 17:11

人脸识别、语音翻译、无人驾驶...这些高科技都离不开深度神经网络了！

，如何用一个神经网络，写出一套机器学习算法，来自动识别未知的图像。一个 4 层的神经网络输入层经

发表于 05-11 11:43

深度学习与数据挖掘的关系

理解，但是在其高冷的背后，却有深远的应用场景和未来。深度学习是实现机器学习的一种方式或一条路径。其动机在于建立、模拟人脑进行分析

发表于 07-04 16:07

人工神经网络算法的学习方法与应用实例（pdf彩版）

物体所作出的交互反应，是模拟人工智能的一条重要途径。人工神经网络与人脑相似性主要表现在：①神经网络获取的知识是从外界环境学习得来的;②各

发表于 10-23 16:16

基于赛灵思FPGA的卷积神经网络实现设计

FPGA 上实现卷积神经网络 (CNN)。CNN 是一类深度神经网络，在处理大规模图像识别任务

发表于 06-19 07:24

神经网络结构搜索有什么优势？

，稍有不同就无法复现论文的结果。而网络结构作为一种特殊的超参数，在深度学习整个环节中扮演着举足轻重的角色。在图像分类任务

发表于 09-11 11:52

可分离卷积神经网络在 Cortex-M 处理器上实现关键词识别

我们可以对神经网络架构进行优化，使之适配微控制器的内存和计算限制范围，并且不会影响精度。我们将在本文中解释和探讨深度可分离卷积神经网络在 Cortex-M 处理器上实现关键词

发表于 07-26 09:46

轻量化神经网络的相关资料下载

视觉任务中，并取得了巨大成功。然而，由于存储空间和功耗的限制，神经网络模型在嵌入式设备上的存储与计算仍然是一个巨大的挑战。前面几篇介绍了如何

发表于 12-14 07:35

基于深度神经网络的激光雷达物体识别系统

的激光雷达物体识别技术一直难以在嵌入式平台上实时运行。经纬恒润经过潜心研发，攻克了深度神经网络在嵌入式平台部署所面临的算子定制与加速、量化策略、模型压缩

发表于 12-21 07:59

机器学习简介与经典机器学习算法人才培养

经典机器学习算法介绍章节目标：机器学习是人工智能的重要技术之一，详细了解机器

发表于 04-28 18:56

卷积神经网络模型发展及应用

network，DBN）[24]，从此拉开了深度学习大幕。随着深度学习理论的研究和发展，研究人员提出了一系列卷积神经网络

发表于 08-02 10:39

什么是深度学习？使用FPGA进行深度学习的好处？

什么是深度学习为了解释深度学习，有必要了解神经网络。神经网络是一种

发表于 02-17 16:56

卷积神经网络简介：什么是机器学习？

通过网络训练来确定才能使模型工作。这将在后续文章“训练卷积神经网络：什么是机器学习？—第 2 部分”中

发表于 02-23 20:11

不可错过！人工神经网络算法、PID算法、Python人工智能学习等资料包分享（附源代码）

，是模拟人工智能的一条重要途径。人工神经网络与人脑相似性主要表现在： ①神经网络获取的知识是从外界环境学习得来的; ②各

发表于 09-13 16:41

浅析三种主流深度神经网络

来源：青榴实验室 1、引子深度神经网络(DNNs)最近在图像分类或语音识别等复杂机器学习任务中

发表于 05-15 14:20 •598次阅读

搜索历史

利用机器学习算法中的深度神经网络,识别音乐类型等听觉任务上模拟人类表现的模型

评论