发烧友10周年庆典,全网超值优惠来袭!千元现金券,下单抽奖赶紧参与》》

一文读懂人工智能CLDNN网络结构

Duke 2018-08-29 09:49 次阅读

作者:侯艺馨

前言

总结目前语音识别的发展现状,dnn、rnn/lstm和cnn算是语音识别中几个比较主流的方向。2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(Feed Forward Deep Neural Network)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮。长短时记忆网络(LSTM,LongShort Term Memory)可以说是目前语音识别应用最广泛的一种结构,这种网络能够对语音的长时相关性进行建模,从而提高识别正确率。双向LSTM网络可以获得更好的性能,但同时也存在训练复杂度高、解码时延高的问题,尤其在工业界的实时识别系统中很难应用。

回顾近一年语音识别的发展,deep cnn绝对称得上是比较火的关键词,很多公司都在这方面投入了大量研究。其实 CNN 被用在语音识别中由来已久,在 12、13 年的时候 Ossama Abdel-Hamid 就将 CNN 引入了语音识别中。那时候的卷积层和 pooling 层是交替出现的,并且卷积核的规模是比较大的,CNN 的层数也并不多, 主要是用来对特征进行加工和处理,使其能更好的被用于 DNN 的分类。随着CNN在图像领域的发光发热,VGGNet,GoogleNet和ResNet的应用,为CNN在语音识别提供了更多思路,比如多层卷积之后再接 pooling 层,减小卷积核的尺寸可以使得我们能够训练更深的、效果更好的 CNN 模型。

1、语音识别为什么要用CNN

通常情况下,语音识别都是基于时频分析后的语音谱完成的,而其中语音时频谱是具有结构特点的。要想提高语音识别率,就是需要克服语音信号所面临各种各样的多样性,包括说话人的多样性(说话人自身、以及说话人间),环境的多样性等。一个卷积神经网络提供在时间和空间上的平移不变性卷积,将卷积神经网络的思想应用到语音识别的声学建模中,则可以利用卷积的不变性来克服语音信号本身的多样性。从这个角度来看,则可以认为是将整个语音信号分析得到的时频谱当作一张图像一样来处理,采用图像中广泛应用的深层卷积网络对其进行识别。

从实用性上考虑,CNN也比较容易实现大规模并行化运算。虽然在CNN卷积运算中涉及到很多小矩阵操作,运算很慢。不过对CNN的加速运算相对比较成熟,如Chellapilla等人提出一种技术可以把所有这些小矩阵转换成一个大矩阵的乘积。一些通用框架如Tensorflow,caffe等也提供CNN的并行化加速,为CNN在语音识别中的尝试提供了可能。

下面将由“浅”入“深”的介绍一下cnn在语音识别中的应用。

2、CLDNN

提到CNN在语音识别中的应用,就不得不提CLDNN(CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS)[1],在CLDNN中有两层CNN的应用,算是浅层CNN应用的代表。CNN 和 LSTM 在语音识别任务中可以获得比DNN更好的性能提升,对建模能力来说,CNN擅长减小频域变化,LSTM可以提供长时记忆,所以在时域上有着广泛应用,而DNN适合将特征映射到独立空间。而在CLDNN中,作者将CNN,LSTM和DNN串起来融合到一个网络中,获得比单独网络更好的性能。

CLDNN网络的通用结构是输入层是时域相关的特征,连接几层CNN来减小频域变化,CNN的输出灌入几层LSTM来减小时域变化,LSTM最后一层的输出输入到全连接DNN层,目的是将特征空间映射到更容易分类的输出层。之前也有将CNN LSTM和DNN融合在一起的尝试,不过一般是三个网络分别训练,最后再通过融合层融合在一起,而CLDNN是将三个网络同时训练。实验证明,如果LSTM输入更好的特征其性能将得到提高,受到启发,作者用CNN来减小频域上的变化使LSTM输入自适应性更强的特征,加入DNN增加隐层和输出层之间的深度获得更强的预测能力。

2.1 CLDNN网络结构

详解卷积神经网络(CNN)在语音识别中的应用Fig 1. CLDNN Architecture

网络结构图如图1,假设中心帧为,考虑到内容相关性,向左扩展L帧,向右扩展R帧,则输入特征序列为[, . . . ,],特征向量使用的是40维的log梅尔特征。

CNN部分为两层CNN,每层256个feature maps,第一层采用9x9 时域-频域滤波器,第二层为4x3的滤波器。池化层采用max-pooling策略,第一层pooling size是3,第二层CNN不接池化层。

由于CNN最后一层输出维度很大,大小为feature-mapstimefrequency,所以在CNN后LSTM之前接一个线性层来降维,而实验也证明降维减少参数并不会对准确率有太大影响,线性层输出为256维。

CNN后接2层LSTM,每个LSTM层采用832个cells,512维映射层来降维。输出状态标签延迟5帧,此时DNN输出信息可以更好的预测当前帧。由于CNN的输入特征向左扩展了l帧向右扩展了r帧,为了确保LSTM不会看到未来多于5帧的内容,作者将r设为0。最后,在频域和时域建模之后,将LSTM的输出连接几层全连接DNN层。

借鉴了图像领域CNN的应用,作者也尝试了长短时特征,将CNN的输入特征作为短时特征直接输入给LSTM作为部分输入,CNN的输出特征直接作为DNN的部分输入特征。

2.2 实验结果

针对CLDNN结构,我们用自己的中文数据做了一系列实验。实验数据为300h的中文有噪声语音,所有模型输入特征都为40维fbank特征,帧率10ms。模型训练采用交叉熵CE准则,网络输出为2w多个state。由于CNN的输入需要设置l和r两个参数,r设为0,l经过实验10为最优解,后面的实验结果中默认l=10,r=0。

其中LSTM为3层1024个cells,project为512 ,CNN+LSTM和CNN+LSTM+DNN具体的网络参数略有调整,具体如下图,另外还增加一组实验,两层CNN和三层LSTM组合,实验验证增加一层LSTM对结果有提高,但继续增加LSTM的层数对结果没有帮助。

详解卷积神经网络(CNN)在语音识别中的应用Fig 2. CLDNN实验结构 详解卷积神经网络(CNN)在语音识别中的应用Table 1 测试集1结果 详解卷积神经网络(CNN)在语音识别中的应用Table 2 测试集2结果

3、deep CNN

在过去的一年中,语音识别取得了很大的突破。IBM、微软、百度等多家机构相继推出了自己的Deep CNN模型,提升了语音识别的准确率。Residual/Highway网络的提出使我们可以把神经网络训练的更深。尝试Deep CNN的过程中,大致也分为两种策略:一种是HMM 框架中基于 Deep CNN结构的声学模型,CNN可以是VGG、Residual 连接的 CNN 网络结构、或是CLDNN结构。另一种是近两年非常火的端到端结构,比如在 CTC 框架中使用CNN或CLDNN实现端对端建模,或是最近提出的Low Frame Rate、Chain 模型等粗粒度建模单元技术。

对于输入端,大体也分为两种:输入传统信号处理过的特征,采用不同的滤波器处理,然后进行左右或跳帧扩展。

详解卷积神经网络(CNN)在语音识别中的应用Fig 3.Multi-scale input feature. Stack 31140

第二种是直接输入原始频谱,将频谱图当做图像处理。

Fig 4. Frequency bands input

3.1 百度deep speech

百度将 Deep CNN 应用于语音识别研究,使用了 VGGNet ,以及包含Residual 连接的深层 CNN等结构,并将 LSTM 和 CTC 的端对端语音识别技术相结合,使得识别错误率相对下降了 10% (原错误率的90%)以上。

此前,百度语音每年的模型算法都在不断更新,从 DNN ,到区分度模型,到 CTC 模型,再到如今的 Deep CNN 。基于 LSTM-CTC的声学模型也于 2015 年底已经在所有语音相关产品中得到了上线。比较重点的进展如下:1)2013 年,基于美尔子带的 CNN 模型 2)2014年,Sequence Discriminative Training(区分度模型) 3)2015 年初,基于 LSTM-HMM的语音识别 4)2015 年底,基于 LSTM-CTC的端对端语音识别 5)2016 年,Deep CNN 模型,目前百度正在基于Deep CNN 开发deep speech3,据说训练采用大数据,调参时有上万小时,做产品时甚至有 10 万小时。

详解卷积神经网络(CNN)在语音识别中的应用Fig5. 百度语音识别发展

百度发现,深层 CNN 结构,不仅能够显著提升 HMM 语音识别系统的性能,也能提升 CTC 语音识别系统的性能。仅用深层 CNN 实现端对端建模,其性能相对较差,因此将如 LSTM 或 GRU的 循环隐层与 CNN结合是一个相对较好的选择。可以通过采用 VGG 结构中的 3*3 这种小 kernel ,也可以采用 Residual 连接等方式来提升其性能,而卷积神经网络的层数、滤波 个数等都会显著影响整个模型的建模能力,在不同规模的语音训练数据库上,百度需要采用不同规模的 DeepCNN 模型配置才能使得最终达到最优的性能。

因此,百度认为:1)在模型结构中,DeepCNN 帮助模型具有很好的在时频域上的平移不变性,从而使得模型更加鲁棒(抗噪性) 2)在此基础上,DeepLSTM 则与 CTC 一起专注于序列的分类,通过 LSTM 的循环连接结构来整合长时的信息。3)在 DeepCNN 研究中,其卷积结构的时间轴上的感受野,以及滤波 的个数,针对不同规模的数据库训练的语音识别模型的性能起到了非常重要的作用。4)为了在数万小时的语音数据库上训练一个最优的模型,则需要大量的模型超参的调优工作,依托多机多 GPU 的高性能计算平台,才得以完成工作。5)基于 DeepCNN 的端对端语音识别引擎,也在一定程度上增加了模型的计算复杂度,通过百度自研的硬件,也使得这样的模型能够为广大语音识别用户服务。

3.2 IBM

2015 年,IBM Watson 公布了英语会话语音识别领域的一个重大里程 :系统在非常流行的评测基准 Switchboard 数据库中取得了 8% 的词错率(WER)。到了2016年 5 月份,IBM Watson 团队再次宣布在同样的任务中他们的系统创造了6.9% 的词错率新纪录,其解码部分采用的是HMM,语言模型采用的是启发性的神经网络语言模型。声学模型主要包含三个不同的模型,分别是带有maxout激活的循环神经网络、3*3卷积核的深度卷积神经网络、双向长短期记忆网络,下面我们来具体看看它们的内部结构。

详解卷积神经网络(CNN)在语音识别中的应用Fig 6. IBM Deep CNN 框架

非常深的卷积神经网络的灵感来自2014ImageNet参赛的VGG网络,中心思想是使用较小的3*3卷积核来取代较大的卷积核,通过在池化层之前叠加多层卷积网络,采取ReLU激活函数,可以获得相同的感知区域,同时具备参数数目较少和更多非线性的优点。

如上图所示,左1为最经典的卷积神经网络,只使用了两个卷积层,并且之间包含一个池化层,卷积层的卷积核也较大,99和43,而卷积的特征面也较多,512张卷积特征面。

左2、左3、左4均为深度卷积神经网络的结构,可以注意到与经典的卷积神经网络所不同的是,卷积的特征面由64个增加到128个再增加到256个,而且池化层是放在卷积的特征面数增加之前的;卷积核均使用的是较小的33卷积核,池化层的池化大小由21增加到2*2。

最右边10-conv的参数数目与最左边的经典卷积神经网络参数数目相同,但是收敛速度却足足快了5倍,尽管计算复杂度提高了一些。

3.3 微软

2016年9月在产业标准 Switchboard 语音识别任务上,微软研究者取得了产业中最低的 6.3% 的词错率(WER)。基于神经网络的声学和语言模型的发展,数个声学模型的结合,把 ResNet 用到语音识别。

而在2016年的10月,微软人工智能与研究部门的团队报告出他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER),达到了5.9%。5.9% 的词错率已经等同于人速记同样一段对话的水平,而且这是目前行Switchboard 语音识别任务中的最低记录。这个里程意味着,一台计算机在识别对话中的词上第一次能和人类做得一样好。系统性地使用了卷积和 LSTM 神经网络,并结合了一个全新的空间平滑方法(spatial smoothing method)和 lattice-free MMI 声学训练。

虽然在准确率的突破上都给出了数字基准,微软的研究更加学术,是在标准数据库——口语数据库 switchboard 上面完成的,这个数据库只有 2000 小时。

3.4 Google

根据 Mary Meeker 年度互联网报告,Google以机器学习为背景的语音识别系统,2017年3月已经获得英文领域95%的字准确率,此结果逼近人类语音识别的准确率。如果定量的分析的话,从2013年开始,Google系统已经提升了20%的性能。

详解卷积神经网络(CNN)在语音识别中的应用 详解卷积神经网络(CNN)在语音识别中的应用Fig 7. Google 语音识别性能发展

从近几年google在各类会议上的文章可以看出,google尝试deep CNN的路径主要采用多种方法和模型融合,如Network-in-Network (NiN),Batch Normalization (BN),Convolutional LSTM (ConvLSTM)方法的融合。比如2017 icassp会议中google所展示的结构

详解卷积神经网络(CNN)在语音识别中的应用Fig 8. [5] includes two convolutional layer at the bottom andfollowed by four residual block and LSTM NiN block. Each residual blockcontains one convolutional LSTM layer and one convolutional layer.

3.5 科大讯飞DFCNN

2016年,在提出前馈型序列记忆网络FSMN (Feed-forward Sequential Memory Network) 的新框架后,科大讯飞又提出了一种名为深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)的语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好地表达了语音的长时相关性。

DFCNN的结构如下图所示,它输入的不光是频谱信号,更进一步的直接将一句语音转化成一张图像作为输入,即先对每帧语音进行傅里叶变换,再将时间和频率作为图像的两个维度,然后通过非常多的卷积层和池化(pooling)层的组合,对整句语音进行建模,输出单元直接与最终的识别结果比如音节或者汉字相对应。

详解卷积神经网络(CNN)在语音识别中的应用Fig 9. DFCNN框架

首先,从输入端来看,传统语音特征在傅里叶变换之后使用各种人工设计的滤波器组来提取特征,造成了频域上的信息损失,在高频区域的信息损失尤为明显,而且传统语音特征为了计算量的考虑必须采用非常大的帧移,无疑造成了时域上的信息损失,在说话人语速较快的时候表现得更为突出。因此DFCNN直接将语谱图作为输入,相比其他以传统语音特征作为输入的语音识别框架相比具有天然的优势。其次,从模型结构来看,DFCNN与传统语音识别中的CNN做法不同,它借鉴了图像识别中效果最好的网络配置,每个卷积层使用3x3的小卷积核,并在多个卷积层之后再加上池化层,这样大大增强了CNN的表达能力,与此同时,通过累积非常多的这种卷积池化层对,DFCNN可以看到非常长的历史和未来信息,这就保证了DFCNN可以出色地表达语音的长时相关性,相比RNN网络结构在鲁棒性上更加出色。最后,从输出端来看,DFCNN还可以和近期很热的CTC方案完美结合以实现整个模型的端到端训练,且其包含的池化层等特殊结构可以使得以上端到端训练变得更加稳定。

4、总结

由于CNN本身卷积在频域上的平移不变性,同时VGG、残差网络等深度CNN网络的提出,给CNN带了新的新的发展,使CNN成为近两年语音识别最火的方向之一。用法也从最初的2-3层浅层网络发展到10层以上的深层网络,从HMM-CNN框架到端到端CTC框架,各个公司也在deep CNN的应用上取得了令人瞩目的成绩。

总结一下,CNN发展的趋势大体为:

1 更加深和复杂的网络,CNN一般作为网络的前几层,可以理解为用CNN提取特征,后面接LSTM或DNN。同时结合多种机制,如attention model、ResNet 的技术等。

2 End to End的识别系统,采用端到端技术CTC , LFR 等。

3 粗粒度的建模单元,趋势为从state到phone到character,建模单元越来越大。

但CNN也有局限性,[2,3]研究表明,卷积神经网络在训练集或者数据差异性较小的任务上帮助最大,对于其他大多数任务,相对词错误率的下降一般只在2%到3%的范围内。不管怎么说,CNN作为语音识别重要的分支之一,都有着极大的研究价值。

收藏 人收藏
分享:

评论

相关推荐

四轴机器人编程与应用

主题简介:本次直播主要讲解四轴机器人控制器基本原理及组成。四轴机器人的核心技术内嵌人工智能算法的工业级运动控制技术和伺服
发表于 10-30 00:00 11587次 阅读
四轴机器人编程与应用

芯片产业是怎样迎来新的发展的

从互联网、移动互联网到AI时代,在行业很多人的努力下创造出来今天的世界,是基于众多半导体和计算能力之....
发表于 09-18 11:28 6次 阅读
芯片产业是怎样迎来新的发展的

企业领导者需要了解物联网的哪些方面

物联网由生态系统驱动。一家公司生产的单一物联网设备依赖于外部数据和信息来运行。这些数据和信息通常来自....
发表于 09-18 11:09 10次 阅读
企业领导者需要了解物联网的哪些方面

未来语音识别技术的发展趋势会如何

语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互、多人噪杂....
发表于 09-18 10:24 12次 阅读
未来语音识别技术的发展趋势会如何

目前语音识别的技术现状是怎样的

目前,主流语音识别框架还是由 3 个部分组成:声学模型、语言模型和解码器,有些框架也包括前端处理和后....
发表于 09-18 10:19 12次 阅读
目前语音识别的技术现状是怎样的

人工智能芯片的市场前景十分广阔

近年来,我国政府高度重视人工智能的技术进步与产业发展,人工智能已上升到国家战略。人工智能市场前景十分....
发表于 09-18 10:08 49次 阅读
人工智能芯片的市场前景十分广阔

英特尔将为人工智能的发展而提供大力支持

人工智能发展到今天这个阶段,机器学习几乎成为了它的代名词。2006年,以“无监督学习”为主要特征的深....
发表于 09-18 09:59 10次 阅读
英特尔将为人工智能的发展而提供大力支持

人工智能与大数据之间有什么差异

人工智能和大数据是人们耳熟能详的流行术语,但也可能会有一些混淆。
发表于 09-18 09:41 16次 阅读
人工智能与大数据之间有什么差异

工业机器人的发展对于国产品牌会有怎样的影响

不管是全球的工业机器人市场还是国内市场,发展普遍保持着高速增长状态。
发表于 09-18 08:55 45次 阅读
工业机器人的发展对于国产品牌会有怎样的影响

人工智能真的会颠覆制造业吗

如今,工业4.0、工业互联网、智能制造的概念铺天盖地,但从本质上来看,制造企业的目标就是利用物联网、....
发表于 09-18 08:38 16次 阅读
人工智能真的会颠覆制造业吗

MathWorks推出Release 2019b,MATLAB 和 Simulink功能新增

MathWorks宣布推出了 Release 2019b,其中包含一系列的 MATLAB 和 Sim....
的头像 人间烟火123 发表于 09-17 17:10 273次 阅读
MathWorks推出Release 2019b,MATLAB 和 Simulink功能新增

AI具备哪一些行业价值

在人工智能(AI)高速发展的几年间,AI技术已取得了明显的跃进和快速的迭代,演进路线也呈现出丰富多样....
发表于 09-17 17:04 123次 阅读
AI具备哪一些行业价值

林肯成为世界物联网博览会一道靓丽的风景

由工业和信息化部、科学技术部、江苏省人民政府共同主办的2019世界物联网博览会是国内首个国家级世界物....
的头像 倩倩 发表于 09-17 16:08 125次 阅读
林肯成为世界物联网博览会一道靓丽的风景

物联网爆发期的日益临近,谁又将成为新时代的主角?

大洋彼岸的海尔则在BrandZ报告中被列为全球“物联网生态”品牌。《经济学人》指出,“海尔通过其设备....
的头像 倩倩 发表于 09-17 16:04 129次 阅读
物联网爆发期的日益临近,谁又将成为新时代的主角?

SiP封装在5G和IoT时代面临的挑战

近期,SiP封装产业链上的多家公司分享了面向5G、手机、loT和可穿戴设备等应用的SiP系统解决方案....
的头像 荷叶塘 发表于 09-17 15:59 1017次 阅读
SiP封装在5G和IoT时代面临的挑战

人工智能的发展主要看的是什么

人工智能不是玩酷耍炫,而是带动产业革故鼎新。
发表于 09-17 15:51 130次 阅读
人工智能的发展主要看的是什么

人工智能怎样为艺术带来新可能

作为人类科技王冠上的宝石,人工智能凝结了人类想象中最大胆的部分。
发表于 09-17 15:48 96次 阅读
人工智能怎样为艺术带来新可能

AI怎样为超声检查辅助

人工智能辅助作为超声检测的标配将是未来的一个发展方向。
发表于 09-17 15:45 45次 阅读
AI怎样为超声检查辅助

战争怎样利用人工智能推出新的概念

它可以通过打造一个由先进计算支持的传感器、前线作战人员和决策者组成的具有高度适应性的网络,让敌人惊慌....
发表于 09-17 15:42 109次 阅读
战争怎样利用人工智能推出新的概念

如何为人工智能加入安全的基因

大数据杀熟、技术黑箱、算法偏见等专业名词,正在随着人工智能的普及引来人们的关注。
发表于 09-17 15:29 25次 阅读
如何为人工智能加入安全的基因

未来我们要向AI求职吗

近年来,随着大数据、深度学习等技术的不断发展,人工智能不仅在计算机视觉、自然语言处理、安全监控、智能....
发表于 09-17 14:37 116次 阅读
未来我们要向AI求职吗

区块链是非标零件行业乃至整个制造行业的一大提效节能利器

非标自动化零件/设备不像传统的标准化设备那么的简单可控且易大规模生产。实际上,在非标零部件的发展中会....
发表于 09-17 11:03 28次 阅读
区块链是非标零件行业乃至整个制造行业的一大提效节能利器

技术更迭,智能摄像头愈发“万能”

近年来,随着智慧城市、智慧社区建设不断推进,安防系统也逐步发展为涵盖监控、报警、大数据分析、云数据存....
的头像 倩倩 发表于 09-17 10:59 398次 阅读
技术更迭,智能摄像头愈发“万能”

提升语音识别技术将是智能音箱发展的关键

随着智能家居概念的推广,智能音箱被企业寄予“入口”的厚望,引起大众的关注。尽管智能音箱在国内销量一直....
发表于 09-17 10:32 41次 阅读
提升语音识别技术将是智能音箱发展的关键

人工智能的发展离不开5G网络的支持

随着5G的更进一步发展,人工智能在这些年,终于等来了自己生长的土地,大家都明白,人工智能在各个领域具....
发表于 09-17 10:28 241次 阅读
人工智能的发展离不开5G网络的支持

人工智能与物联网相结合共同创造新时代

随着数据信息量的爆炸性增长,人工智能和物联网的应用越来越广泛,再加上云计算、大数据、物联网和人工智能....
发表于 09-17 10:12 179次 阅读
人工智能与物联网相结合共同创造新时代

德国制造业有哪些值得我们学习和借鉴的地方

人工智能的发展会延伸到社会服务,尤其是社会大健康体系的建设。德国的人工智能战略主要的是集中在机器学习....
发表于 09-17 08:47 25次 阅读
德国制造业有哪些值得我们学习和借鉴的地方

人工智能+制造将是中国制造业升级转型的重要途径

“人工智能+制造”是将人工智能技术应用到制造业,在自动化、数字化、网络化的基础上,实现智能化。其核心....
发表于 09-17 08:44 310次 阅读
人工智能+制造将是中国制造业升级转型的重要途径

基于Blackfin561的嵌入式车牌识别系统该怎么设计?

随着科技与经济的发展,汽车数量也逐渐增多,交通管理问题日渐严峻。如何建立一个科学有效的交通管理系统是交通管理的重点。智能...
发表于 09-17 07:21 10次 阅读
基于Blackfin561的嵌入式车牌识别系统该怎么设计?

未来语音识别技术的发展趋势将会怎样

语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互、多人噪杂....
发表于 09-16 16:02 52次 阅读
未来语音识别技术的发展趋势将会怎样

语音助手的发展将改变用户的生活方式

汽车的发展也是越来越迅速了,每一年汽车行业都有新东西跟大众见面,而如今的语音交互技术也是越来越好了,....
发表于 09-16 15:58 32次 阅读
语音助手的发展将改变用户的生活方式

人工智能的发展将影响着我们的生活

第三次产业革命带来的不仅仅是计算机网络技术的深入发展,更是人们生活方式的变革,使得人们的生活方式发生....
发表于 09-16 15:50 59次 阅读
人工智能的发展将影响着我们的生活

对人工智能最好不要报有太高的期望

与人们理想中的人工智能最为近似的,可能是亚马逊的Alexa、谷歌的Google Assistant、....
发表于 09-16 15:47 176次 阅读
对人工智能最好不要报有太高的期望

机器视觉的不断发展带来了什么

机器视觉技术的不断创新,推动了工业自动化、智慧安防以及人工智能等行业的进步,也为各个行业领域的应用带....
发表于 09-16 15:41 148次 阅读
机器视觉的不断发展带来了什么

融资将用于支持其物联网的民主化

“我们对投资者对Helios Wire的使命感兴趣程度非常高兴。这一轮融资的资金将用于启动今年圣诞节....
的头像 倩倩 发表于 09-16 15:35 132次 阅读
融资将用于支持其物联网的民主化

人工智能的发展少不了什么

人工智能作为革命性的新技术,没有人能准确预测技术的未来结果。
发表于 09-16 15:28 147次 阅读
人工智能的发展少不了什么

为抢“风口”,一些企业硬是和人工智能“攀亲戚”

然而,人工智能迅速发展的同时,也出现了一些需要关注的现象:为抢“风口”,一些企业硬是和人工智能“攀亲....
的头像 倩倩 发表于 09-16 14:36 211次 阅读
为抢“风口”,一些企业硬是和人工智能“攀亲戚”

高速图像传感器(ARX3A0)实现用于视觉和人工智能的智能视觉系统

功耗对于提供静止或串流图像的许多应用越来越重要。ARX3A0旨在以最小的功耗提供灵活、高性能的图像捕....
的头像 丫丫119 发表于 09-16 14:36 1465次 阅读
高速图像传感器(ARX3A0)实现用于视觉和人工智能的智能视觉系统

技术、应用纷纷出海趋势下,人工智能企业能否再下一城?

而计算机视觉是人工智能在中国落地应用顺利的技术,商汤科技、旷视科技、优必选等都属计算机视觉领域的人工....
的头像 倩倩 发表于 09-16 14:32 483次 阅读
技术、应用纷纷出海趋势下,人工智能企业能否再下一城?

中国为什么能在人工智能的全球竞争中占据优势?

5G带来的不仅是更快的速度和海量的数据,它还是驱动人工智能技术的有力引擎——工业互联网、物联网、车联....
的头像 倩倩 发表于 09-16 14:29 327次 阅读
中国为什么能在人工智能的全球竞争中占据优势?

美国空军发布了2019人工智能战

报道称,这项战略是使美国空军的努力与国防战略和国防部人工智能战略协调一致的框架,它详细阐述了数字化时....
的头像 倩倩 发表于 09-16 14:27 168次 阅读
美国空军发布了2019人工智能战

重庆工程学院大数据与人工智能学院正式成立

首先,桂国庆校长分别宣读了有关二级学院调整的通知和有关干部职务任免的通知,决定组建大数据与人工智能学....
的头像 倩倩 发表于 09-16 14:25 122次 阅读
重庆工程学院大数据与人工智能学院正式成立

科大讯飞最新推出智能录音笔SR301青春版新品

北京大学光华管理学院特聘教授徐宪平认为,人工智能将改变世界、改变教育和改变学习方式。从传统课堂到个性....
的头像 倩倩 发表于 09-16 14:22 233次 阅读
科大讯飞最新推出智能录音笔SR301青春版新品

聚焦长宁区“3+2”产业发展规划,结合创新驱动发展战略

在长宁区政府的关心下,9月12日,九华集团与CREATER创邑、新微创邑孵化器(中科院上海微系统所双....
的头像 倩倩 发表于 09-16 14:16 171次 阅读
聚焦长宁区“3+2”产业发展规划,结合创新驱动发展战略

Ubuntu下试玩visionseed工具的数据可视化

日前购得一套AI视觉模组visionseed,我准备先在Ubuntu下试玩visionseed工具来了解这套视觉模组。当然前期准备工作是要做的:...
发表于 09-16 11:29 322次 阅读
Ubuntu下试玩visionseed工具的数据可视化

百度扩张狂潮:14.43亿元的东软投资

百度是国内一家重要的互联网科技公司。根据一些资料显示,它在全球同行中的收入份额排名第八。其他名列的一....
的头像 刘伟DE 发表于 09-16 11:16 1371次 阅读
百度扩张狂潮:14.43亿元的东软投资

技术层发展迅猛,部分技术已经处于世界领先水平

我们国家已经在研发、设计、代工生产、封装测试等环节形成了完整的产业链,形成了比较完善的生态系统。大数....
的头像 倩倩 发表于 09-16 11:11 257次 阅读
技术层发展迅猛,部分技术已经处于世界领先水平

陕西省到2023年人工智能产业规模达到1000亿元

培育人工智能优势产品。在智能软硬件、智能机器人、智能无人机、智能网联汽车、智能安防等6大领域,研发一....
的头像 倩倩 发表于 09-16 11:04 309次 阅读
陕西省到2023年人工智能产业规模达到1000亿元

选择喔趣科技人工智能排班系统七大优势

技能标签合理搭配:员工技能标签管理,根据业务波动和人力需求,在不同岗位自动安排资深员工、全职员工、小....
的头像 倩倩 发表于 09-16 11:00 144次 阅读
选择喔趣科技人工智能排班系统七大优势

人工智能作为革命性的新技术,没有人能准确预测技术的未来结果

人工智能将学生课堂行为量化分析的问题在于,一是这种技术对学生行为分析的准确性、可靠性与可信度存疑。人....
的头像 倩倩 发表于 09-16 10:55 206次 阅读
人工智能作为革命性的新技术,没有人能准确预测技术的未来结果

阿里开源自研语音识别模型DFSMN使用技巧指南

重磅!阿里开源自研语音识别模型DFSMN,准确率高达9604%...
发表于 09-16 06:53 19次 阅读
阿里开源自研语音识别模型DFSMN使用技巧指南

大话人工智能成功进入测试阶段

大话人工智能成功进入测试阶段 人工智能英文简称为AI,英文全写Artificial Intelligence,中文直译就是人工智能。 人工...
发表于 09-15 12:40 180次 阅读
大话人工智能成功进入测试阶段

设计一个语音识别的模块

我在网上搜索了很多资料,发现都是出于入门级的。并不能够达到我的要求。 我想问问是不是我想的不可实现 1:制定关键词的不定项...
发表于 09-12 22:34 366次 阅读
设计一个语音识别的模块

神经网络和反向传播算法

03_深度学习入门_神经网络和反向传播算法
发表于 09-12 07:08 82次 阅读
神经网络和反向传播算法

AI语音识别市场规模怎么样?

语音语义识别是指通过语音信号处理和语义识别,使得计算机自动理解人类口述语言的技术。语音识别主要步骤为信号搜集、降噪、特征...
发表于 09-11 11:52 37次 阅读
AI语音识别市场规模怎么样?

国内外人工智能十大芯片怎么样?

2019年属于人工智能爆发的一年,特别是芯片领域,华为一家就推出来四个芯片,芯片可不像软件一样简单复制,也不像普通的线路板一...
发表于 09-11 11:52 177次 阅读
国内外人工智能十大芯片怎么样?

人工智能能否取代人类?

为什么大家对这类问题如此感兴趣?这可能要追溯到2016年,AI真正进入到大众视野并引爆媒体的标志性事件,也就是AlphaGo战胜围...
发表于 09-11 11:52 226次 阅读
人工智能能否取代人类?

神经处理单元IP VIP9000怎么样?

芯片设计平台即服务(SiPaaS®)公司芯原(VeriSilicon)今日宣布推出VIP9000,这是一款高度可扩展、可编程的计算机视觉和人...
发表于 09-11 11:52 130次 阅读
神经处理单元IP VIP9000怎么样?