0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能如何拯救濒危语言

NVIDIA英伟达 来源:cc 2019-01-29 15:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

据语言学家估计,在全球化、文化同化等多种因素的影响下,到本世纪末,世界上约 7000 种的语言至少有一半将会消失。

记录及振兴濒危语言的工作充满挑战,其中部分原因在于缺乏相应的文本和语音记录。塞内卡语是北美地区六个易洛魁联盟所使用的语言之一,目前,仅有约 100 人将塞内卡语作为第一语言,另有数百位非母语人士正在学习塞内卡语。

自动语音识别 (ASR) 技术已被广泛应用于转写英语和汉语等大语种,这些语言的使用人数高达数百万至数十亿。但对于塞内卡语这类使用人数稀少且可用数据极度贫乏的语言来说,自动语言识别技术发挥出的作用只是皮毛而已。

现在,纽约罗切斯特理工学院的一组研究人员以及布法罗大学的同事正在利用深度学习技术来增强自动语音识别的功能。该项目现阶段的工作核心是塞内卡语,但研究人员的愿景是将其应用于全球各种濒危语言的保护,使之成为全人类共同文化历史的重要组成部分。

“接触不同的语言可以让我们更多地了解大脑的运作机制”,波士顿学院计算机科学助理教授兼罗切斯特理工学院研究员 Emily Prud'hommeaux 说道,“在记录一种语言时,保存下来的不仅是这种语言本身,还有人类使用语言的基本方式”。

Prud’hommeaux 及其同事选择从塞内卡语开始入手并非偶然。她表示,团队中有三名成员是塞内卡人,在此类研究中,这种直接的联系实属罕见。

项目带头人是 Robbie Jimerson,他是罗切斯特理工学院 Golisano 计算与信息科学学院的博士研究生,也是塞内卡印第安人部落中的一员,热衷于保护塞内卡语免于消亡。

“部落中的长老为塞内卡语的保护和推广付出了很大的努力” ,Jimerson 说道,“我也在寻找机会贡献自己的一份力量”。

利用生成对抗网络创建更多语言样本

目前,该项目已经进行到了第三个年头,在积累语言数据时,研究人员遇到了一些挑战。Jimerson 说,塞内卡群体在与外人分享东西时十分谨慎,所以塞内卡语的录音资料非常少。而他则迎难而上。

一开始,他把会说塞内卡语的朋友和老人当作录音对象,并请求这些人录下他们和各自朋友的谈话录音。每当有人在公共场合说塞内卡语时,他都不会错过录音的机会。此外,他还请家人录下老人讲述的古老传说,同时也搜集了互联网上一切可以公开获取的视频和录音资料。

研究团队精心编写了一款专门用来处理塞内卡语的自动语音识别模型,并通过生成对抗网络利用有限的录音创建出更多的语音样本。该模型将录音的波形文件转换为字符流,同时计算出概率并进行校正。

随后,他们将得出的数据输入深度学习模型,后者反过来增强了自动语言识别模型的准确度。

研究团队的网络采用了两种计算配置:其一是配备了九台服务器的机器学习实验室,实验室中运行着若干台 NVIDIA Tesla GPU;另一种是配备了大型服务器的大学集群,每台服务器上运行着 10 台NVIDIA Tesla P4 GPU。每个集群都运行着一系列深度学习框架,如 TensorFlow 和 Caffe。

“计算工程集群供计算机工程学院的所有学生使用,所以大家会‘争抢’资源”,Ray Ptucha 如是说,他是罗切斯特理工学院计算机工程学院的助理教授,也是本项目的另一位成员。

有了这些弥足珍贵的集群,Jimerson 可以在运行着NVIDIA TITAN X的本地机器上测试代码并检查模型的稳定性,从而避免运行可能会崩溃的模型,以至于为其他学生带来不便。

准确度更上一层楼

到目前为止,经过团队的不懈努力,其自动语音识别模型的文字错误率已由 70% 降至 56%。Prud’hommeaux 称,他们的目标是将错误率降低至 25%,这一水平相当于几年前使用自动语音识别系统处理英语语音的水平。

团队可以积累的塞内卡语语音和文字样本越多,识别错误率就会越低。(如今,英语自动语音识别模型可以达到低至 5% 的错误率。)

该团队取得的成果有望为全球其他语种的保护工作提供帮助。

据 Prud’hommeaux 称,团队已与一家存档机构达成协议,这是美国国家科学基金会为该项目提供的资助条件。当他们开展记录濒危语言的其他工作时,可使用最终形成的语言存档数据库作为可用资源。

与此同时,Prud’hommeaux 还表示,团队的工作将为只能利用有限数据量的深度学习研究提供思路。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50317

    浏览量

    266896
  • 深度学习
    +关注

    关注

    73

    文章

    5605

    浏览量

    124618

原文标题:人工智能帮助濒危语言 “复活”

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入式人工智能课程(华清远见)

    嵌入式 AI 编译器优化:华清远见课程,解锁极致端侧性能 随着人工智能从云端全面向边缘侧和终端侧下沉,“万物智联”的时代已经悄然到来。然而,在这股浪潮背后,隐藏着一个巨大的技术鸿沟:在算力受限
    发表于 04-16 18:47

    浅谈人工智能(2)

    接前文《浅谈人工智能(1)》。 (5)什么是弱人工智能、强人工智能以及超人工智能? 弱人工智能(Weak AI),也称限制领域
    的头像 发表于 02-22 08:24 341次阅读
    浅谈<b class='flag-5'>人工智能</b>(2)

    开发智能体配置-内容合规

    智能体上架前,需完成“人工智能生成合成内容标识”和“大模型备案信息”填写 ,以供平台审核;可在智能体【配置】-【内容合规】中填写。 人工智能生成合成内容标识 “
    发表于 02-07 11:44

    航天宏图人工智能技术深度赋能社会治理现代化

    航天宏图多年来持续重点投入技术研发,尤其专注人工智能深度探索。航天宏图多以自主研发“天权大模型” 是一款基于多模态大模型技术的遥感解译专用AI大模型,它以人工智能为底座,提供遥感影像智能解译、自然
    的头像 发表于 09-06 10:35 1324次阅读
    航天宏图<b class='flag-5'>人工智能</b>技术深度赋能社会治理现代化

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍这对开发人员意味着什么,以及使用 Neuton 模型如何改进您的开发和终端
    发表于 08-31 20:54

    人工智能+”,走老路难赚到新钱

    昨天的“人工智能+”刷屏了,这算是官方第一次对“人工智能+”这个名称定性吧?今年年初到现在,涌现出了一大批基于人工智能的创业者,这已经算是AI2.0时代的第三波创业潮了,第一波是基础大模型,第二波
    的头像 发表于 08-27 13:21 878次阅读
    “<b class='flag-5'>人工智能</b>+”,走老路难赚到新钱

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    家人们,最近在研究人工智能相关设备,挖到了一款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 一、开箱即学,便捷拉满 这个实验箱真的是为使用者
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    家人们,最近在研究人工智能相关设备,挖到了一款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 一、开箱即学,便捷拉满 这个实验箱真的是为使用者
    发表于 08-07 14:23

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    人工智能技术的现状与未来发展趋势

    人工智能技术的现状与未来发展趋势     近年来,人工智能(AI)技术迅猛发展,深刻影响着各行各业。从计算机视觉到自然语言处理,从自动驾驶到医疗诊断,AI的应用场景不断扩展,推动社会向智能
    的头像 发表于 07-16 15:01 2293次阅读

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能
    发表于 07-14 11:23

    在矿山环境中,AI目标检测如何拯救生命? #人工智能

    人工智能
    jf_60804796
    发布于 :2025年07月10日 10:35:30

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10

    维智科技为什么提出时空人工智能

    在AI技术突飞猛进的今天,语言、图像和语音的智能能力不断突破,但一个更本质的问题逐渐显现:人工智能真的理解我们所处的空间世界吗?从智能城市到商业选址,从应急调度到人机交互,AI正走向“
    的头像 发表于 06-12 14:30 1039次阅读

    如何借助大语言模型打造人工智能生态系统

    、硬件需求以及所涉及的财务影响这三者之间的内在联系。我们将深入探究现实中大语言模型的发展趋势,并共同探讨如何借助规模更小、效能更高的模型,打造一个更具可持续性的人工智能生态系统。
    的头像 发表于 04-27 09:19 1222次阅读
    如何借助大<b class='flag-5'>语言</b>模型打造<b class='flag-5'>人工智能</b>生态系统