0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无法被AI识别翻译的古老语言,将去何方?

如意 来源:OFweek电子工程网 作者:学术头条 2020-10-26 11:14 次阅读

语言是文化的有机组成部分,也是文化的载体,世界文明的多样性在很大程度上表现为世界语言的多样性。而在 21 世纪的今天,语言学家们显然已经不满足于传统的、对已知语言的研究。相反,许多科学家开始利用计算机技术,去探索已经消失的、几乎成为谜底的灭绝古老语言。

近日,麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory 简称 CSAIL)的研究人员就开发出一种计算机算法,旨在帮助语言学家破译历史上已消失的语言。

无法“谷歌翻译”的古老语言

如今,世界上现存约有 7100 种语言。然而,古时存在的大多数语言都已不再使用,几近灭绝。数十种已灭绝语言也被认为是“未破译”的语言,也就是说,我们对它们的语法(grammar)、词汇(vocabulary)或句法(syntax)了解不足,也无法理解其文本的意思。

图 | 世界语言分布地图 2018

而研究这些“未破译”的语言,不仅仅是处于学术上的好奇心。还是因为,不理解语言,我们就会错过与讲这些语言的人有关的一整套知识体系。不幸的是,大多数灭绝语言的相关记录极少,因此,科学家无法使用谷歌翻译之类的机器翻译工具或AI算法来对其进行解密。

而传统的研究方法是,找出目标语言的“相关”语言来作比较研究,例如同一语系或相似度较高的现存语言。然而,有些语言并没有对应的、已被深入研究过的“相关”语言,并且它们通常缺少诸如空格和标点符号之类的传统分隔符(想像一下,要解密出用这种语言写出的文字该有多么令人头秃)。

但是,CSAIL 的研究人员发明的新系统,已被证明能够自动破译消失的语言,且无需对其与其他语言的关系有深入的了解。他们还表明,该系统自身就可以确定语言之间的关系,并可以用它来证实最近的一项表明 Iberian 语言实际上与 Basque 语言无关的学术研究。

语言破译:从文本到矢量的转变

此研究由 MIT 教授 Regina Barzilay 牵头,依赖于基于历史语言学(historical linguistics)见解的几项原则。其中一条原则是,一种给定的语言很少会直接添加或删除整个音节,但是很可能会发生某些近似发音的替换。比如,母语中带有“ p”发音的单词可能会在其后代演变中变为“ b”,但是由于明显的发音差异,变为“ k”的可能性则较小。

通过整合这些原则和其他语言学约束,Barzilay 等人的新算法学习将语言发音嵌入多维向量空间,在该多维空间中,相应矢量之间的距离反映了不同发音的差异。这种设计使他们能够捕获语言变化的相关特征,并将这些特征表达为计算约束(computational constraints)。因此,它可以评估两种语言之间的相似度。实际上,当对已知语言进行测试时,它甚至可以准确地识别出该语言属于哪个语系(language families)。例如英语、德语同属于日耳曼语系。

不仅如此,算法生成的模型可以将古语言中的单词进行细分,并将其一一映射到“相关”语言中的对应单词上去。研究团队的最终目标是使该系统仅仅使用几千个单词,就能够破译数十年来语言学家们都无法理解的古语言。

机器翻译相关研究

实际上,这并非 MIT 首个使用计算机技术破译已消失语言的研究。

早在 2010 年,Barzilay 就和其他合作者一起,开发出一个新的计算机算法,该算法在几个小时内就破解了古老的犹太语言乌加里特语(Ugaritic)。除了帮助破译“神秘的”八种左右古老语言外,这项工作还可以扩大自动翻译系统可以处理的语言数量。例如目前,谷歌翻译支持103种语言,而破译系统中使用的技术可以帮助其为数千种语言构建词典。

去年,Barzilay 等人也发表过一篇论文,文中使用改进的计算机算法破译了线形文字 B(Linear B,出现在公元前 1400 年左右)。他们说,“我们的翻译脚本能够以 67.3%的准确率将线性文字 B 的同源词转换成对应的希腊语。据我们所知,该试验是自动解读线性文字 B 的第一次尝试。”

在未来的工作中,该团队希望扩展到将文本与已知语言的相关单词相关联的范围之外,这种方法被称为“基于同源的破译方法”。

Barzilay 说:“例如,我们可以识别文本中涉及到的所有人或地点的信息,然后可以根据已知的历史证据对其进行进一步的调查。这些实体识别(entity recognition)方法如今已广泛用于各种文本处理应用程序中,并且具有很高的准确性 。”
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5852

    浏览量

    103248
  • 算法
    +关注

    关注

    23

    文章

    4454

    浏览量

    90747
  • AI
    AI
    +关注

    关注

    87

    文章

    26424

    浏览量

    264028
收藏 人收藏

    评论

    相关推荐

    开发者手机 AI - 目标识别 demo

    功能简介 该应用是在Openharmony 4.0系统上开发的一个目标识别AI应用,旨在从上到下打通Openharmony AI子系统,展示Openharmony系统的AI能力,并为
    发表于 04-11 16:14

    重塑翻译识别技术:开源语音识别模型Whisper的编译优化与部署

    模型介绍Whisper模型是一个由OpenAI团队开发的通用语音识别模型。它的训练基于大量不同的音频数据集,是一个多任务模型,可以执行语音识别语言翻译
    的头像 发表于 01-06 08:33 719次阅读
    重塑<b class='flag-5'>翻译</b>与<b class='flag-5'>识别</b>技术:开源语音<b class='flag-5'>识别</b>模型Whisper的编译优化与部署

    AI视觉识别有哪些工业应用

    AI视觉识别涵盖多种应用,如人脸识别、目标检测和识别、图像分割、行为识别、视频分析等。本篇就简单介绍一下
    的头像 发表于 11-27 18:05 522次阅读
    <b class='flag-5'>AI</b>视觉<b class='flag-5'>识别</b>有哪些工业应用

    【KV260视觉入门套件试用体验】Vitis AI Library体验之OCR识别

    翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用
    发表于 10-16 23:25

    SC5+三芯卡无法识别如何解决?

    SC5+三芯卡无法识别
    发表于 09-19 07:23

    自然语言处理和人工智能的区别

      自然语言处理(Natural Language Processing,NLP)是人工智能(AI)中的一个分支,它利用计算机技术对自然语言进行处理,使得电脑能够理解和操作人类语言。自
    发表于 08-28 17:32 928次阅读

    prompt在AI中的翻译是什么意思?

    prompt在AI中的翻译是什么意思? Prompt在AI中是指给出指示或提示,用于引导AI系统执行下一步任务或采取下一步行动。在AI中经常
    的头像 发表于 08-22 15:59 2041次阅读

    Transformers是什么意思?人工智能transformer怎么翻译

    转换成目标语言并实现各种自然语言处理任务,例如文本分类、文本生成、机器翻译和命名实体识别等。该技术最近在各种自然语言处理任务中表现出色,比传
    的头像 发表于 08-22 15:59 2219次阅读

    人工智能语言是什么

    AI语言可以分为两类:一类是面向专业人士的AI语言,如Python、R、Matlab等,这些语言在科学研究、数据分析、机器学习等领域具有着广
    的头像 发表于 08-13 10:33 2535次阅读

    机器翻译研究进展

    机器翻译使用计算机将一种语言翻译成另一种语言,具有低成本、高效率和高翻译质量等优势,在语音翻译
    的头像 发表于 07-06 11:19 413次阅读
    机器<b class='flag-5'>翻译</b>研究进展

    e-AI翻译机V1.4.0使用说明

    e-AI翻译机V1.4.0使用说明
    发表于 07-05 18:51 0次下载
    e-<b class='flag-5'>AI</b><b class='flag-5'>翻译</b>机V1.4.0使用说明

    e-AI翻译机V2.2.0 用户手册

    e-AI翻译机V2.2.0 用户手册
    发表于 06-30 20:55 1次下载
    e-<b class='flag-5'>AI</b><b class='flag-5'>翻译</b>机V2.2.0 用户手册

    e-AI翻译机V2.3.0 用户手册

    e-AI翻译机V2.3.0 用户手册
    发表于 06-30 18:46 0次下载
    e-<b class='flag-5'>AI</b><b class='flag-5'>翻译</b>机V2.3.0 用户手册

    nu-link无法识别如何解决?

    我这边新买的nu-link在升级后,无法电脑识别,请问能帮忙解决下吗?
    发表于 06-27 06:32

    语言模型的多语言机器翻译能力分析

    以ChatGPT为代表的大语言模型(Large Language Models, LLM)在机器翻译(Machine Translation, MT)任务上展现出了惊人的潜力。
    的头像 发表于 05-17 09:56 1000次阅读
    大<b class='flag-5'>语言</b>模型的多<b class='flag-5'>语言</b>机器<b class='flag-5'>翻译</b>能力分析