0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

“现代版罗塞塔石碑”,MIT&谷歌大脑用AI破解失传的古代文字

jmiy_worldofai 来源:YXQ 2019-07-10 17:25 次阅读

漫漫尘埃下,掩藏了许多曾经辉煌灿烂古代文明,但我们现在却无法清晰地知道,这些地方究竟发生了什么。

搞懂这些历史的最佳方式,就是找到他们的文字记载。However,记载文字的石碑可以被考古学家们挖出来,但这些古文字究竟啥意思,现代的人们看不懂,需要语言学家们耗尽青春来推测。

现在,MIT CSAIL和谷歌大脑的研究者出手了,他们用机器学习破译了乌加里特文和线性文字B。

△ 乌加里特王宫

乌加里特文,Ugaritic,是一种楔形文字,属于闪米特语族。从字面上来看,就知道它是一个叫做乌加里特(Ugarit)的文明使用的语言,这个文明位于当今地中海沿岸的叙利亚,在公元前6000年前后就初现踪迹,在公元前1190年前后灭亡。

△ 乌加里特文

线性文字B,Linear B,由一种人类还没有破译出来的线性文字A演化而来,主要存活于公元前1500年到公元前1200年的克里特岛和希腊南部,是希腊语的一种古代书写形式。

△ 线性文字B

研究者们利用同一语族内不同语言之间的联系,用机器学习的方法来破译这两种失传的语言,这是破译古代语言的新方法,也将对罗曼语族的语言学研究有巨大的影响和提升。

这个方法让许多人惊叹:

简直是现代版的罗塞塔石碑!

PS,罗塞塔石碑是一块用3种语言写了同一个内容的石碑,帮助语言学家们读懂古文字。

希望能先把动物和植物的语言破译了,可以发现打开新世界的大门。

人类语言总相通

这项研究的核心方法,是借助人类语言的相似性。

比如,知乎用户@拉队短 在介绍欧洲语言相似性的时候,举了这么个栗子:

句子“那是六月末潮湿阴沉的一个夏日。”

英语:It was a humid, grey summer day at the end of June.

丹麦语:Det var en fugtig, grå sommerdag i slutningen af juni.

瑞典语:Det var en fuktig, grå sommardag i slutet av juni.

挪威语:Det var en fuktig, grå sommerdag i slutten av juni.

冰岛语:Það var rakur, grár sumardagur í lok júní.

看,长得差不多嘛,毕竟同属印欧语系日耳曼语族,单词的分布位置、句子的结构都很相似,如果你能看懂一种语言,就能大致猜测和它“血缘”关系近的另一种语言。

模型训练

为了破解这两种文字,研究者们提出了一个基于字符的seq2seq模型。

模型主要包含通用字符嵌入、剩余连接、单调排列正则化几个部分。

其中,线性文字B的字母和希腊文需要进行对应。

之后,借助神经解密算法,在具有不同语言特征的多种语言中提供强大的性能。

你懂的语言,和你不懂的语言

在算法模型的基础之下,需要的语料库除了待破解的乌加里特文和线性文字B,还需要一些现在的人类能看懂的语言。

研究团队选择了罗曼语族的数据库,包含意大利语、西班牙语和葡萄牙语三种语言的同源语音转录,需要对它们进行同源检测

因此,数据集就用到上面这些,Symbols指的是语言中的字符,Token则是语言学中类似于单词的存在。

准确率

运行成果还不错,乌加里特文在无噪声条件下优于现有方法3.1%,在有噪声条件下优于现在的贝叶斯方法5.5%。

而线性文字B,在无噪声条件下准确率高达84.7%,在更具挑战性的LinearB名称数据集中达到67.3%的准确度。

在罗曼语族同源识别任务中,西班牙语准确度提升3.4%,葡萄牙语提升1.6%。

线性文字B的祖先,线性文字A还没有被人类破译,它被誉为考古界圣杯。

未来,在这项研究起作用的情况下,或许可以像借助罗曼语族三种语言的数据库一样,直接用机器借助其他已知的人类语言,实现暴力破解。

想破脑壳的语言学家们,可以把工作重心放到别的事情上了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5866

    浏览量

    103284
  • MIT
    MIT
    +关注

    关注

    3

    文章

    253

    浏览量

    23251

原文标题:MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

文章出处:【微信号:worldofai,微信公众号:worldofai】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌整合安卓系统与Pixel硬件团队,奥斯特罗引领新"Platfo"

    Osterloh曾主管谷歌硬件部门,涵盖Pixel、Fitbit以及Nest等各种产品的研发和战略规划。他对The Verge表示:“唯有结合硬件、软件和AI团队,方能为用户提供突破性AI体验。
    的头像 发表于 04-19 10:16 234次阅读

    谷歌AI大模型Gemma全球开放使用

    谷歌公司近日宣布,其全新的AI大模型Gemma现已在全球范围内开放使用。这一重要举措不仅彰显了谷歌AI领域的领先地位,还为其在全球范围内的竞争力增添了新
    的头像 发表于 02-28 18:12 708次阅读

    【国产FPGA+OMAPL138开发板体验】(原创)5.FPGA的AI加速源代码

    信号,就像AI的心跳一样 input wire clk, // 复位信号,就像AI的“重启”按钮 input wire reset, // 矩阵A,就像AI的“大脑”的一部分
    发表于 02-12 16:18

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构,旨在实现视频生成的一次性完成,同时保证视频的真实性和动作连贯性。
    的头像 发表于 02-04 13:49 598次阅读

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾担任谷歌
    的头像 发表于 02-04 10:02 375次阅读

    新火种AI|谷歌裁员计划曝光,3万人或遭AI取代,科技业何去何从?

    。 在这个月的部门会议上,负责美洲大客户广告销售的肖恩·唐尼表示,谷歌计划重组由3万名员工组成的广告销售部,原因是AI已经在广告应用方面取得了巨大进展。而这也导致该部门的所有员工都面临着被裁员,被AI取代的风险。 事实上,
    的头像 发表于 12-27 00:16 203次阅读
    新火种<b class='flag-5'>AI</b>|<b class='flag-5'>谷歌</b>裁员计划曝光,3万人或遭<b class='flag-5'>AI</b>取代,科技业何去何从?

    【KV260视觉入门套件试用体验】Vitis AI Library体验之OCR识别

    (lvitis_ai_library-ocr),具体文字实现的代码: #include &amp;lt;sys/stat.h&amp;gt; #include &
    发表于 10-16 23:25

    【KV260视觉入门套件试用体验】七、VITis AI字符和文本检测(OCR&amp;amp;Textmountain)

    视觉领域的重要问题,主要是识别和理解图像或视频中的文字信息。字符检测和识别(OCR)技术最早在1929年由德国科学家Tausheck提出,定义为将印刷体的字符从纸质文档中识别出来。随着OCR技术的日益
    发表于 09-26 16:31

    古代铜镜背后的技术原理——透光镜

    铜镜由两面组成,镜面被打磨得十分光亮;背面,出于托物寄情与美观需求,装饰有各种花纹或铭文(器物、碑碣等表面的文字)。其繁复的造型与精湛的做工,丝毫不亚于现代人所使用的玻璃镜,体现出中国古代工匠高超的冶金工艺与雕刻技巧。
    的头像 发表于 08-22 10:55 1465次阅读
    <b class='flag-5'>古代</b>铜镜背后的技术原理——透光镜

    Nvidia AI剑走偏锋;MIT水泥破局出奇

    亲爱的朋友,欢迎收看河套IT WALK总第90期。 Nvidia的最新AI图像生成器Perfusion正在改变我们对图像生成的认知,而MIT的电化水泥技术为未来城市的能源解决方案提供了新的希望
    的头像 发表于 08-02 19:50 285次阅读
    Nvidia <b class='flag-5'>AI</b>剑走偏锋;<b class='flag-5'>MIT</b>水泥破局出奇

    AI提取图片里包含的文字信息-解决文字无法复制的痛点

    这个文字识别接口里不仅仅有通用文字识别功能,还支持很多其他功能:比如身份证、驾驶证、保险单、手写文本、火车票,行驶证.......等等功能。还支持用户自定义识别模板,指定需要识别的关键字段,实现用户特定格式图片的自动识别和结构化提取。
    的头像 发表于 07-07 09:37 1039次阅读
    <b class='flag-5'>AI</b>提取图片里包含的<b class='flag-5'>文字</b>信息-解决<b class='flag-5'>文字</b>无法复制的痛点

    让GAN再次伟大!拽一拽关键点就能让狮子张嘴&amp;amp;大象转身

    如此“有手就能做”的修图神器,来自一个MIT谷歌、马普所等机构联手打造的DragGAN新模型,论文已入选SIGGRAPH 2023。
    的头像 发表于 05-24 15:28 510次阅读
    让GAN再次伟大!拽一拽关键点就能让狮子张嘴&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;大象转身

    树脂孔的设计与应用,你了解多少?

    ,命名为:DkC&amp;amp;DkS,另外两层同时加大整体6mil。 拼PNL时,树脂钻孔需要加上型号孔和定位孔。 树脂孔的检测 这里推荐一款国产免费的智能检测工具:华秋DFM软件,通过其一
    发表于 05-05 10:55

    PCB板为什么要做树脂孔?

    另外两层,命名为:DkC&amp;amp;DkS,另外两层同时加大整体6mil。 拼PNL时,树脂钻孔需要加上型号孔和定位孔。 树脂孔的检测 这里推荐一款国产免费的智能检测工具:华秋DFM软件
    发表于 05-04 17:02