0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当人工智能⌈研究⌋上了甲骨文

微软科技 来源:未知 2022-12-26 00:15 次阅读

人工智能开启甲骨文整理

研究新范式

在甲骨学研究中,甲骨“校重”整理是一项费事费力但又极其重要的基础性研究工作。微软亚洲研究院与首都师范大学甲骨文研究中心莫伯峰教授团队合作开发的甲骨文校重助手 Diviner,第一次将自监督 AI 模型引入到甲骨文“校重”工作中,并取得数百项新成果,为甲骨文整理领域开创了人工智能与人类专家协作(AI+HI)的全新研究范式。

入选《世界记忆名录》的甲骨文,是迄今为止中国发现的年代最早的成熟文字系统,对中国历史乃至世界文化的发展研究具有非凡意义。有人曾说“东周之前无信史”,因为《春秋》一书记录了2000多年前的东周历史,而之前的商文明曾被认为是传说,直至甲骨文被发现,才有力地证明了殷商王朝的存在,把中国信史向上推进了约1000年。

从甲骨文首次被发现至今,出土的甲骨实物约有十五万片。因为收藏、流转的缘故,大部分的甲骨都留下了多张拓本图像,被称为“重片”。甲骨重片数量繁多,效果互有参差,对其整理成为了一项重要的基础性研究工作,称作“校重”。然而,人工校重只能一一对照,费时费力,是甲骨文研究的一大痛点。正如《甲骨文合集补编》“前言”中所述:“这种对重、选片的工作,其烦琐、费工是局外人难以想象的。”

近期,微软亚洲研究院主管研究员武智融与首都师范大学甲骨文研究中心莫伯峰教授团队合作,提出了基于自监督学习的甲骨文校重助手 Diviner,大幅提升了甲骨文校重工作的效率。系统穷尽比对了18万幅拓本,辅助甲骨学家在上百个甲骨文数据库中发现了大量甲骨重片,不仅复现了专家过去所发现的数万组重片,而且经过初步整理,已发现了三百多组未被前人发现的校重新成果。这项研究为甲骨文整理领域开创了人工智能与人类专家协作(AI+HI)的全新研究范式。本项目全面成果的甲骨学解读稍后将发布于中国社科院先秦史研究室网站 www.xianqin.org。

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngd91e00b2-846e-11ed-bfe3-dac502259ad0.jpgd935a9ec-846e-11ed-bfe3-dac502259ad0.jpgd9512b90-846e-11ed-bfe3-dac502259ad0.png

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngd969c164-846e-11ed-bfe3-dac502259ad0.jpgd9789540-846e-11ed-bfe3-dac502259ad0.jpgd9512b90-846e-11ed-bfe3-dac502259ad0.png

d999d03e-846e-11ed-bfe3-dac502259ad0.png

AI在甲骨文“校重”中

令人惊喜的新发现

“校重”是甲骨学领域的一个老题目,此前已经有很多甲骨学家为这项工作倾注了大量心血。比如甲骨文领域最重要的两部著录书《合集》《合补》,在编著过程中花费大量功夫做的工作就是校重。理论上来说,完成一张甲骨拓本的校重工作,应该将它与其余的所有甲骨拓本逐一比照,才能确保没有遗漏。尽管可以利用文字信息和分类方法缩小对比范围,但对于甲骨学家而言,这仍然是一项十分艰巨的工作,且难以保证全面性和准确性。

对比和处理海量数据,并从中挖掘有用信息正是 AI 的专长。大规模的校重,穷尽性的比对,都难不倒校重助手 Diviner。接下来就让我们一起看看 Diviner 的效果。你也可以测试一下自己能否发现其中的异同?

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngd9b3730e-846e-11ed-bfe3-dac502259ad0.jpgd9cd75ce-846e-11ed-bfe3-dac502259ad0.jpgd9ec0c1e-846e-11ed-bfe3-dac502259ad0.jpgda182948-846e-11ed-bfe3-dac502259ad0.jpgda272a7e-846e-11ed-bfe3-dac502259ad0.jpgda38975a-846e-11ed-bfe3-dac502259ad0.png

d999d03e-846e-11ed-bfe3-dac502259ad0.png

这些校重结果对

甲骨文研究有什么作用?

作为三千年前古人留下的一份礼物,每一片甲骨都弥足珍贵。但目前甲骨的研究主要依靠拓本图像,而非甲骨实物,所以拓本就是甲骨研究的根本出发点。很多时候一个字形、一条卜辞的清楚认知,就来自更全、更清的拓本材料。所以甲骨学家从不放过哪怕只有一个字的拓本。

本次校重助手 Diviner 就提供了一批更全、更清晰的甲骨图像,更有不少堪称惊喜的新发现:

“重而不同”的新图像。左侧是时间较早,没有拓全的甲骨拓本。右侧是时间较晚的拓本,甲骨残破只余下一部分,尽管拓全了但很不完整。通过将两个拓本重叠,获得了一张最完整的甲骨图像,特别是右上部分的一段甲骨文字的完整展现,为甲骨文研究直接提供了一条新材料。

da570910-846e-11ed-bfe3-dac502259ad0.pngda697776-846e-11ed-bfe3-dac502259ad0.png

“有里有面”的新图像。有些甲骨正反两面皆有文字,但有时只有一面留下了拓本。比如马保春先生曾发现这两版反面拓本可以缀合在一起。但其中一片的正面图像一直没有找到。Diviner 校重发现了下面一片甲骨的正反完整拓本,正面缀合复原的图像也终于得以呈现。

da570910-846e-11ed-bfe3-dac502259ad0.pngdaa36e5e-846e-11ed-bfe3-dac502259ad0.png

从“重片”到“缀合”。左侧图像是过去由张宇卫先生缀合在一起的两片甲骨。通过 Diviner 的校重发现,下部拓本原来还有一片更完整的重片。如此,两片甲骨的缀合就扩展成了三片甲骨的缀合。

da570910-846e-11ed-bfe3-dac502259ad0.pngdace52fe-846e-11ed-bfe3-dac502259ad0.png

从模糊到清晰。由于有些甲骨拓本质量不高,上面文字难以辨认,给甲骨学家带来很多困扰。比如这几组重片,模糊拓本上的文字让人难以辨认,直到这次发现了清晰的重片,才把过去的很多疑惑解决了。

da570910-846e-11ed-bfe3-dac502259ad0.pngdb07eb22-846e-11ed-bfe3-dac502259ad0.pngdb41dce2-846e-11ed-bfe3-dac502259ad0.png

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngdb7aeb54-846e-11ed-bfe3-dac502259ad0.jpgdb9255fa-846e-11ed-bfe3-dac502259ad0.jpgd9512b90-846e-11ed-bfe3-dac502259ad0.png

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngdbb0a2c6-846e-11ed-bfe3-dac502259ad0.jpgdbc8b10e-846e-11ed-bfe3-dac502259ad0.jpgd9512b90-846e-11ed-bfe3-dac502259ad0.png

Diviner 在甲骨校重工作中的出色表现和展现出的巨大潜力得到了很多甲骨学家的认可。复旦大学出土文献与古文字研究中心研究员蒋玉斌认为:“甲骨校重与指出互见,是甲骨学重要的基础性工作。同一甲骨片,可能经过多次著录,各版本有早有晚,清晰度、完整度存在差别,需要加以关联、比对、研判。过去,这种工作完全靠学者凭经验、记忆零星举列,虽颇有得,但总体上耗时费力,也仍有大量未能指出的重出、互见现象。莫伯峰教授团队与微软亚洲研究院合作开发的人工智能甲骨文校重助手 Diviner,实现了大范围的校重,效率高,成果多,令人振奋。我坚信,在甲骨校重与指出互见方面,校重助手 Diviner 已经远胜人力,今后此项工作的大规模开展,或将完全由校重助手 Diviner 这样的工具取代。近年,有多支学术团队致力于甲骨文等古文字研究与人工智能的融合创新,先进的技术手段将为古老文字的研究插上腾飞的翅膀。但人工智能助力古文字研究的着力点在哪里,是首先要解决的问题。校重助手 Diviner 很好地契合了甲骨文研究的需要与人工智能的专长,功效显著,成果突出,我认为是人工智能辅助甲骨文研究的成功典范。”

d999d03e-846e-11ed-bfe3-dac502259ad0.png

自监督学习首次在甲骨文中应用

AI模型泛化性显著

校重助手 Diviner 能有如此出众的效果,技术上是如何实现的?有哪些创新之处?

近两年,不依赖人工标注数据的自监督学习是 AI 研究的热门方向,但很多前沿技术仍停留在研究阶段。Diviner 不仅第一次将自监督 AI 模型引入到甲骨文“校重”工作,也是自监督 AI 模型在真实场景中的一次成功应用。

“尽管自监督研究热度很高,但是很多问题最终还是要通过人工数据标注来解决。我们一直希望使用完全无标注的数据进行自监督学习,甚至是人工根本上无法标注的数据。”微软亚洲研究院主管研究员武智融说,“甲骨校重需要两两比对十八万张数据库中的所有拓片,这为基于完全无标注数据的自监督学习模型应用提供了一个绝佳的落地场景。”

计算两张拓片的视觉相似度,通常的方法会从全局特征出发。然而,在甲骨文的研究中,即使是重片,外观上也可能有很大差异,这是由于拓印范围、拓印方式、磨损等多方面原因造成的。考虑到一块完整的甲骨可能会碎裂成多片,校重时经常需要从大骨片中找出小骨片。因此,基于全局外观表示的传统方法并不能很好地发挥作用。面对这一挑战,研究员想到了甲骨拓片的特性,因其是从同一块甲骨而来,重片之间存在着精确的点与点的对应关系。基于这一特性,校重助手 Diviner 从局部寻找匹配关系,再拓展到全局。

局部匹配。Diviner 使用的局部描述符(local descriptor)是经过自监督训练的深度神经网络。模型应用了对比学习的自监督技术,使用图像增强,让特征在训练时不受甲骨拓片上清晰度、对比度、噪音、旋转等因素的影响。在甲骨图像上训练的局部描述符能够检测和匹配局部块之间的关键点,并进行点对点匹配。

全局优化。基于密集的点与点的匹配结果,通过使用鲁棒的优化算法 RANSAC 估计全局的几何仿射变换。仿射变换允许模型在内容重复的情况下拼合或拼接已有图像。这种局部到全局的方法对检测大量的甲骨碎片至关重要。

Diviner 模型一个特点是具有强大的泛化能力,这归功于其自监督学习的匹配算法。模型通过图像增强技术模拟同一块甲骨在不同时期制作成拓片或者因年深日久造成的图像变化,例如磨损、模糊等。在大规模无标注数据上获取的密集的自我监督,远远比稀疏的基于整体的人工监督更有效。

Diviner 模型另一个特点在于能够精确的预测出重片之间点对点的对应关系,并将重片拼合或拼接在一起。这种可以被专家快速解读的结果大大方便了人类与人工智能的协同合作。对于甲骨文这样的冷门绝学,人机合作尤为重要。在校重结果中,专家可以看到局部匹配细节和重叠图,极大地帮助并加速了他们验证的过程。

“过去的甲骨校重工作中,对拓面差异较大的不同拓本之间的认同存在现实困难。甲骨文校重助手 Diviner,既不受文字信息的限制,也不受图像数量的限制,直接运用图像比对就可以完成精准的图像校重,并取得了显著的成果。可以预期,随着 Diviner 模型功能的不断完善,甲骨学界一定会取得更大、更多的科研成果。”清华大学出土文献研究与保护中心教授王子杨如此评价校重助手 Diviner。

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngdbfac5cc-846e-11ed-bfe3-dac502259ad0.jpgdc1506d0-846e-11ed-bfe3-dac502259ad0.jpgd9512b90-846e-11ed-bfe3-dac502259ad0.png

d999d03e-846e-11ed-bfe3-dac502259ad0.png

“AI+HI”为古文化研究

打开新大门

“甲骨学是一个系统性的科学,一方面它是一种语言文字研究资料,另一方面它是一种历史研究资料,其研究涉及方方面面,研究者需要了解文字在古代的形、音、义等等,因此我们解决一个问题也要从不同维度探讨。此次与微软亚洲研究院的合作只是甲骨文和人工智能交叉研究的一个小序幕,推开了甲骨学研究的一扇新大门,为后续的研究起到了示范作用。未来,人工智能与古文字研究的结合将具有更广阔的前景。”莫伯峰教授表示。

da570910-846e-11ed-bfe3-dac502259ad0.pngdc53f8cc-846e-11ed-bfe3-dac502259ad0.jpg

微软亚洲研究院主管研究员武智融(左)与首都师范大学甲骨文研究中心莫伯峰教授(右)

"我们很高兴看到人工智能模型 Diviner 能够为甲骨学专家节省用于甲骨文数据整理的时间,让他们更专注于其他方面的研究。甲骨文是兼具象形图像属性和文字属性的神秘语言,多模态的人工智能在甲骨文研究上有着广阔天地。未来,我们希望能够与甲骨文专家一起探索更多有趣的课题。”武智融表示。

计算机图形图像领域知名学者、微软亚洲研究院常务副院长郭百宁表示,“甲骨文作为世界文化的瑰宝,其研究已经发展成为国际性的学术课题。多年来,微软亚洲研究院一直致力于将最前沿的计算机技术应用于文化遗产保护与传承等具有社会意义的研究中,并取得了诸多成果。我们希望可以与更多研究机构、研究学者共同合作,为推进世界文化、历史的保护和传承贡献一份力量。”

你知道本文每个小标题的图标分别是哪种动物的甲骨文么?欢迎在评论区留言你的答案!

*文章中用到的拓本来自四本甲骨著录书:①《甲骨文合集》②《甲骨文合集补编》③《上海博物馆所藏甲骨文字》④《殷虚书契续编》

dca81f74-846e-11ed-bfe3-dac502259ad0.png     dd2d043c-846e-11ed-bfe3-dac502259ad0.png

dd45d606-846e-11ed-bfe3-dac502259ad0.pngdd64377c-846e-11ed-bfe3-dac502259ad0.png   dd72ee3e-846e-11ed-bfe3-dac502259ad0.pngdd8784e8-846e-11ed-bfe3-dac502259ad0.pngdd973e06-846e-11ed-bfe3-dac502259ad0.png

原文标题:当人工智能⌈研究⌋上了甲骨文

文章出处:【微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6248

    浏览量

    103078

原文标题:当人工智能⌈研究⌋上了甲骨文

文章出处:【微信号:mstech2014,微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    甲骨文将全球总部迁至纳什维尔,医疗保健领域新进军

    据悉,甲骨文在纳什维尔新建的园区总投资额高达 12 亿美元(约合 87 亿元人民币)。近年来,甲骨文积极拓展医疗保健市场,并于 2022 年斥资 283 亿美元(约合 2051.75 亿元人民币)收购了医疗记录软件巨头 Cerner。
    的头像 发表于 04-24 15:22 67次阅读

    5G智能物联网课程之Aidlux下人工智能开发

    课程类别 课程名称 视频课程时长 视频课程链接 课件链接 人工智能 参赛基础知识指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:参赛基础知识指引
    发表于 04-01 10:40

    嵌入式人工智能的就业方向有哪些?

    嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下,嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下,众多名企也纷纷在嵌入式人工智能领域布局
    发表于 02-26 10:17

    微软市值升至全球第二,人工智能投资助推其市值增长

    据分析指出,微软不断向OpenAI进行深度投资以发展人工智能技术,此举使它在这一领域处于领先地位。其他科技巨头如Meta、谷歌、亚马逊和甲骨文也在这块市场积极布局。
    的头像 发表于 01-25 14:21 169次阅读

    甲骨文同意预付超1亿美元购买Ampere芯片

    根据甲骨文公司星期五提交的委任状,甲骨文公司决定预付1.04亿美元从新生公司Ampere购买处理器芯片。
    的头像 发表于 09-25 09:55 917次阅读

    ai人工智能机器人

    随着时间的推移,人工智能的发展越来越成熟,智能时代也离人们越来越近,近几年人工智能越来越火爆,人工智能的应用已经开始渗透到各行各业,与生活交融,成为人们无法拒绝,无法失去的一个重要存在
    发表于 09-21 11:09

    《通用人工智能:初心与未来》-试读报告

    作者给出的结论。整体读下来,可以给我们关于通用人工智能全面的了解。作者也反复强调了通用人工智能与专用智能的区别。尤其是人们错误的认为一堆专用智能堆砌起来就是通用
    发表于 09-18 10:02

    如何将人工智能应用到效能评估系统软件中去解决

      如何将人工智能应用到效能评估系统软件中去解决   华盛恒辉效能评估系统是一种非常实用的管理工具,它可以帮助组织和企业掌握其运营状况,优化业务流程,提高效率和生产力。然而,随着人工智能的迅猛发展
    发表于 08-30 12:58

    ChatGPT热潮继续 甲骨文将在其人力资源软件中添加生成式AI功能

    ChatGPT热潮继续 甲骨文将在其人力资源软件中添加生成式AI功能 ChatGPT 这类 AI 工具已经在科技行业掀起了一股热潮,生成式人工智能被越加广泛的应用,甲骨文公司预计在年底将在人力资源
    的头像 发表于 06-29 15:54 398次阅读

    AI 人工智能的未来在哪?

    人工智能、AI智能大模型已经孵化;繁衍过程将突飞猛进,ChatGPT已经上线。 世界首富马斯克认为AI对人类是一种威胁;谷歌前CEO施密特认为AI和机器学习对人类有很大益处。 每个国家对核武器的运用有两面性,可造可控;但AI智能
    发表于 06-27 10:48

    【书籍评测活动NO.16】 通用人工智能:初心与未来

    之后的达特茅斯研讨会开始,用机器来模仿人类学习及其他方面的智能,即实现“人工智能”(Artificial Intelligence,AI)便成为计算机领域持续的研究热点。时至今日,以深度学习为代表
    发表于 06-21 14:41

    甲骨文云业务收入在该季度大涨54%,达到了44亿美元

    财务报告公布后,甲骨文的股价上涨4%。该公司从2022年开始扩大云计算的规模,并收购电子医疗记录公司cerner,以更好地与微软、亚马逊等大型企业竞争。
    的头像 发表于 06-13 11:10 952次阅读

    人工智能一例

    这句话里边有几个参数? 如果x=1则执行a 如果是单计算的话只有1这一个参数。 但如果是人工智能的话有如下几个参数, 逻辑门,如果则 未知数,符号x 常量,1 函数,a 很多复杂的智能都可以如此拆分
    发表于 06-10 01:05

    【EASY EAI Nano人工智能开发套件试用体验】EASY EAI Nano人工智能开发套件开箱及硬件初体验

    今天收到了EASY EAI Nano人工智能开发套件,为大家做个开箱及硬件评测。 打开快递包装,引入眼帘的是一个设计精美蓝色的大盒子,在盒子里有EASY EAI Nano人工智能开发板、天线、喇叭
    发表于 05-31 19:18

    甲骨文、微软再次合作!讨论共享AI服务器,应对算力短缺!

    电子发烧友网报道(文/李弯弯)日前消息,据相关人士透露,甲骨文(Oracle)和微软(Microsoft)最近讨论了一项不同寻常的协议,如果任何一家公司为使用大规模AI的云客户提供的计算能力不足
    的头像 发表于 05-12 01:23 1295次阅读