0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当人工智能⌈研究⌋上了甲骨文

微软科技 来源:未知 2022-12-26 00:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能开启甲骨文整理

研究新范式

在甲骨学研究中,甲骨“校重”整理是一项费事费力但又极其重要的基础性研究工作。微软亚洲研究院与首都师范大学甲骨文研究中心莫伯峰教授团队合作开发的甲骨文校重助手 Diviner,第一次将自监督 AI 模型引入到甲骨文“校重”工作中,并取得数百项新成果,为甲骨文整理领域开创了人工智能与人类专家协作(AI+HI)的全新研究范式。

入选《世界记忆名录》的甲骨文,是迄今为止中国发现的年代最早的成熟文字系统,对中国历史乃至世界文化的发展研究具有非凡意义。有人曾说“东周之前无信史”,因为《春秋》一书记录了2000多年前的东周历史,而之前的商文明曾被认为是传说,直至甲骨文被发现,才有力地证明了殷商王朝的存在,把中国信史向上推进了约1000年。

从甲骨文首次被发现至今,出土的甲骨实物约有十五万片。因为收藏、流转的缘故,大部分的甲骨都留下了多张拓本图像,被称为“重片”。甲骨重片数量繁多,效果互有参差,对其整理成为了一项重要的基础性研究工作,称作“校重”。然而,人工校重只能一一对照,费时费力,是甲骨文研究的一大痛点。正如《甲骨文合集补编》“前言”中所述:“这种对重、选片的工作,其烦琐、费工是局外人难以想象的。”

近期,微软亚洲研究院主管研究员武智融与首都师范大学甲骨文研究中心莫伯峰教授团队合作,提出了基于自监督学习的甲骨文校重助手 Diviner,大幅提升了甲骨文校重工作的效率。系统穷尽比对了18万幅拓本,辅助甲骨学家在上百个甲骨文数据库中发现了大量甲骨重片,不仅复现了专家过去所发现的数万组重片,而且经过初步整理,已发现了三百多组未被前人发现的校重新成果。这项研究为甲骨文整理领域开创了人工智能与人类专家协作(AI+HI)的全新研究范式。本项目全面成果的甲骨学解读稍后将发布于中国社科院先秦史研究室网站 www.xianqin.org。

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngd91e00b2-846e-11ed-bfe3-dac502259ad0.jpgd935a9ec-846e-11ed-bfe3-dac502259ad0.jpgd9512b90-846e-11ed-bfe3-dac502259ad0.png

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngd969c164-846e-11ed-bfe3-dac502259ad0.jpgd9789540-846e-11ed-bfe3-dac502259ad0.jpgd9512b90-846e-11ed-bfe3-dac502259ad0.png

d999d03e-846e-11ed-bfe3-dac502259ad0.png

AI在甲骨文“校重”中

令人惊喜的新发现

“校重”是甲骨学领域的一个老题目,此前已经有很多甲骨学家为这项工作倾注了大量心血。比如甲骨文领域最重要的两部著录书《合集》《合补》,在编著过程中花费大量功夫做的工作就是校重。理论上来说,完成一张甲骨拓本的校重工作,应该将它与其余的所有甲骨拓本逐一比照,才能确保没有遗漏。尽管可以利用文字信息和分类方法缩小对比范围,但对于甲骨学家而言,这仍然是一项十分艰巨的工作,且难以保证全面性和准确性。

对比和处理海量数据,并从中挖掘有用信息正是 AI 的专长。大规模的校重,穷尽性的比对,都难不倒校重助手 Diviner。接下来就让我们一起看看 Diviner 的效果。你也可以测试一下自己能否发现其中的异同?

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngd9b3730e-846e-11ed-bfe3-dac502259ad0.jpgd9cd75ce-846e-11ed-bfe3-dac502259ad0.jpgd9ec0c1e-846e-11ed-bfe3-dac502259ad0.jpgda182948-846e-11ed-bfe3-dac502259ad0.jpgda272a7e-846e-11ed-bfe3-dac502259ad0.jpgda38975a-846e-11ed-bfe3-dac502259ad0.png

d999d03e-846e-11ed-bfe3-dac502259ad0.png

这些校重结果对

甲骨文研究有什么作用?

作为三千年前古人留下的一份礼物,每一片甲骨都弥足珍贵。但目前甲骨的研究主要依靠拓本图像,而非甲骨实物,所以拓本就是甲骨研究的根本出发点。很多时候一个字形、一条卜辞的清楚认知,就来自更全、更清的拓本材料。所以甲骨学家从不放过哪怕只有一个字的拓本。

本次校重助手 Diviner 就提供了一批更全、更清晰的甲骨图像,更有不少堪称惊喜的新发现:

“重而不同”的新图像。左侧是时间较早,没有拓全的甲骨拓本。右侧是时间较晚的拓本,甲骨残破只余下一部分,尽管拓全了但很不完整。通过将两个拓本重叠,获得了一张最完整的甲骨图像,特别是右上部分的一段甲骨文字的完整展现,为甲骨文研究直接提供了一条新材料。

da570910-846e-11ed-bfe3-dac502259ad0.pngda697776-846e-11ed-bfe3-dac502259ad0.png

“有里有面”的新图像。有些甲骨正反两面皆有文字,但有时只有一面留下了拓本。比如马保春先生曾发现这两版反面拓本可以缀合在一起。但其中一片的正面图像一直没有找到。Diviner 校重发现了下面一片甲骨的正反完整拓本,正面缀合复原的图像也终于得以呈现。

da570910-846e-11ed-bfe3-dac502259ad0.pngdaa36e5e-846e-11ed-bfe3-dac502259ad0.png

从“重片”到“缀合”。左侧图像是过去由张宇卫先生缀合在一起的两片甲骨。通过 Diviner 的校重发现,下部拓本原来还有一片更完整的重片。如此,两片甲骨的缀合就扩展成了三片甲骨的缀合。

da570910-846e-11ed-bfe3-dac502259ad0.pngdace52fe-846e-11ed-bfe3-dac502259ad0.png

从模糊到清晰。由于有些甲骨拓本质量不高,上面文字难以辨认,给甲骨学家带来很多困扰。比如这几组重片,模糊拓本上的文字让人难以辨认,直到这次发现了清晰的重片,才把过去的很多疑惑解决了。

da570910-846e-11ed-bfe3-dac502259ad0.pngdb07eb22-846e-11ed-bfe3-dac502259ad0.pngdb41dce2-846e-11ed-bfe3-dac502259ad0.png

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngdb7aeb54-846e-11ed-bfe3-dac502259ad0.jpgdb9255fa-846e-11ed-bfe3-dac502259ad0.jpgd9512b90-846e-11ed-bfe3-dac502259ad0.png

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngdbb0a2c6-846e-11ed-bfe3-dac502259ad0.jpgdbc8b10e-846e-11ed-bfe3-dac502259ad0.jpgd9512b90-846e-11ed-bfe3-dac502259ad0.png

Diviner 在甲骨校重工作中的出色表现和展现出的巨大潜力得到了很多甲骨学家的认可。复旦大学出土文献与古文字研究中心研究员蒋玉斌认为:“甲骨校重与指出互见,是甲骨学重要的基础性工作。同一甲骨片,可能经过多次著录,各版本有早有晚,清晰度、完整度存在差别,需要加以关联、比对、研判。过去,这种工作完全靠学者凭经验、记忆零星举列,虽颇有得,但总体上耗时费力,也仍有大量未能指出的重出、互见现象。莫伯峰教授团队与微软亚洲研究院合作开发的人工智能甲骨文校重助手 Diviner,实现了大范围的校重,效率高,成果多,令人振奋。我坚信,在甲骨校重与指出互见方面,校重助手 Diviner 已经远胜人力,今后此项工作的大规模开展,或将完全由校重助手 Diviner 这样的工具取代。近年,有多支学术团队致力于甲骨文等古文字研究与人工智能的融合创新,先进的技术手段将为古老文字的研究插上腾飞的翅膀。但人工智能助力古文字研究的着力点在哪里,是首先要解决的问题。校重助手 Diviner 很好地契合了甲骨文研究的需要与人工智能的专长,功效显著,成果突出,我认为是人工智能辅助甲骨文研究的成功典范。”

d999d03e-846e-11ed-bfe3-dac502259ad0.png

自监督学习首次在甲骨文中应用

AI模型泛化性显著

校重助手 Diviner 能有如此出众的效果,技术上是如何实现的?有哪些创新之处?

近两年,不依赖人工标注数据的自监督学习是 AI 研究的热门方向,但很多前沿技术仍停留在研究阶段。Diviner 不仅第一次将自监督 AI 模型引入到甲骨文“校重”工作,也是自监督 AI 模型在真实场景中的一次成功应用。

“尽管自监督研究热度很高,但是很多问题最终还是要通过人工数据标注来解决。我们一直希望使用完全无标注的数据进行自监督学习,甚至是人工根本上无法标注的数据。”微软亚洲研究院主管研究员武智融说,“甲骨校重需要两两比对十八万张数据库中的所有拓片,这为基于完全无标注数据的自监督学习模型应用提供了一个绝佳的落地场景。”

计算两张拓片的视觉相似度,通常的方法会从全局特征出发。然而,在甲骨文的研究中,即使是重片,外观上也可能有很大差异,这是由于拓印范围、拓印方式、磨损等多方面原因造成的。考虑到一块完整的甲骨可能会碎裂成多片,校重时经常需要从大骨片中找出小骨片。因此,基于全局外观表示的传统方法并不能很好地发挥作用。面对这一挑战,研究员想到了甲骨拓片的特性,因其是从同一块甲骨而来,重片之间存在着精确的点与点的对应关系。基于这一特性,校重助手 Diviner 从局部寻找匹配关系,再拓展到全局。

局部匹配。Diviner 使用的局部描述符(local descriptor)是经过自监督训练的深度神经网络。模型应用了对比学习的自监督技术,使用图像增强,让特征在训练时不受甲骨拓片上清晰度、对比度、噪音、旋转等因素的影响。在甲骨图像上训练的局部描述符能够检测和匹配局部块之间的关键点,并进行点对点匹配。

全局优化。基于密集的点与点的匹配结果,通过使用鲁棒的优化算法 RANSAC 估计全局的几何仿射变换。仿射变换允许模型在内容重复的情况下拼合或拼接已有图像。这种局部到全局的方法对检测大量的甲骨碎片至关重要。

Diviner 模型一个特点是具有强大的泛化能力,这归功于其自监督学习的匹配算法。模型通过图像增强技术模拟同一块甲骨在不同时期制作成拓片或者因年深日久造成的图像变化,例如磨损、模糊等。在大规模无标注数据上获取的密集的自我监督,远远比稀疏的基于整体的人工监督更有效。

Diviner 模型另一个特点在于能够精确的预测出重片之间点对点的对应关系,并将重片拼合或拼接在一起。这种可以被专家快速解读的结果大大方便了人类与人工智能的协同合作。对于甲骨文这样的冷门绝学,人机合作尤为重要。在校重结果中,专家可以看到局部匹配细节和重叠图,极大地帮助并加速了他们验证的过程。

“过去的甲骨校重工作中,对拓面差异较大的不同拓本之间的认同存在现实困难。甲骨文校重助手 Diviner,既不受文字信息的限制,也不受图像数量的限制,直接运用图像比对就可以完成精准的图像校重,并取得了显著的成果。可以预期,随着 Diviner 模型功能的不断完善,甲骨学界一定会取得更大、更多的科研成果。”清华大学出土文献研究与保护中心教授王子杨如此评价校重助手 Diviner。

d90d9ef2-846e-11ed-bfe3-dac502259ad0.pngdbfac5cc-846e-11ed-bfe3-dac502259ad0.jpgdc1506d0-846e-11ed-bfe3-dac502259ad0.jpgd9512b90-846e-11ed-bfe3-dac502259ad0.png

d999d03e-846e-11ed-bfe3-dac502259ad0.png

“AI+HI”为古文化研究

打开新大门

“甲骨学是一个系统性的科学,一方面它是一种语言文字研究资料,另一方面它是一种历史研究资料,其研究涉及方方面面,研究者需要了解文字在古代的形、音、义等等,因此我们解决一个问题也要从不同维度探讨。此次与微软亚洲研究院的合作只是甲骨文和人工智能交叉研究的一个小序幕,推开了甲骨学研究的一扇新大门,为后续的研究起到了示范作用。未来,人工智能与古文字研究的结合将具有更广阔的前景。”莫伯峰教授表示。

da570910-846e-11ed-bfe3-dac502259ad0.pngdc53f8cc-846e-11ed-bfe3-dac502259ad0.jpg

微软亚洲研究院主管研究员武智融(左)与首都师范大学甲骨文研究中心莫伯峰教授(右)

"我们很高兴看到人工智能模型 Diviner 能够为甲骨学专家节省用于甲骨文数据整理的时间,让他们更专注于其他方面的研究。甲骨文是兼具象形图像属性和文字属性的神秘语言,多模态的人工智能在甲骨文研究上有着广阔天地。未来,我们希望能够与甲骨文专家一起探索更多有趣的课题。”武智融表示。

计算机图形图像领域知名学者、微软亚洲研究院常务副院长郭百宁表示,“甲骨文作为世界文化的瑰宝,其研究已经发展成为国际性的学术课题。多年来,微软亚洲研究院一直致力于将最前沿的计算机技术应用于文化遗产保护与传承等具有社会意义的研究中,并取得了诸多成果。我们希望可以与更多研究机构、研究学者共同合作,为推进世界文化、历史的保护和传承贡献一份力量。”

你知道本文每个小标题的图标分别是哪种动物的甲骨文么?欢迎在评论区留言你的答案!

*文章中用到的拓本来自四本甲骨著录书:①《甲骨文合集》②《甲骨文合集补编》③《上海博物馆所藏甲骨文字》④《殷虚书契续编》

dca81f74-846e-11ed-bfe3-dac502259ad0.png     dd2d043c-846e-11ed-bfe3-dac502259ad0.png

dd45d606-846e-11ed-bfe3-dac502259ad0.pngdd64377c-846e-11ed-bfe3-dac502259ad0.png   dd72ee3e-846e-11ed-bfe3-dac502259ad0.pngdd8784e8-846e-11ed-bfe3-dac502259ad0.pngdd973e06-846e-11ed-bfe3-dac502259ad0.png

原文标题:当人工智能⌈研究⌋上了甲骨文

文章出处:【微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107351

原文标题:当人工智能⌈研究⌋上了甲骨文

文章出处:【微信号:mstech2014,微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    成都汇阳投资关于甲骨文云计算订单超预期,全球算力投资持续高景气

    甲骨文披露 4550 亿美元订单超预期 全球算力投资高景气 , 甲骨文披露4550亿美元订单超预期 ,微软与 Nebius 达成五年 174 亿美元算力协议 。甲骨文披露公司剩余履约义务达 4550
    的头像 发表于 10-17 10:05 351次阅读

    AI看点:OpenAI拟一口气建5个算力中心 去年中国人工智能产业规模超9千亿元

    给大家带来一些人工智能资讯消息: OpenAI拟一口气建5个算力中心 日前,OpenAI公司正式宣布将与甲骨文、软银在美国新建五个大型人工智能数据中心,这些将作为其“星际之门”(Stargate
    的头像 发表于 09-25 18:13 1764次阅读

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    家人们,最近在研究人工智能相关设备,挖到了一款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 一、开箱即学,便捷拉满 这个实验箱真的是为使用者
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    家人们,最近在研究人工智能相关设备,挖到了一款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 一、开箱即学,便捷拉满 这个实验箱真的是为使用者
    发表于 08-07 14:23

    2025人工智能十大趋势

    在2025世界人工智能大会·腾讯论坛上,腾讯研究院联合腾讯优图实验室、腾讯云智能、腾讯科技联合发布了《共生伙伴:2025人工智能十大趋势》报告。基于腾讯
    的头像 发表于 08-05 11:42 4966次阅读
    2025<b class='flag-5'>人工智能</b>十大趋势

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能
    发表于 07-14 11:23

    勇艺达人工智能研究院迎大咖加盟

    近日,深圳勇艺达总部隆重举行 “数智融合 聚贤赋能 —— 勇艺达人工智能研究院高端人才聘任仪式”,正式聘请黄道权先生与吴天准先生加盟,为研究院注入顶尖智慧力量,此举标志着勇艺达在人工智能
    的头像 发表于 07-10 18:04 784次阅读

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究智能工具,大模
    发表于 07-04 11:10

    看点:曝OpenAI与甲骨文加码“星际之门” 富士康要求中国员工从印度撤离 微软放慢AI芯片开发:专注务实设计

    给大家带来一些行业资讯: 曝OpenAI与甲骨文加码“星际之门” 据外媒报道,OpenAI已同意从甲骨文公司的数据中心租用大量计算能力,作为“星际之门”(Stargate)计划的一部分。据悉
    的头像 发表于 07-03 13:56 572次阅读

    速览:人工智能(AI)算法与GPU运行原理详解

    改变了人类生活的方方面面,并且在未来仍然会继续发挥越来越重要的影响力。 “人工智能”这一概念在1956年于美国达特茅斯学院举办的一次学术集会上被首次提出,自此开启了人工智能研究的新纪元。自此之后,
    的头像 发表于 02-14 10:28 1394次阅读
    一<b class='flag-5'>文</b>速览:<b class='flag-5'>人工智能</b>(AI)算法与GPU运行原理详解

    特朗普宣布5000亿美元人工智能投资计划

    近日,美国人工智能领域迎来重磅消息。美国总统特朗普宣布,OpenAI、软银和甲骨文三家行业巨头正携手推进一项名为 “星际之门”(Stargate)的人工智能基础设施建设计划,总投资预计高达 5000 亿美元。这一举措旨在助力美国
    的头像 发表于 02-05 17:48 957次阅读

    TikTok遭下架,甲骨文将关闭其美国数据服务器

    ,TikTok美国业务的主要云计算供应商甲骨文公司已向其员工发出通知,要求于美国东部时间1月18日21时关闭托管TikTok数据的服务器。这意味着,TikTok在美国的数据存储和访问将受到严重影响,可能导致该应用在短时间内无法恢复正常使用。 TikTok作为一款备受欢迎
    的头像 发表于 01-20 14:48 890次阅读

    Deno Land 请愿剥夺甲骨文 JavaScript 商标所有权

    认为,自甲骨文于2009年从 Sun Microsystems 收购 JavaScript 商标以来,并未实际销售任何与该商标相关的商品或提供任何相关服务。基于这一理由,Deno Land 主张甲骨文
    的头像 发表于 01-15 15:37 639次阅读

    西门子与甲骨文红牛车队二十载创新同行

    近日,西门子数字化工业软件与甲骨文红牛车队(Oracle Red Bull Racing)共同庆祝双方携手合作的20周年里程碑,这一合作成就了一级方程式赛车领域历史最为悠久的技术合作伙伴关系之一
    的头像 发表于 12-23 18:02 983次阅读

    启明云端携手心大模型,共探人工智能新纪元

    人工智能的浪潮中,大模型技术以其强大的数据处理能力和深度学习能力,正成为推动产业升级和创新的核心引擎。12月19日,心中国行走进广州,启明云端作为心大模型技术生态伙伴,有幸出席这场盛会,并
    的头像 发表于 12-20 15:58 1047次阅读
    启明云端携手<b class='flag-5'>文</b>心大模型,共探<b class='flag-5'>人工智能</b>新纪元