0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是知识图谱?人工智能世界知识图谱的发展

恬静简朴1 来源:恬静简朴1 作者:恬静简朴1 2022-06-01 19:54 次阅读

1.1 什么是知识图谱

知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法[1]。知识图谱由节点和边组成。节点可以是实体,如一个人、一本书等,或是抽象的概念,如人工智能、知识图谱等。边可以是实体的属性,如姓名、书名,或是实体之间的关系,如朋友、配偶。知识图谱的早期理念来自Semantic Web[2,3](语义网),其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网。

1989年,Tim Berners-Lee 提出构建一个全球化的以“链接”为中心信息系统(Linked Information System)。任何人都可以通过添加链接把自己的文档链入其中。他认为,相比基于树的层次化组织方式,以链接为中心和基于图的组织方式更加适合互联网这种开放的系统。这一思想逐步被人们实现,并演化发展成为今天的World Wide Web。

1994年,Tim Berners-Lee 又提出 Web 不应该仅仅只是网页之间的互相链接。实际上,网页中描述的都是现实世界中的实体和人脑中的概念。网页之间的链接实际包含语义,即这些实体或概念之间的关系;然而,机器却无法有效地从网页中识别出其中蕴含的语义。他于1998年提出了Semantic Web的概念[4]。Semantic Web仍然基于图和链接的组织方式,只是图中的节点代表的不只是网页,而是客观世界中的实体(如人、机构、地点等),而超链接也被增加了语义描述,具体标明实体之间的关系(如出生地是、创办人是等)。相对于传统的网页互联网,Semantic Web的本质是数据的互联网(Web of Data)或事物的互联网(Web of Things)。

在 Semantic Web 被提出之后,出现了一大批新兴的语义知识库。如作为谷歌知识图谱后端的Freebase[5],作为IBM Waston后端的DBpedia[6]和Yago[7],作为Amazon Alexa后端的True Knowledge,作为苹果Siri后端的Wolfram Alpha,以及开放的Semantic Web Schema——Schema.ORG[8],目标成为世界最大开放知识库的Wikidata[9]等。尤其值得一提的是,2010年谷歌收购了早期语义网公司 MetaWeb,并以其开发的 Freebase 作为数据基础之一,于2012年正式推出了称为知识图谱的搜索引擎服务。随后,知识图谱逐步在语义搜索[10,11]、智能问答[12-14]、辅助语言理解[15,16]、辅助大数据分析[17-19]、增强机器学习的可解释性[20]、结合图卷积辅助图像分类[21,22]等多个领域发挥出越来越重要的作用。

如图1-1所示,知识图谱旨在从数据中识别、发现和推断事物与概念之间的复杂关系,是事物关系的可计算模型。知识图谱的构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面的技术,而知识图谱的应用则涉及语义搜索、智能问答、语言理解、决策分析等多个领域。构建并利用好知识图谱需要系统性地利用包括知识表示(Knowledge Representation)、图数据库、自然语言处理、机器学习等多方面的技术。

poYBAGKXU1yAcGzcAADMII-G7sI02.jpeg

图1-1 知识图谱:事物关系的可计算模型

1.2 知识图谱的发展历史

知识图谱并非突然出现的新技术,而是历史上很多相关技术相互影响和继承发展的结果,包括语义网络、知识表示、本体论、Semantic Web、自然语言处理等,有着来自Web、人工智能和自然语言处理等多方面的技术基因。从早期的人工智能发展历史来看, Semantic Web是传统人工智能与Web融合发展的结果,是知识表示与推理在Web中的应用;RDF(Resource Description Framework,资源描述框架)、OWL(Web Ontology Language,网络本体语言)都是面向 Web 设计实现的标准化的知识表示语言;而知识图谱则可以看作是Semantic Web的一种简化后的商业实现,如图1-2所示。

pYYBAGKXU1yAA9iiAAFFCUfRji895.jpeg

图1-2 从语义网络到知识图谱

在人工智能的早期发展流派中,符号派(Symbolism)侧重于模拟人的心智,研究怎样用计算机符号表示人脑中的知识并模拟心智的推理过程;连接派(Connectionism)侧重于模拟人脑的生理结构,即人工神经网络。符号派一直以来都处于人工智能研究的核心位置。近年来,随着数据的大量积累和计算能力的大幅提升,深度学习在视觉、听觉等感知处理中取得突破性进展,进而又在围棋等博弈类游戏、机器翻译等领域获得成功,使得人工神经网络和机器学习获得了人工智能研究的核心地位。深度学习在处理感知、识别和判断等方面表现突出,能帮助构建聪明的人工智能,但在模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰。

哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)和被相信(Believed)。简而言之,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得并总结出的所有事实(Fact)、概念(Concept)、规则(Rule)或原则(Principle)的集合。人类发明了各种手段来描述、表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学公式等。具有获取、表示和处理知识的能力是人类心智区别于其他物种心智的重要特征。人工智能的核心也是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。知识表示是现实世界的可计算模型(Computable Model of Reality)。从广义上讲,神经网络也是一种知识表示形式,如图1-3所示。

poYBAGKXU16AO_1eAAB3gOY6Ym458.jpeg

图1-3 知识图谱帮助构建有学识的人工智能

符号派关注的核心正是知识的表示和推理(KRR,Knowledge Representation and Reasoning)。早在1960年,认知科学家 Allan M.Collins 提出用语义网络(Semantic Network)研究人脑的语义记忆。例如,WordNet[23]是典型的语义网络,它定义了名词、动词、形容词和副词之间的语义关系。WordNet被广泛应用于语义消歧等自然语言处理领域。

1970年,随着专家系统的提出和商业化发展,知识库(Knowledge Base)构建和知识表示更加得到重视。专家系统的基本想法是:专家是基于大脑中的知识来进行决策的,因此人工智能的核心应该是用计算机符号表示这些知识,并通过推理机模仿人脑对知识进行处理。依据专家系统的观点,计算机系统应该由知识库和推理机两部分组成,而不是由函数等过程性代码组成。早期的专家系统最常用的知识表示方法包括基于框架的语言(Frame-based Languages)和产生式规则(Production Rules)等。框架语言主要用于描述客观世界的类别、个体、属性及关系等,较多地被应用于辅助自然语言理解。产生式规则主要用于描述类似于IF-THEN的逻辑结构,适合于刻画过程性知识。

知识图谱与传统专家系统时代的知识工程有着显著的不同。与传统专家系统时代主要依靠专家手工获取知识不同,现代知识图谱的显著特点是规模巨大,无法单一依靠人工和专家构建。如图1-4所示,传统的知识库,如Douglas Lenat从1984年开始创建的常识知识库 Cyc,仅包含700万条[1]的事实描述(Assertion)。Wordnet 主要依靠语言学专家定义名词、动词、形容词和副词之间的语义关系,目前包含大约20万条的语义关系。由著名人工智能专家 Marvin Minsky于1999年起开始构建的 ConceptNet[24]常识知识库依靠了互联网众包、专家创建和游戏三种方法,但早期的 ConceptNet 规模在百万级别,最新的ConceptNet 5.0也仅包含2800万个RDF三元组关系描述。谷歌和百度等现代知识图谱都已经包含超过千亿级别的三元组,阿里巴巴于2017年8月发布的仅包含核心商品数据的知识图谱也已经达到百亿级别。DBpedia已经包含约30亿个RDF三元组,多语种的大百科语义网络BabelNet包含19亿个RDF三元组[25],Yago3.0包含1.3亿个元组,Wikidata已经包含4265万条数据条目,元组数目也已经达到数十亿级别。截至目前,开放链接数据项目Linked Open Data[2]统计了其中有效的2973个数据集,总计包含大约1494亿个三元组。

现代知识图谱对知识规模的要求源于“知识完备性”难题。冯·诺依曼曾估计单个个体大脑的全量知识需要2.4×1020个bits存储[26]。客观世界拥有不计其数的实体,人的主观世界还包含无法统计的概念,这些实体和概念之间又具有更多数量的复杂关系,导致大多数知识图谱都面临知识不完全的困境。在实际的领域应用场景中,知识不完全也是困扰大多数语义搜索、智能问答、知识辅助的决策分析系统的首要难题。

pYYBAGKXU16AflWBAADcT7n4gn054.jpeg

图1-4 现代知识图谱的规模化发展

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230607
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119910
  • 知识图谱
    +关注

    关注

    2

    文章

    131

    浏览量

    7594
收藏 人收藏

    评论

    相关推荐

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(下)

    对于语言模型(LLM)幻觉,知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息,减少了LLM中出现幻觉的可能性。
    的头像 发表于 02-22 14:13 277次阅读
    利用<b class='flag-5'>知识图谱</b>与Llama-Index技术构建大模型驱动的RAG系统(下)

    知识图谱基础知识应用和学术前沿趋势

    知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理、Web技术、机器学习与大数据挖掘等等方向的交叉学科。
    的头像 发表于 01-08 10:57 436次阅读
    <b class='flag-5'>知识图谱</b>基础<b class='flag-5'>知识</b>应用和学术前沿趋势

    知识图谱与大模型结合方法概述

    本文作者 |  黄巍 《Unifying Large Language Models and Knowledge Graphs: A Roadmap》总结了大语言模型和知识图谱融合的三种路线
    的头像 发表于 10-29 15:50 603次阅读
    <b class='flag-5'>知识图谱</b>与大模型结合方法概述

    云知声亮相第十七届全国知识图谱与语义计算大会

    8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳成功举办。大会聚焦“知识图谱赋能通用AI”,邀请国内外知名学者、产业界知名发言人员介绍相关领域的最新进展和发展
    的头像 发表于 08-31 16:02 409次阅读
    云知声亮相第十七届全国<b class='flag-5'>知识图谱</b>与语义计算大会

    2023中国工业互联网技术发展的十大科技趋势

    知识图谱是一种基于语义网技术的知识表示方法,它将实体、属性和关系等元素进行抽象和建模,形成一个具有语义表达能力的图结构。在工业领域,知识图谱可以将工业领域的知识进行建
    的头像 发表于 08-31 15:18 518次阅读
    2023中国工业互联网技术<b class='flag-5'>发展</b>的十大科技趋势

    如何利用大模型构建知识图谱?如何利用大模型操作结构化数据?

    上图是之前,我基于大语言模型构建知识图谱的成品图,主要是将金融相关的股票、人物、涨跌幅之类的基金信息抽取出来。
    的头像 发表于 08-24 16:56 8676次阅读
    如何利用大模型构建<b class='flag-5'>知识图谱</b>?如何利用大模型操作结构化数据?

    大型语言模型与知识图谱:机遇与挑战

    这对知识表示领域来说是一个巨大的步骤。长时间以来,人们关注的是明确的知识,例如嵌入在文本中的知识,有时也被称为非结构化数据,以及以结构化形式存在的知识,例如在数据库和
    的头像 发表于 08-24 14:50 428次阅读
    大型语言模型与<b class='flag-5'>知识图谱</b>:机遇与挑战

    高级人工智能是什么

    。在人工智能的千变万化中,高级人工智能因其更大的智能表现力和创造性而受到了广泛的关注和兴趣。通过深度学习,增强学习,知识图谱和自然语言处理等新兴技术的应用,高级
    的头像 发表于 08-15 16:07 1189次阅读

    人工智能需要哪些知识

    人工智能需要哪些知识 随着人工智能发展和普及,越来越多的人开始关注这一领域。但是,想要从事人工智能相关的工作,不仅需要具备一定的技术水平,
    的头像 发表于 08-12 17:27 623次阅读

    知识图谱嵌入模型 (KGE) 的总结和比较

    知识图谱嵌入(KGE)是一种利用监督学习来学习嵌入以及节点和边的向量表示的模型。它们将“知识”投射到一个连续的低维空间,这些低维空间向量一般只有几百个维度(用来表示知识存储的内存效率)。向量空间中,每个点代表一个概念,每个点在空
    的头像 发表于 07-31 16:07 624次阅读
    <b class='flag-5'>知识图谱</b>嵌入模型 (KGE) 的总结和比较

    人工智能是干嘛的 人工智能在教育中的应用研究

      摘 要:如今人工智能在教育行业的应用已经收到了越来越多的关注。本文通过查阅相关文献资料,分析其研究与应用,总结了人工智能在教育行业中的应用现状及其未来的发展趋势。首先本文介绍了人工智能
    发表于 07-18 16:55 0次下载

    喜讯 | 西井科技荣获2023世界知识产权组织全球奖!

    项 。获此殊荣,西井科技将以此为动力,加速科技创新,让知识产权不断激活创新活力,成为公司发展的核心竞争力,赋能全球可持续发展。 荣获世界知识产权领域最高奖项
    的头像 发表于 07-12 18:05 375次阅读
    喜讯 | 西井科技荣获2023<b class='flag-5'>世界知识</b>产权组织全球奖!

    知识图谱(2)#人工智能

    人工智能
    未来加油dz
    发布于 :2023年07月04日 15:11:06

    知识图谱(1)#人工智能

    人工智能
    未来加油dz
    发布于 :2023年07月04日 15:10:18

    巨微文化携手IBM依托AI共塑知识图谱新篇章

    知识图谱是具有 AI 能力加持的智能知识库”,借助于基于 AI 的自然语言处理 (NLP) 能力,打造智能搜索、智能问答、个性化推荐、辅助
    的头像 发表于 06-05 16:17 572次阅读