0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

肖仰华:“知识图谱的落地最为重要的环节不是实现,而是论证与设计。”

电子工程师 来源:lq 2019-05-14 09:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

“知识将比数据更重要,得知识者得天下”,去年十月,在 CSDN 对肖仰华教授的一篇约稿里,他指出数据的真正价值蕴含于其深加工的知识中。

从 Google 于 2012 年提出知识图谱概念后,知识图谱技术与大数据和机器学习等技术相结合得到迅速。肖仰华教授认为,在更多实际场合下,知识图谱作为一种技术体系,指代大数据时代知识工程的一系列代表性技术进展的总和。

人工智能时代的到来,知识图谱也成为了实现机器认知智能的基础,将知识库中的知识与问题或者数据加以关联后的知识图谱,可以让机器像人脑那样进行理解与解释。

基于知识图谱技术的潜在能力,业界也加快了知识图谱的应用落地。从应用的角度来看,知识图谱的应用趋势越来越从通用领域走向行业领域。肖仰华教授认为,现在的局面是通用与行业应用百花齐放,各行各业都在讨论适合自己的知识图谱。

知识图谱如何落地业界都在不断进行摸索,在肖仰华教授看来,知识图谱的落地除实现之外,论证与设计、运营与反馈也是不可忽视的。知识图谱落地是个系统工程,不是单一模型能够解决的,系统架构、流程、策略都十分重要。

当然,知识图谱落地还需要探讨更为具体的问题。比如领域知识图谱构建时如何界定领域知识边界?一个合格的领域知识图谱有什么评价标准?从目前业界卖数据阶段到提取出出知识之间的鸿沟有多大?知识图谱产业有哪些已然明确的发展方向?知识图谱近年来从理论上是不是没有多大进步?

作为 5 月 25 日-5 月 27 日即将在杭州举办的 CTA 大会(官网:https://dwz.cn/iSZ7BQUR)知识图谱论坛的演讲嘉宾,AI科技大本营对肖仰华教授进行了采访,对上述重要的指向性问题,他一一进行了详细解答。

(肖仰华,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。)

以下为采访内容实录:

AI科技大本营:现在所称的知识图谱实际上是一种大规模语义网络,这里强调的“大规模”怎么定义?是否有量化标准?

肖仰华:这里讲的“大规模”并不是从数量上来衡量的,不是说数据量大一点的就叫做知识图谱,数据量小一点的就叫做语义网络。

我们强调知识图谱是一种大规模语义网络,是为了让大家转变思维,意识到规模上的量变会带来了效用上的质变。同样是构建语义网络,知识图谱从知识获取到知识应用均与传统语义网络存在显著区别。这种区别体现在:(1)高质量模式缺失或被有意舍弃;(2)封闭世界假设不再成立;(3)大规模自动化知识获取成为前提。

AI科技大本营:关于知识图谱生命周期,您特意提到如何融合知识图谱与传统知识表示来更充分满足实际应用需求是值得研究的问题之一。反过来看,是否意味着目前还不存在新的比较靠谱的知识表示方法?

肖仰华:准确来说,目前并不存在大一统的一种知识表示方法,可以用来表示所有知识。所以我在之前提到的一个观点叫做“NoKG”,也就是 Not only KG。这里是借鉴“NoSQL”的说法。

知识图谱只是知识表示的一种,单单知识图谱不足以表达现实世界的丰富语义,不足以解决所有问题。比如很多领域有着丰富的 if-then 规则(比如故障维修、计算机系统配置),这些规则利用知识图谱表达就很牵强,特别是对于 if A and B then C 这样的规则。因此,鼓励知识表示方法“百家齐放”,什么场景下适合什么知识表示就用什么知识表示方法。

AI科技大本营:为了规避业界“为图谱而图谱”的现象,您认为知识图谱应用实践最重要的是明确要利用领域知识解决怎样的应用问题,然后根据应用反推知识表示。但知识是网状的,领域知识之间也存在勾连,那在做某一领域知识图谱时如何界定知识边界的范围?

肖仰华:界定实际应用的知识边界是非常困难的,这是一种定性判断,而非定量判断。我们可以从可行性的角度来进行界定,一般而言一个应用涉及的知识越简单、应用越简单就越可能实现。为了确定自己的应用是否符合知识简单、应用简单,可以通过以下三类问题来进行判断:

(1)应用复杂性

Q1:是否用到常识?Q2:是否用到元知识?Q3:是否单一问题模型即可建模(比如分类或者回归)?Q4:是否涉及长程推理?Q5:用到的知识类型是否多样?Q6:领域专家的学习周期是否很长?Q7:是否简单的岗位培训就能胜任应用需求?Q8:应用是否封闭?

(2)知识复杂度

Q1:知识是否容易发生变化?Q2:是否涉及复杂过程的描述?Q3:是否涉及分支繁复的推理决策?

(3)知识资源积累

Q1:是否存在领域本体?Q2:是否存在叙词表?Q3:是否存在领域词典?

AI科技大本营:领域知识图谱作为语义网络,目前还难以表达复杂因果关联与复杂决策过程,既然如此,业界现在做领域知识图谱的壁垒究竟有多高?体现在哪些方面?

肖仰华:壁垒可能包括数据和场景。领域数据是一个企业的护城河,没有大数据的企业根本玩不转;领域场景也不像通用场景那么简单,需要长期深耕用户,准确理解用户的痛点,才能更好的设计出适用于知识图谱的场景。同时,领域应用的样本稀疏、场景多样、知识表示复杂等对于业界的知识图谱技术均提出了巨大挑战。

AI科技大本营:一个合格的领域知识图谱有什么评价标准?

肖仰华:领域图谱的评价标准总体而言有三个方面的指标。

(1)规模。这只是个相对的概念,一个知识库到底需要多大的规模才能支撑实际应用,是没有绝对答案的。需要看实际应用的反馈,也就是知识图谱上线后的用户满意率。比如在利用知识图谱支撑语义搜索方面,多少查询能被准确理解,这个比率是个重要的指标。

(2)质量。包括以下几个维度。一是、准确率。比如是否存在错误事实,错误事实所占比例都是质量的直接反映。二是、知识的深度。比如很多知识库只涵盖人物这样的大类,无法细化到作家、音乐家、运动员这些细分类目(fine-grained concepts)。三是、知识的粒度。粒度越细应用越灵活,应用时精读越高。细化知识表示的粒度是领域知识图谱的构建过程中的重要任务之一。

(3)实时。绝对实时是不现实的,因而实时大都从知识的延时(latency)角度进行刻画。短延时显然是我们所期望的。

AI科技大本营:目前来看,知识图谱在业界的应用似乎更偏向于领域知识图谱( DKG),通用知识图谱(GKG)的发展处于何种阶段?业界公司做 GKG 是否必要?会不会做成像语音助手 Siri 那样的鸡肋应用?

肖仰华:目前通用知识图谱的发展已经趋近于成熟,主要以百科类网站作为数据源进行知识抽取构建而得,技术和应用都基本固定,想有所创新比较难。业界应该把更多的精力放在构建领域知识图谱上,领域应用的场景多样、知识的深度更深、粒度更细,更有可能做出不是鸡肋的应用。

AI科技大本营:您说“得知识者得天下”,但目前业界还处在卖数据盈利的阶段,从卖数据到提取出“精纯”的知识之间的鸿沟有多大?通往知识的“路径”中,哪些属于已经是非常明确的基础性方向,哪些还在探索当中?

肖仰华:知识图谱的产业形态分为三类典型形态:数据与服务、产品与系统、咨询与解决方案。

(1) 数据与服务。各行业均对知识图谱有着迫切需求,想建设通用或者领域知识图谱,并将知识图谱中的数据对外提供服务。直接的图谱数据服务能力有限,在一些深度服务需求比较多的场景,在知识图谱数据基础上进一步提供认知服务。

目前大平台类似 IBM Watson、微软认知服务、百度大脑平台都在尝试知识图谱数据与认知服务。除了通用知识图谱之外,特定领域或者行业的知识图谱也对数据与服务有着强烈需求。在图书情报、出版传媒、招聘就业、知识产权等相关领域,由于缺乏头部企业,这为第三方平台的存在提供了较大的发展空间,并且这些领域数据相对公开容易获取,使得构建独立的第三方服务平台成为可能。

(2) 产品与系统。知识图谱的大规模应用与产业化是需要个类成熟的产品与软件系统支撑的,比如很多行业图谱的建设均需要互联网数据源的补充,这就需要大规模的分布式爬虫系统。建好的大规模知识图谱通常需要图系统的管理,这就是图数据库系统,大量的企业或者团队在从事相关系统的研发。

目前涉及知识获取的产品与系统仍然有很大的发展空间。知识获取总体上仍处在发展中阶段,技术尚未定型,为其固化相应的产品形态具有一定的风险,需要予以充分考虑。

(3)咨询与解决方案。知识图谱知识工程是个典型的系统工程,很多时候与建筑工程十分相似,都需要论证、设计、实施、监理、验收等各个环节。

知识图谱落地过程中最为重要的环节不仅是实现,更需要论证与设计。因此也就给专注于知识图谱咨询和解决方案设计与实施的企业提供了丰富的机会。

AI科技大本营:Google 从 2012 年提出知识图谱后,有人认为其在理论上其实没有特别大的进步,更多是从实践中去发现吸纳了新的技术方法,您同意这种说法吗?

肖仰华:大数据时代的到来,催生了以知识图谱为代表的大规模知识表示,同时也为其发展奠定了必要的基础。今天这个时代谈知识工程跟 20 世纪谈专家系统有什么不同?最大的不同点是我们有前所未有的大数据、前所未有的机器学习能力以及前所未有的计算能力。这三个技术的合力作用使我们可以摆脱对专家的依赖,使实现大规模自动化知识获取成为可能,这也是大数据知识工程的根本。这一种知识获取,本质上可以称为自下而上的获取。

显然,这种数据驱动的知识获取方式与人工构建的知识获取方式完全不同。前者可以实现大规模自动化知识获取,无须高昂的人力成本。相对于人工构建的知识获取方式,数据驱动的知识获取方式是一种典型的自下而上的做法,是相对务实、实用的做法。大数据时代所发展出来的众包技术使得知识的规模化验证成为可能。知识获取的众多环节均可以受益于众包技术。比如,训练知识抽取模型时可以通过众包获取标注样本,从而构建有效的有监督抽取模型。

在知识图谱技术的引领下,各种各样的知识表示将在不损失质量的前提下逐步提升规模,从小规模的知识表示变成大规模的知识表示,最终应对大规模开放性给知识工程带来的巨大挑战。

AI科技大本营:谈谈您对知识图谱和图结构、深度学习结合的看法。

肖仰华:知识图谱本质上是一种语义网络,表达了各类实体、概念及其之间的语义关系。也就是说,它本身就具有图结构的性质。目前主要利用其图结构化的性质,用在知识图谱查询、存储等方面。

现阶段将深度学习技术应用于知识图谱的方法较为直接,大量的深度学习模型可以有效完成端到端的实体识别、关系抽取和关系补全等任务,进而可以用来构建或丰富知识图谱。

知识图谱在深度学习模型中的应用主要有两种方式。一是将知识图谱中的语义信息输入到深度学习模型中,将离散化知识图谱表达为连续化的向量,从而使得知识图谱的先验知识能够成为深度学习的输入;二是利用知识作为优化目标的约束,指导深度学习模型的学习;通常是将知识图谱中知识表达为优化目标的后验正则项。前者的研究工作已有不少文献,并成为当前研究热点,知识图谱向量表示作为重要的特征在问答以及推荐等实际任务中得到有效应用。后者的研究才刚刚起步。

但总体而言,当前的深度学习模型使用先验知识的手段仍然十分有限,学术界在这一方向的探索上仍然面临巨大的挑战。这些挑战主要体现在两个方面:(1)如何获取各类知识的高质量连续化表示;(2)如何在深度学习模型中融合常识知识。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    55

    文章

    11350

    浏览量

    110487
  • 机器学习
    +关注

    关注

    67

    文章

    8567

    浏览量

    137244
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    8358

原文标题:肖仰华:知识图谱落地,不止于“实现”

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    技术资讯 I 不是在选电源芯片,而是在选整个系统架构

    Q学校里学的电源拓扑,真的是工程中最常用的吗?在真实产品里,电源设计从来不是一道理论题,而是一个系统级决策问题。你在Digi‑Key上看到的,不是几十种芯片参数,而是不同电源架构,对系
    的头像 发表于 04-17 18:21 402次阅读
    技术资讯 I <b class='flag-5'>不是</b>在选电源芯片,<b class='flag-5'>而是</b>在选整个系统架构

    汽车ASPICE落地:企业高频常见问题深度汇总(下)

    。ASPICE的落地不是一次性的认证,而是帮助企业建立持续改进的研发体系,适配未来汽车软件的发展趋势,应对越来越严格的行业合规要求,让企业在行业转型浪潮中,构建长期的核心竞争力。 3.4 企业
    发表于 04-15 10:14

    汽车软件ASPICE落地全指南:企业高频常见问题深度汇总(上)

    。 5. 补充核心抉择点:能否实现“标准落地与业务适配”的平衡 优质的咨询机构,绝不会要求企业全盘推翻现有研发流程,而是基于企业的研发模式、团队规模、产品特性,做定制化的优化与适配,将ASPICE的要求融入
    发表于 04-14 10:39

    中小车企 ASPICE 落地实战:低成本高效能研发体系搭建

    test、Vector(测试执行)等中小车企易落地的主流工具,覆盖研发各核心环节; 管理场景维度,聚焦需求、基线、测试、变更、WBS、评审六大核心场景,为每个场景制定标准化流程,既实现研发工作规范化
    发表于 04-13 10:48

    工业 AI Agent 为什么能真正落地工厂?研六大场景实战经验分享

    从经验传承到决策优化,从设备维护到供应链协同,研iFactory.AI Agent的六大落地案例充分证明,工业AI Agent并非悬浮的技术概念,而是能深度适配制造业生产经营全链路、精准破解核心痛点的实用工具。
    的头像 发表于 03-12 16:58 425次阅读

    实力认证!行云创新入围《AI 中国生态图谱 2025》大模型开放平台板块

    了中国 AI 产业全链路生态布局,是洞察国内 AI 技术发展与产业落地的核心行业风向标。行云创新凭借在 AI 领域深厚的技术积淀、全栈产品能力及丰富的行业落地经验,成功 入围图谱第三层模型层・大模型开放平台板块 。 成立于 20
    的头像 发表于 03-04 14:25 358次阅读
    实力认证!行云创新入围《AI 中国生态<b class='flag-5'>图谱</b> 2025》大模型开放平台板块

    火山引擎破局Agent落地:生态够强,更要“硬”载体托底

    AI时代的落地竞争,从来不是“有好生态”就能赢,而是“有好生态+能落地”才能成——这是2025火山引擎FORCE原动力大会・冬传递的最实在信号。
    的头像 发表于 12-30 16:38 485次阅读

    润和软件入选大模型一体机产业图谱

    格局与创新力量。在本次图谱中,江苏润和软件股份有限公司(以下简称“润和软件”)以AI全栈技术能力与丰富的行业落地实践入选图谱,成为国产智能计算领域的重要力量。 润和软件入选《大模型一体
    的头像 发表于 12-10 17:56 1732次阅读
    润和软件入选大模型一体机产业<b class='flag-5'>图谱</b>

    芯星半导体研发总部落地与并购签约仪式成功举行

    2025年11月6日,深圳芯星半导体有限公司双喜临门——深圳芯星半导体有限公司与华强科技生态园研发总部落地签约仪式、深圳芯星半导体有限公司与深圳市东方聚成科技有限公司并购签约仪式
    的头像 发表于 11-10 15:42 974次阅读

    开源不是削弱竞争力,而是新护城河的开始

    。 越来越多的企业在开源的浪潮中找到了机会,也有人提出疑问: 既然代码都开源了,护城河还从哪里来?开源软件还有壁垒可言吗? 事实上,开源并不是没有护城河,它只是 把护城河从“技术代码”转移到了“综合能力” 。 一、开源不是免费的午餐,
    的头像 发表于 11-06 14:26 591次阅读

    全流程场景落地 在线测长仪多方位部署 满足各种检测需求

    在钢厂,不同的位置都有长度的检测需求,如剪切位置、钢坯位置、成品位置等,在不同的位置部署在线测长仪,保证测量精度,提升产品品质。 全流程场景落地:这些环节“吃劲”,管控效果明显 在线测长仪在钢铁生产
    发表于 11-04 14:23

    3D 工业相机避坑指南:从选型到落地,这几个坑别踩!

    3D 工业相机选型不是 “选参数最高的”,而是 “选最适配场景的”。从需求梳理到落地调试,每个环节都可能暗藏陷阱,避开厂商宣传盲区,尤其在精密测量、恶劣环境、高速检测等场景,优先选择该
    的头像 发表于 07-29 17:22 1386次阅读
    3D 工业相机避坑指南:从选型到<b class='flag-5'>落地</b>,这几个坑别踩!

    中软国际入选中国信通院AI Agent智能体产业图谱1.0

    近日,中国信息通信研究院(以下简称“中国信通院”)《AI Agent智能体产业图谱1.0》正式发布。该图谱是国内系统性梳理智能体产业生态的重要成果,聚焦“基础底座、智能体平台、场景智能体与行业智能体
    的头像 发表于 07-14 14:55 1837次阅读

    秋DFM支持KiCad PCB了

    的工具除了 KiCad、FreeCad、VS Code 之外,还有秋DFM(不是广告)。但就我而言,使用秋 DFM 最多的场景并不是 DFM 检查,
    的头像 发表于 05-23 11:16 3128次阅读
    <b class='flag-5'>华</b>秋DFM支持KiCad PCB了

    你失去工作不是因为AI,而是因为使用AI的人

    当算法能精准预测消费者需求时,当AI生成的文案比人类更懂传播心理学时,当自动化系统开始取代基础决策岗位时,真正的危机已悄然降临—— 不是AI在抢夺你的工作,而是那些比你更早掌握AI、更懂得如何驾驭
    的头像 发表于 05-13 12:05 999次阅读
    你失去工作<b class='flag-5'>不是</b>因为AI,<b class='flag-5'>而是</b>因为使用AI的人