0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研究者最近仔细估算了各种知识图谱每创建一条记录所需要的成本

MqC7_CAAI_1981 来源:lq 2019-02-18 16:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我们知道强大的深度模型需要很多计算力,那你知道创建一个知识图谱的成本到底是多少吗?德国 Mannheim 大学的研究者最近仔细估算了各种知识图谱每创建一条记录所需要的成本,他们表示对于大型知识图谱,手动创建一个三元组(即一条记录)的成本在 2 到 6 美元之间,总成本在数百万到数十亿美元之间。

知识图谱广泛用于各种领域,它的统计信息也常被分析。但有一个问题一直缺乏研究:产出价格是多少?在此论文中,研究者提出了一种方法预估知识图谱的成本。他们表示手动创建一个三元组(triple)的成本大约在 2 到 6 美元左右,而自动创建知识图谱的成本要降低 15 到 250 倍(即一个三元组 1 美分到 15 美分)。

注意其中 15 美分每条的「自动化」知识图谱还是需要大量人力进行数据的验证。此外,作者表示成本也应该作为知识图谱的评价标准,例如可以使用每个三元组的成本或其他更优的度量方法。

论文:How much is a Triple? Estimating the Cost of Knowledge Graph Creation

论文地址:http://ceur-ws.org/Vol-2180/ISWC_2018_Outrageous_Ideas_paper_10.pdf

估计知识图谱的成本

随着知识图谱的广泛应用,我们越来越关注大型知识图谱,例如 DBpedia、YAGO 等。我们已经有很多方法从各种角度检查这些大型知识图谱,例如大小、覆盖度和质量等。然而这些分析不足的地方在于成本,即创建知识图谱的价格。

人工创建:Cyc 和 Freebase

对于人工创建的知识图谱,我们必须评估提供这些陈述语句(statement)的工作量,从而估计平均成本。

Cyc 是最早的通用知识图谱之一,同时它的开发成本也能公开获得。在 2017 年的一项会议中,Cyc 的创建者 Douglas Lenat 表示:构建 Cyc 的成本为 1.2 亿美元。在同一个 PPT 中,Lenat 表示 Cyc 一共有 21M 断言(assertion),因此每条陈述语句或断言需要 5.71 美元。若 1000 人有一年的时间完成,则每人每 9.5 分钟需要完成一条断言。

Freebase 是由志愿者共同完成的,因此其工作量更难判断。截止至 2011 年 4 月份,创建英文维基百科的估计时长为 41M 工时。同时维基百科包含 3.6M 的页面,平均每一个页面 36.4 个句子,因此换算下来每一条语句需要 18.7 分钟。由于大多数维基百科条目都是由美国构建的,我们可以使用每小时 7.25 美元的美国联邦最低工资作为人工成本估算,因此每一句的成本可以换算为 2.25 美元。借鉴这个成本,我们可以假设 Freebase 每一条陈述语句的成本也是 2.25 美元。

这比 Cyc 的平均成本低了一半,这种低成本也是合理的,因为 Cyc 是由人类专家构建的,而 Freebase 由非专业人员创建。总的而言,对于包含 30 亿事实(fact)的最新版 Freebase,它的总成本约为 67.5 亿美元($6.75B)。

自动创建: DBpedia、YAGO 和 NELL

评估自动创建知识图谱所花费成本不同于人工创建知识图谱。我们参考了用于创建知识图谱的软件,基于代码行数(LOC)来估计开发知识图谱的成本。我们遵循 [2] 中的分析,即一个软件生成项目平均每小时生产 37 行代码(LOC)。

DBpedia 主要是基于 DBpedia 提取框架从维基百科 Dump 得到的,它通过映射中心实体而创建知识图谱。DBpedia 两部分需要 4.9M 和 2.2M LOC,它需要的总开发成本为 510 万美元。鉴于英语 DBpedia[11] 共有 400M 陈述语句,每一条成本约为 1.85 美分。相比于人工搭建的知识图谱(每一条 2.25 美元),自动搭建的要节省百倍的成本。

YAGO 也是一种知识图谱,它将维基百科提取的知识与 WordNet[7] 相结合。为了公平比较,它的成本应该包含 WordNet 的搭建费用。YAGO 代码库有 1.6M LOC(包括将信息框映射到本体的规则),因此它的总体成本为 160 万美元。此外,WordNet 本身还包含了 117k 个同义词集,每一个包含一条注释。我们估计定义一个同义词集的成本与构建一个维基百科页面的成本相近,即最高 1000 万美元。若 YAGO 有 14 亿条陈述语句 [11],那么每一条的成本为 0.83 美分。相比人工搭建,它的成本要节省 250 倍。

NELL 是一个学习关系抽取 [8] 模式的系统,其核心技术包含 103k 的 LOC,预估开发成本为 10.9 万美元。此外,该数据集每月还需要人工校验 1467 条陈述语句。假设人工校验一条陈述语句的成本和创建成本一样,那么总的校验成本为 37.6 万美元,即通成本为 48.5 美元。因此换算下来,NELL 每条陈述语句的成本为 14.25 美分,即比手动搭建便宜 16 倍。

新的评估标准

把成本作为创建知识图谱的一种测量方法也能为其他评估方法铺平道路。例如,可以通过成本查验为知识图谱补充缺失信息提供新方法 [9]:一个人一年半开发知识图谱应该可以添加 2800 条陈述语句,这应该是人力手动产出的三元组数量。

另一个有趣的思路是开发成本与数据质量之间的关系。在图 1 中,我们图像描述了该论文讨论的知识图谱中每个三元组成本与错误率之间的关系。我们可以看到,高成本创建的三元组准确率也会更高,NELL 是个例外,准确率与成本之间关系极差。

每个三元组成本与错误率之间的关系展示图。

总结

在这篇论文中,我们大体估计了创建一个流行的知识图谱所花费的成本,这也是当前研究忽视的一个方面。我们量化了自动创建知识图谱相比于手动方法的收益,并提出使用成本定义新型的评价标准,例如权衡成本与准确率。

有研究者反馈,我们也意识到有很多假设或估计在计算中都存在着问题(例如,我们没有考虑第三方库或基础设施的成本)。其次,知识图谱的来源或数据成本当前也没有考虑在内。然而,我们相信:知识图谱自身带来的价值将远超过各种构建成本的总和。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7364

    浏览量

    95162
  • 自动化
    +关注

    关注

    31

    文章

    6019

    浏览量

    90852
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    8373

原文标题:67 亿美金搞个图,创建知识图谱的成本有多高你知道吗?

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    s32k146 基于MBDT在同一条SPI总线配置多个SPI从设备,SIMULINK报错为什么

    自开发个控制器,用的MCU为S32K146三SPI总线都挂了多个SPI从设备。同一条SPI设备,存在每个从设备的时钟极性,相位,位宽不致。这种情形在SIMULINK中根据不同的S
    发表于 05-20 06:13

    行业洞察篇__数字孪生IOC的“智能体”时刻:智慧城市公共服务的演进逻辑

    问题,这是系统设计问题——人类被放在了不擅长的高压并行处理位置上。另一条路径则不同,它引入智能体+知识图谱与多模型集成。在这个新架构里,当水位传感器数据发生变化时,个负责“水情监控”的智能体会立刻
    发表于 05-14 09:52

    【米尔TI AM62L开发板试用】+数据库操作及功能测试

    的是,这个轻量级的数据库竟然支持中文信息处理。 图2 创建数据库 (3)删除记录 删除记录的操作如图3所示,在完成记录删除后,可见到只有一条
    发表于 05-11 11:31

    还在抢信道?Wi-Fi 6E直接给你一条“专属高速路”

    Wi-Fi6E的核心,不在“更快”,而在多了一条全新的6GHz频段。简单理解:以前是两高速路(2.4GHz/5GHz)现在,直接多了一条“几乎没人走的超级高速路”。结果:
    的头像 发表于 04-29 18:03 409次阅读
    还在抢信道?Wi-Fi 6E直接给你<b class='flag-5'>一条</b>“专属高速路”

    翼辉信息工信部“一条龙”应用计划项目成功验收

    近日,翼辉信息牵头承担的工业和信息化部重点产品、工艺“一条龙”应用计划项目顺利通过验收。这标志着我国工业实时操作系统在关键核心技术自主可控及规模化应用方面取得重要进展。
    的头像 发表于 04-28 16:08 314次阅读
    翼辉信息工信部“<b class='flag-5'>一条</b>龙”应用计划项目成功验收

    金航标电子便扎根在深圳市华强北,在华强北理论研究专家华强北文化研究者宋仕强先生带领下...

    早在2007年,金航标电子便扎根在深圳市华强北,在华强北理论研究专家华强北文化研究者宋仕强先生带领下,近20年来金航标深耕无线信号收发、电子连接器及信号互连系统领域,打造“kinghelm”品牌,并
    发表于 03-14 11:24

    惠州雷曼入选国家知识产权示范企业创建对象

    近日,国家知识产权局正式公布了2025-2027年度国家知识产权强国建设示范创建对象名单。雷曼光电全资子公司——惠州雷曼,凭借其在知识产权创造、运用、保护和管理方面的体系化优势,成功入
    的头像 发表于 03-03 16:36 1151次阅读

    罗莱迪思入选国家知识产权示范企业创建对象

    公司在自主创新与知识产权体系建设方面跻身先进行列,在数智化转型赋能高质量发展的道路上迎来新的里程碑。国家知识产权示范企业创建对象评选,旨在遴选
    的头像 发表于 01-27 16:06 1008次阅读
    罗莱迪思入选国家<b class='flag-5'>知识</b>产权示范企业<b class='flag-5'>创建</b>对象

    芯原入选国家知识产权示范企业创建对象

    1月12日,国家知识产权局公示了“2025-2027年国家知识产权强国建设示范创建对象”的评审结果,芯原微电子 (上海) 股份有限公司凭借其在知识产权创造、运用、管理和保护方面的扎实基
    的头像 发表于 01-27 15:28 410次阅读

    润和软件入选大模型体机产业图谱

    近日,由中国人工智能产业发展联盟与中国信息通信研究院联合编制的《大模型体机产业图谱》正式发布。该图谱系统梳理并收录了国内大模型体机产业链
    的头像 发表于 12-10 17:56 1802次阅读
    润和软件入选大模型<b class='flag-5'>一</b>体机产业<b class='flag-5'>图谱</b>

    如何估算焊锡膏的印刷量?

    估算焊锡膏的印刷量是表面贴装技术(SMT)中的关键环节,直接影响焊接质量和成本。以下是分步骤的估算方法及关键注意事项:
    的头像 发表于 11-26 09:06 1067次阅读
    如何<b class='flag-5'>估算</b>焊锡膏的印刷量?

    万字长文AI智能体:17种体架构详细实现

    数据科学AI智能体领域发展迅猛,但许多资源仍然过于抽象和理论化。创建此项目的目的是为开发研究人员和AI爱好提供一条结构化、实用且深入的
    的头像 发表于 11-07 13:16 847次阅读
    万字长文AI智能体:17种体架构详细实现

    如何创建个浮点立即数

    32位的常量,包括32位的立即数或内存地址。有些情况下只需要一条I-type指令,或者一条U-type指令就可以了。 例如加载常量0x12345678: lui x15,0x12345 # 首先加载
    发表于 10-21 13:51

    从材质到结构:一条优质HDMI线背后的技术讲究

    因素——材质与结构设计。今天,我们将深入探讨一条优质HDMI线背后的技术讲究,帮助您做出更加明智的选择。 、导体材料:信号传输的基础 HDMI线的导体材料直接关系到信号传输的质量和稳定性。优质的导体材料能够有效降低电阻,减少信
    的头像 发表于 07-09 17:59 1402次阅读

    如何在Unified IDE中创建视觉库HLS组件

    组件开始,该组件可以导出为 XO 文件用于 Vitis 系统工程;这与“自上而下的流程”相反,后者从 Vitis 工程开始,然后将 HLS 组件导入该工程。我们将创建视觉库示例“remap”,并在 Unified IDE 中执行
    的头像 发表于 07-02 10:55 1752次阅读
    如何在Unified IDE中<b class='flag-5'>创建</b>视觉库HLS组件