0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌用ML模型替代数据库组件,或彻底改变数据系统开发,机器学习将取代数据库搜索

DPVg_AI_era 2017-12-14 16:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本周,谷歌团队在arXiv上传了一篇论文,探讨用机器学习取代数据库索引,引发了大量的关注和讨论。作者还概述了如何使用这一思想来替换数据库系统的其他组件和操作,包括排序和连接。如果成功,数据系统的开发方式将会彻底改变。

“如果这项研究取得更多的成果,将来有一天我们很可能回过头看然后说,索引是最先倒下的,接着是其他的数据库组件(排序算法、查询优化、连接),它们都逐渐被神经网络取代。”纽约州立大学布法罗分校的计算机科学和工程教授Murat Demirbas这样说。

文章描述了一个非常有前景且十分有趣的方向,题目读来也颇有小说的感觉——“The Case for Learned Index Structures”。

这篇论文旨在证明“机器学习模型有潜力大幅超越当前最先进的数据库索引,提供好很多的性能”

斯坦福大学Chirs Manning教授发表Twitter,评论称谷歌团队这篇论文用机器学习替代传统算法,而且“一口吃掉一大块”

用神经网络学习数据分布,让索引“data-aware”

索引(Index),就是一种对数据库表中一列或多列的值进行排序的结构,使用索引可以快速访问数据库表中的特定信息。数据库的索引好比图书的目录,目录能让你在看书时不把整本书看完就快速找到需要的信息,索引也能让数据库程序迅速地找到表中的数据,而不必将整个数据库扫描完。

但是,数据库在应用索引时,对数据本身并不了解,数据相当于一个黑盒,而不了解数据的分布,造成了很大的浪费。

举例来说,如果键的范围在0到500m之间,比起用哈希,直接把键当索引速度可能更快。如果知道了数据的累积分布函数(CDF),“CDF*键*记录大小”可能约等于要查找的记录的位置,这一点也适用于其他数据分布的情况。

数据的累积分布函数(CDF)可以作为索引

作者在论文中表示,精确了解数据分布,可以大幅优化当前数据库系统使用的几乎所有索引结构。

但是,精确了解数据分布,数据库就成了“白盒”,失去了可重用性。这样一来就需要检查数据,每次都从头开始设计索引。

于是,谷歌研究人员想到了机器学习方法,并使用其中最强的一种——神经网络,去学习数据分布,并用学到的知识预测数据的分布。

这样一种折中的方法,让数据索引变得“data-aware”,由此获得性能的提升。

如果成功,数据库开发方式可能彻底改变

他们将神经网络应用于三种索引类型:B树,用于处理范围查询;哈希映射(Hash-map),用于点查找查询;以及Bloom-filter,用于设置包含检查。下面着重介绍一下作者如何用神经网络替代B树。

B树提供了一种有效的分层索引。从概念上讲,B-tree将一个键映射到一个页面。因此,我们可以用一个模型,也进行键的位置映射,而对于错误范围,我们可以做一个二进制搜索(或扩展环搜索)的变体来定位页面。

要知道min_error和max-error,就用拥有的数据来训练模型。数据是静态的,神经网络进行预测,然后从这些错误中学习。即使简单的逻辑回归也可以用于简单的分布。

在测试时,作者将机器学习索引与B树进行比较,他们使用了3个真实世界数据集,其中网络日志数据集(Weblogs)对索引而言极具挑战性,包含了200多万个日志条目,是很多年的大学网站的请求,而且每个请求都有单一的时间戳,数据中含有非常复杂的时间模式,包括课程安排、周末、假期、午餐休息、部门活动、学期休息,这些都是非常难以学习的。

从上图可见,对于网络日志数据,机器学习索引带来的速度提升最高达到了53%,对应的体积也有76%的缩小,相比之下误差范围稍有加大。

用机器学习模型替换B树的好处是:

  • 索引结构更小:更少的主内存或L1缓存

  • 查找速度更快:因为索引变小了

  • 更强的并行性(TPU),而不是B-树中的分层if语句

这里有一个关键点,那就是用计算换内存,计算越来越便宜,CPU-SIMD/GPU/TPU的功能越来越强大,作者甚至指出,“运行神经网络的高昂成本在未来可以忽略不计——谷歌TPU能够在一个周期内最高完成上万次神经网络运算。有人声称,到2025年CPU的性能将提高1000倍,基于摩尔定律的CPU在本质上将不复存在。利用神经网络取代分支重索引结构,数据库可以从这些硬件的发展趋势中受益。

论文还介绍了几个策略来提高机器学习索引的性能,包括使用递归模型索引、分层模型和混合模型。机器学习方法都带来了能效提升,具体的评估结果请参考论文。

需要指出,作者并不认为机器学习索引结构可以完全替代传统索引。“我们论述了一种建立索引的新方法,它完善了现有的研究,并且为该领域数十年的研究开辟了一个新方向。”

作者还概述了如何使用这一思想来替换数据库系统的其他组件和操作,包括排序和连接。如果成功,数据系统的开发方式将会彻底改变。

论文:The Case for Learned Index Structures

摘要

索引就是模型:B-Tree-Index可以被看作一个将键(key)映射到排序数组中记录位置的模型,哈希索引可以被看作将键映射到未分类数组中记录位置的模型,而BitMap-Index可以被看作查看数据记录是否存在的模型。

在这篇探索性研究论文中,我们从这个前提出发,假设所有现有的索引结构都可以用其他类型的模型来代替,包括深度学习模型,也即文中所谓的“机器学习索引”(learned indexes)。

本文关键思想是,一个模型可以学习排序顺序或查找键的结构,并使用这个信号来有效预测记录的位置或记录是否存在。我们从理论上分析了在哪些条件下机器学习索引的性能优于传统索引结构,描述了设计机器学习索引的主要挑战。

我们在几个真实世界的数据集上做了测试,初步结果表明,通过使用神经网络,我们在速度上能比缓存优化的B树快70%,同时内存节省了一个数量级。更重要的是,我们相信用机器学习模型取代数据管理系统核心组件的想法,对未来的系统设计有着深远的影响,这项工作仅仅展现了未来无限可能的一瞥。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6257

    浏览量

    111945
  • 数据库
    +关注

    关注

    7

    文章

    4081

    浏览量

    68524
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208

原文标题:【机器学习吃掉算法】谷歌用ML模型替代数据库组件,或彻底改变数据系统开发

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Oracle数据库ASM实例无法挂载的数据恢复案例

    一个Oracle数据库故障表现为ASM磁盘组掉线,ASM实例无法挂载(mount)。数据库管理员自行进行简单修复,未能成功,随后联系北亚数据恢复中心恢复数据
    的头像 发表于 02-24 15:19 187次阅读
    Oracle<b class='flag-5'>数据库</b>ASM实例无法挂载的<b class='flag-5'>数据</b>恢复案例

    艾体宝干货 | 多模型数据库解决的到底是什么问题?

    了其设计的核心初衷。要精准理解多模型数据库,需先跳出“功能误区”,回归问题本质:企业系统数据库复杂度,究竟源于何处? 系统变复杂,往往不只
    的头像 发表于 02-03 16:08 395次阅读

    恒讯科技解析:如何安装MySQL并创建数据库

    管理系统(RDBMS),使用结构化查询语言(SQL)高效地组织和管理数据。它是全球最受欢迎的开源数据库系统之一,广泛应用于网页开发、电子商务和商业应用。 常见
    的头像 发表于 01-14 14:25 331次阅读

    OpenTenBase核心贡献者分享开源数据库的破局之路

    “在开源数据库已成一片‘红海’的当下,单纯比拼‘快’‘省’,已很难在开发者心中建立独特的护城河。”OpenTenBase核心贡献者、腾讯云数据库专家工程师李晋钢这样阐述他对当前
    的头像 发表于 12-29 14:00 532次阅读

    2025开放原子开发者大会AI时代数据库创新实践分论坛成功举办

    11月21日,2025开放原子开发者大会——AI时代数据库创新实践分论坛成功举办。论坛以“构建AI时代智能数据底座”为核心主题,汇聚OpenTenBase、Apache Doris、KWDB
    的头像 发表于 11-27 14:56 706次阅读

    国产数据库的AI战事

    国产数据库硝烟再起,Vastbase V100构筑企业智能基座
    的头像 发表于 10-24 20:45 4358次阅读
    国产<b class='flag-5'>数据库</b>的AI战事

    mysql数据恢复—mysql数据库表被truncate的数据恢复案例

    某云ECS网站服务器,linux操作系统,部署了mysql数据库。工作人员在执行数据库版本更新测试时,错误地本应在测试执行的sql脚本在
    的头像 发表于 09-11 09:28 1169次阅读
    mysql<b class='flag-5'>数据</b>恢复—mysql<b class='flag-5'>数据库</b>表被truncate的<b class='flag-5'>数据</b>恢复案例

    数据库性能优化指南

    作为一名在大厂摸爬滚打多年的运维老兵,我见过太多因为数据库性能问题导致的生产事故。今天分享一套完整的数据库优化方法论,从SQL层面到硬件配置,帮你彻底解决性能瓶颈!
    的头像 发表于 08-18 11:21 880次阅读

    数据库数据恢复—服务器异常断电导致Oracle数据库故障的数据恢复案例

    Oracle数据库故障: 某公司一台服务器上部署Oracle数据库。服务器意外断电导致数据库报错,报错内容为“system01.dbf需要更多的恢复来保持一致性”。该Oracle数据库
    的头像 发表于 07-24 11:12 832次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—服务器异常断电导致Oracle<b class='flag-5'>数据库</b>故障的<b class='flag-5'>数据</b>恢复案例

    三款主流国产数据库的技术特点

    随着数字经济的快速发展和数据安全要求的提升,国产数据库正迎来前所未有的发展机遇。在信创浪潮推动下,达梦数据库、TiDB、华为高斯数据库等国产数据库
    的头像 发表于 07-14 11:08 1322次阅读

    数据库数据恢复—MongoDB数据库文件丢失的数据恢复案例

    MongoDB数据库数据恢复环境: 一台操作系统为Windows Server的虚拟机上部署MongoDB数据库。 MongoDB数据库
    的头像 发表于 07-01 11:13 770次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—MongoDB<b class='flag-5'>数据库</b>文件丢失的<b class='flag-5'>数据</b>恢复案例

    数据库数据恢复—SQL Server数据库被加密如何恢复数据

    SQL Server数据库故障: SQL Server数据库被加密,无法使用。 数据库MDF、LDF、log日志文件名字被篡改。
    的头像 发表于 06-25 13:54 826次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—SQL Server<b class='flag-5'>数据库</b>被加密如何恢复<b class='flag-5'>数据</b>?

    oracle数据恢复—oracle数据库误执行错误truncate命令如何恢复数据

    oracle数据库误执行truncate命令导致数据丢失是一种常见情况。通常情况下,oracle数据库误操作删除数据只需要通过备份恢复数据
    的头像 发表于 06-05 16:01 1727次阅读
    oracle<b class='flag-5'>数据</b>恢复—oracle<b class='flag-5'>数据库</b>误执行错误truncate命令如何恢复<b class='flag-5'>数据</b>?

    SQLSERVER数据库是什么

    SQL Server 是由微软公司开发的一款 关系型数据库管理系统(RDBMS) ,用于存储、管理和检索结构化数据。它是企业级应用中广泛使用的数据库
    的头像 发表于 05-26 09:19 1292次阅读

    MySQL数据库是什么

    开发、企业应用和大数据场景。以下是其核心特性和应用场景的详细说明: 核心特性 关系型数据库模型 数据以 表(Table) 形式组织,表由行(
    的头像 发表于 05-23 09:18 1422次阅读