0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无需管理底层基础设施,亚马逊云科技向量数据库轻松创建ML增强的搜索体验和应用程序

科技新思路 来源:科技新思路 作者:科技新思路 2023-11-15 11:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当我们进入一家图书馆时,图书馆的入口处会有几台电脑供你检索相关的书籍,你可以检索你想要的书籍的名字例如:《百年孤独》、《悲惨世界》等等,你也可以检索作者例如:川端康成、鲁迅、加缪等等,当然你也可以检索分类,例如:历史、哲学、文学等等,这就是传统的关系型数据库,检索这样简单关系的数据是没有任何问题的。但当你只能记起书里的某个章节或者人物的某个特征而想检索到这本书时,你就无能为力了,甚至我们可以把视野放的更大一点,你想检索一段音频或者一张偶然拍下的花朵时,传统的关系型数据库恐怕对这样的要求就捉襟见肘了,也正是基于解决这样问题的要求,向量数据库应运而生。

那么什么是向量数据库?它的原理是怎么样的?又为什么说未来是向量数据库的天下呢?

要想了解什么是向量数据库我们就必须得明白一个高中的数学知识:向量。在数学中,向量是有大小和方向的量,可以使用带箭头的线段表示,箭头指向即为向量的方向,线段的长度表示向量的大小。两个向量的距离或者相似性可以通过欧式距离、余弦距离等得到,这就是向量数据库运行的基本数学原理。

接下来就可以介入向量数据的元素了,前面举到的图书馆的示例只是将一群事物进行类别上标签的归类,但对于复杂的事物就难以简单地打标签了,而且想要进行更复杂的运算和检索过程就必须将一个具体的事物数据化。向量数据就是根据事物的各项特征进行向量得的赋予,例如我们想要在数据世界区别梅西和C罗,就可以从具体的特征出发比如身高、发色、鼻梁高低、眼睛大小、声音响度高低等等方面,赋予他们向量,就能发现两个人的区别。

而这种向量当赋予全球80多亿人时就会发现,每个人都不尽相同,而且给予向量的特征角度越多,那么数据就会越准确。这从数学理论方面建立了每个人的模型,利用这个模型,我们就能在二进制世界中建立另一个现实世界,这样我们就可以将一本小说、一首音乐、一段视频、一张照片数据化,这就是向量数据。

当我们想要检索某一事物时,只需要尽可能多的提供的某些特征,电脑就会将这些特征转化为向量,向量空间中会进行相似度计算和索引,而向量数据库可以实现高效的数据检索和分析,例如检索双胞胎中的某一个时,另一个就会最快出现。而当你检索一本小说中的某一桥段时,这本小说也会最快的被匹配到从而被检索出。

那么接下来就可以真正了解向量数据库了,向量数据库就是一种特殊类型的数据库,用于存储和索引向量数据。在传统数据库中,数据是以表格的形式进行组织和存储的,而向量数据库则专注于处理和查询向量数据,这些数据通常表示为多维数值数组。向量数据库的主要目的是支持高效的向量相似性搜索和查询。向量数据库广泛应用于人脸识别、图像搜索、视频分析、语音识别、推荐系统等领域。通过在向量空间中计算向量之间的距离和相似度,可以快速找到与目标向量最相似的数据对象,从而实现高效的搜索和匹配。值得注意的是,向量数据库主要适用于处理高维度的向量数据,而且在处理大规模数据集时通常能提供更高的查询性能和可扩展性。因此,在某些特定的应用场景下,向量数据库可以作为传统数据库的补充或替代选择。

之所以说未来是向量数据库的天下,是因为向量数据库让大模型有了"记忆"的功能,在初始的大语言模型中,世界知识和语义理解被压缩为静态参数,模型不会随着交互记住用户的聊天记录和喜好,也无法调用额外知识信息来辅助判断,因此模型只能根据历史训练数据回答问题,并且经常产生幻觉,给出与事实相悖的答案。也就是说大数据模型是一个计算力恐怖的大脑,但是这个大脑的记忆力奇差,而向量数据库就相当于给这个大脑装配上了海马体,让这个大脑真正的像人一样,能计算还能根据过去的记忆计算,从而使返回结果更精准,这也就是这几年AI科技发展速度奇快的原因之一。

2023年8月1日,亚马逊云科技推出了Amazon OpenSearch Serverless向量引擎预览版,为用户提供了一种简单、可扩展且高性能的相似性搜索功能,使用户能够轻松地创建现代化机器学习(ML)增强的搜索体验和生成式AI应用程序,同时无需管理底层的向量数据库基础设施。

那么Amazon OpenSearch Serverless向量引擎的优势又有哪些呢?

1、构建于Amazon OpenSearch Serverless的向量引擎天然具备鲁棒性(这个词挺抽象的,可以理解为系统更加稳健,性能更强)。因为亚马逊云科技向量引擎可自动调整资源,来适应不断变化的工作负载模式和需求,从而提供始终如一的快速性能和适当规模。用户也就不必担心后端基础设施的选型、调优和扩展问题。

2、Amazon OpenSearch Serverless向量引擎由开源OpenSearch项目中的k近邻(即kNN,可以理解为物以类聚算法,向量数据越接近越容易被检索)搜索功能提供支持,该功能能够提供可靠而精确的结果。简单来说,就是兼容了很多种算法,降低了复杂性,提升了可维护性,并且避免了数据重复、版本兼容性难题和许可问题,有效地简化了应用程序栈。

3、向量引擎支持不同领域的广泛用例,包括图像搜索、文档搜索、音乐检索、产品推荐、视频搜索、基于位置的搜索、欺诈检测以及异常检测。

在向量引擎正式版可用前,亚马逊云科技计划提供两项功能来降低客户使用向量引擎的成本。第一项功能是开发——测试选项,让用户可以在不创建备份或副本的情况下启动集合,从而减少了50%的入门成本。第二项功能是初始配置0.5个OCU资源,根据用户实际工作需要来扩展资源,这可以帮助用户进一步节约成本。除此之外,亚马逊云科技还将降低支持用户首个集合所需的最低OCU数量,从每小时4个降至每小时1个,以减少用户的成本支出。

总的来说,亚马逊云科技的向量引擎具有强大的性能和可扩展性,可以满足各种应用程序的需求。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    3993

    浏览量

    67742
  • ML
    ML
    +关注

    关注

    0

    文章

    154

    浏览量

    35394
  • 亚马逊
    +关注

    关注

    8

    文章

    2722

    浏览量

    85442
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊科技推出Amazon DocumentDB Serverless,简化数据库管理并大幅节省成本

    )的一种全新配置,能够根据应用程序需求自动扩展计算和内存资源。Amazon DocumentDB Serverless简化了数据库管理无需前期承诺,也不会产生额外成本,与为应对峰值负
    的头像 发表于 08-15 13:11 428次阅读

    milvus向量数据库的主要特性和应用场景

    Milvus 是一个开源的向量数据库,专门为处理和分析大规模向量数据而设计。它适用于需要高效存储、检索和管理
    的头像 发表于 07-04 11:36 741次阅读
    milvus<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>的主要特性和应用场景

    HarmonyOS5服务技术分享--数据库使用指南

    ​​: 敏感数据启用字段级加密(如用户手机号)。 ? ​​总结​​ 华为数据库(CloudDB)让HarmonyOS应用的数据管理变得轻松
    发表于 05-22 18:29

    Redis 8 向量搜索实测:轻松扩展至 10 亿向量

    艾体宝Redis 8 向量搜索实测轻松支持 10 亿向量,仍保持低延迟与高吞吐。中位延迟仅200毫秒,90%精确度;处理50并发搜索请求中位
    的头像 发表于 05-13 14:00 566次阅读
    Redis 8 <b class='flag-5'>向量</b><b class='flag-5'>搜索</b>实测:<b class='flag-5'>轻松</b>扩展至 10 亿<b class='flag-5'>向量</b>

    PoE交换机如何助力智慧城市基础设施建设?

    简化部署流程,降低基础设施成本。借助PoE交换机,城市规划者和网络管理员可以在高效位置部署设备,而无需受到电源插座可用性的限制。 PoE 交换机在智慧城市基础设施中的作用 简化安
    发表于 03-25 10:20

    从Delphi、C++ Builder和Lazarus连接到MySQL数据库

    平台。 基于 MyDAC 的应用程序可以直接连接到 MySQL 服务器或通过 MySQL 客户端工作。MySQL 数据访问组件旨在帮助程序员更快、更
    的头像 发表于 01-20 13:47 1329次阅读
    从Delphi、C++ Builder和Lazarus连接到MySQL<b class='flag-5'>数据库</b>

    适用于MySQL和MariaDB的Python连接器:可靠的MySQL数据连接器和数据库

    和 MariaDB 数据库服务器以及托管数据库服务,以对存储的数据执行创建、读取、更新和删除操作。该解决方案完全实现了 Python DB API 2.0 规范,并作为 Window
    的头像 发表于 01-17 12:18 847次阅读
    适用于MySQL和MariaDB的Python连接器:可靠的MySQL<b class='flag-5'>数据</b>连接器和<b class='flag-5'>数据库</b>

    数据库要购买服务器吗?答案在这里

    数据库通常无需用户购买服务器,由提供商负责底层硬件维护。用户可通过Web界面或API配置和管理数据库
    的头像 发表于 01-17 09:55 533次阅读

    避坑指南:服务器数据库购买方法全攻略

    服务器数据库购买方法包含:先明确业务需求与数据库类型,再挑选信誉好、技术支持强的服务提供商,接着根据需求配置数据库实例及选择付费方式。购
    的头像 发表于 01-15 10:05 795次阅读

    分布式数据库有哪些类型

    分布式数据库有哪些类型?分布式数据库主要类型包括:关系型分布式数据库、非关系型分布式数据库
    的头像 发表于 01-15 09:43 879次阅读

    MySQL数据库的安装

    MySQL是一个开源免费的关系型数据库管理系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下公司。 MySQL 最流行的关系型数据库管理系统,在 WEB 应用方面M
    的头像 发表于 01-14 11:25 865次阅读
    MySQL<b class='flag-5'>数据库</b>的安装

    数据库是哪种数据库类型?

    数据库是一种部署在虚拟计算环境中的数据库,它融合了计算的弹性和可扩展性,为用户提供高效、灵活的数据库服务。
    的头像 发表于 01-07 10:22 806次阅读

    Looker Studio连接器:一个连接器从多个数据库应用获取数据

    本地数据连接器 通过 Skyvia Agent 应用程序轻松将 Looker Studio(前身为 Google Data Studio)连接到本地数据库
    的头像 发表于 01-03 09:07 944次阅读
    Looker Studio连接器:一个连接器从多个<b class='flag-5'>数据库</b>和<b class='flag-5'>云</b>应用获取<b class='flag-5'>数据</b>

    华为荣登Gartner®数据库挑战者象限

    近日,全球知名的信息技术研究与顾问公司Gartner®正式发布了其备受瞩目的2024年度《数据库管理系统魔力象限报告》。在这份权威报告中,华为凭借其卓越的表现成功入选挑战者象限,彰
    的头像 发表于 12-31 13:57 824次阅读

    超级应用程序Grab选择亚马逊科技为首选服务商

    推动技术创新与业务增长 北京2024年12月19日 /美通社/ -- 在亚马逊科技2024 re:Invent全球大会上,亚马逊科技与东南亚领先的超级
    的头像 发表于 12-19 15:31 854次阅读