0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无需管理底层基础设施,亚马逊云科技向量数据库轻松创建ML增强的搜索体验和应用程序

电子产品技术与应用 来源:科技新思路 作者:科技新思路 2023-11-15 11:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当我们进入一家图书馆时,图书馆的入口处会有几台电脑供你检索相关的书籍,你可以检索你想要的书籍的名字例如:《百年孤独》、《悲惨世界》等等,你也可以检索作者例如:川端康成、鲁迅、加缪等等,当然你也可以检索分类,例如:历史、哲学、文学等等,这就是传统的关系型数据库,检索这样简单关系的数据是没有任何问题的。但当你只能记起书里的某个章节或者人物的某个特征而想检索到这本书时,你就无能为力了,甚至我们可以把视野放的更大一点,你想检索一段音频或者一张偶然拍下的花朵时,传统的关系型数据库恐怕对这样的要求就捉襟见肘了,也正是基于解决这样问题的要求,向量数据库应运而生。

那么什么是向量数据库?它的原理是怎么样的?又为什么说未来是向量数据库的天下呢?

要想了解什么是向量数据库我们就必须得明白一个高中的数学知识:向量。在数学中,向量是有大小和方向的量,可以使用带箭头的线段表示,箭头指向即为向量的方向,线段的长度表示向量的大小。两个向量的距离或者相似性可以通过欧式距离、余弦距离等得到,这就是向量数据库运行的基本数学原理。

接下来就可以介入向量数据的元素了,前面举到的图书馆的示例只是将一群事物进行类别上标签的归类,但对于复杂的事物就难以简单地打标签了,而且想要进行更复杂的运算和检索过程就必须将一个具体的事物数据化。向量数据就是根据事物的各项特征进行向量得的赋予,例如我们想要在数据世界区别梅西和C罗,就可以从具体的特征出发比如身高、发色、鼻梁高低、眼睛大小、声音响度高低等等方面,赋予他们向量,就能发现两个人的区别。

而这种向量当赋予全球80多亿人时就会发现,每个人都不尽相同,而且给予向量的特征角度越多,那么数据就会越准确。这从数学理论方面建立了每个人的模型,利用这个模型,我们就能在二进制世界中建立另一个现实世界,这样我们就可以将一本小说、一首音乐、一段视频、一张照片数据化,这就是向量数据。

当我们想要检索某一事物时,只需要尽可能多的提供的某些特征,电脑就会将这些特征转化为向量,向量空间中会进行相似度计算和索引,而向量数据库可以实现高效的数据检索和分析,例如检索双胞胎中的某一个时,另一个就会最快出现。而当你检索一本小说中的某一桥段时,这本小说也会最快的被匹配到从而被检索出。

那么接下来就可以真正了解向量数据库了,向量数据库就是一种特殊类型的数据库,用于存储和索引向量数据。在传统数据库中,数据是以表格的形式进行组织和存储的,而向量数据库则专注于处理和查询向量数据,这些数据通常表示为多维数值数组。向量数据库的主要目的是支持高效的向量相似性搜索和查询。向量数据库广泛应用于人脸识别、图像搜索、视频分析、语音识别、推荐系统等领域。通过在向量空间中计算向量之间的距离和相似度,可以快速找到与目标向量最相似的数据对象,从而实现高效的搜索和匹配。值得注意的是,向量数据库主要适用于处理高维度的向量数据,而且在处理大规模数据集时通常能提供更高的查询性能和可扩展性。因此,在某些特定的应用场景下,向量数据库可以作为传统数据库的补充或替代选择。

之所以说未来是向量数据库的天下,是因为向量数据库让大模型有了"记忆"的功能,在初始的大语言模型中,世界知识和语义理解被压缩为静态参数,模型不会随着交互记住用户的聊天记录和喜好,也无法调用额外知识信息来辅助判断,因此模型只能根据历史训练数据回答问题,并且经常产生幻觉,给出与事实相悖的答案。也就是说大数据模型是一个计算力恐怖的大脑,但是这个大脑的记忆力奇差,而向量数据库就相当于给这个大脑装配上了海马体,让这个大脑真正的像人一样,能计算还能根据过去的记忆计算,从而使返回结果更精准,这也就是这几年AI科技发展速度奇快的原因之一。

2023年8月1日,亚马逊云科技推出了Amazon OpenSearch Serverless向量引擎预览版,为用户提供了一种简单、可扩展且高性能的相似性搜索功能,使用户能够轻松地创建现代化机器学习(ML)增强的搜索体验和生成式AI应用程序,同时无需管理底层的向量数据库基础设施。

那么Amazon OpenSearch Serverless向量引擎的优势又有哪些呢?

1、构建于Amazon OpenSearch Serverless的向量引擎天然具备鲁棒性(这个词挺抽象的,可以理解为系统更加稳健,性能更强)。因为亚马逊云科技向量引擎可自动调整资源,来适应不断变化的工作负载模式和需求,从而提供始终如一的快速性能和适当规模。用户也就不必担心后端基础设施的选型、调优和扩展问题。

2、Amazon OpenSearch Serverless向量引擎由开源OpenSearch项目中的k近邻(即kNN,可以理解为物以类聚算法,向量数据越接近越容易被检索)搜索功能提供支持,该功能能够提供可靠而精确的结果。简单来说,就是兼容了很多种算法,降低了复杂性,提升了可维护性,并且避免了数据重复、版本兼容性难题和许可问题,有效地简化了应用程序栈。

3、向量引擎支持不同领域的广泛用例,包括图像搜索、文档搜索、音乐检索、产品推荐、视频搜索、基于位置的搜索、欺诈检测以及异常检测。

在向量引擎正式版可用前,亚马逊云科技计划提供两项功能来降低客户使用向量引擎的成本。第一项功能是开发——测试选项,让用户可以在不创建备份或副本的情况下启动集合,从而减少了50%的入门成本。第二项功能是初始配置0.5个OCU资源,根据用户实际工作需要来扩展资源,这可以帮助用户进一步节约成本。除此之外,亚马逊云科技还将降低支持用户首个集合所需的最低OCU数量,从每小时4个降至每小时1个,以减少用户的成本支出。

总的来说,亚马逊云科技的向量引擎具有强大的性能和可扩展性,可以满足各种应用程序的需求。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    4082

    浏览量

    68538
  • ML
    ML
    +关注

    关注

    0

    文章

    154

    浏览量

    35526
  • 亚马逊
    +关注

    关注

    8

    文章

    2736

    浏览量

    85886
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瀚高数据库深度参编国家标准《信息技术 云原生关系数据库管理系统技术要求》正式发布

    济南2026年4月15日 /美通社/ -- 近日,国家市场监督管理总局、国家标准化管理委员会正式发布国家标准 GB/T 47343-2026《信息技术 云原生关系数据库管理系统技术要求
    的头像 发表于 04-15 16:41 336次阅读

    科技成功入选上海市数商企业培育 筑牢数据基础设施核心底座

    前言近日,科技(上海)有限公司顺利通过资质审核与专业评审,正式入选上海市数商企业培育,获评数据基础设施类入库企业。此次入选,是上海市
    的头像 发表于 04-03 13:24 1314次阅读
    <b class='flag-5'>云</b>边<b class='flag-5'>云</b>科技成功入选上海市数商企业培育<b class='flag-5'>库</b> 筑牢<b class='flag-5'>数据</b><b class='flag-5'>基础设施</b>核心底座

    生产环境数据库连接池耗尽的全流程排查与性能优化实战

    数据库连接池是应用程序数据库之间的缓存连接组件。连接池在应用程序启动时创建一组数据库连接,
    的头像 发表于 03-27 15:58 313次阅读

    KIOXIA单服务器实现48亿高维向量搜索数据库,借助GPU实现索引构建时间加速7.8倍

    向量数据库的索引构建时间是行业的核心痛点。Kioxia与NVIDIA合作,演示了其在1024维高维向量的KIOXIA AiSA
    的头像 发表于 03-18 16:57 1055次阅读

    Omdia:2025年第三季度,中国大陆基础设施市场加速增长24%

    2025 年第三季度,中国大陆基础设施服务市场延续回升态势,同比增长达 24%。随着企业逐步从早期 AI 试验阶段迈向规模化应用,AI 日益成为核心基础设施服务新增需求的主要驱动力
    的头像 发表于 02-14 20:12 1.1w次阅读

    恒讯科技解析:如何安装MySQL并创建数据库

    安装和管理MySQL不必复杂。只需几分钟,你就能在Linux服务器上搭建MySQL,创建第一个数据库,甚至自动化备份——同时确保数据安全有序。 什么是 MySQL  MySQL 是一个
    的头像 发表于 01-14 14:25 349次阅读

    亚马逊科技推出全新的Amazon AI Factories 将客户现有基础设施转化为高性能AI环境

    亚马逊科技在2025 re:Invent全球大会上,宣布推出全新的Amazon AI Factories,助力企业将现有基础设施转化为高性能的AI环境。
    的头像 发表于 12-13 13:44 844次阅读

    电磁环境数据库管理系统平台软件解析

    电磁环境数据库管理平台软件解析(精简版)
    的头像 发表于 09-15 21:00 468次阅读
    电磁环境<b class='flag-5'>数据库</b><b class='flag-5'>管理</b>系统平台软件解析

    亚马逊科技推出Amazon DocumentDB Serverless,简化数据库管理并大幅节省成本

    )的一种全新配置,能够根据应用程序需求自动扩展计算和内存资源。Amazon DocumentDB Serverless简化了数据库管理无需前期承诺,也不会产生额外成本,与为应对峰值负
    的头像 发表于 08-15 13:11 669次阅读

    远程访问内网MySQL数据库?这个方案更简单

    ,开发者和运维人员赶紧看过来! 为什么需要这样做? 远程办公必备:无需 VPN,在家或外出时也能轻松连接公司内网数据库 灵活开发测试:开发人员可远程连接本地数据库进行调试,提高协作效率
    的头像 发表于 07-04 18:06 1002次阅读
    远程访问内网MySQL<b class='flag-5'>数据库</b>?这个方案更简单

    milvus向量数据库的主要特性和应用场景

    Milvus 是一个开源的向量数据库,专门为处理和分析大规模向量数据而设计。它适用于需要高效存储、检索和管理
    的头像 发表于 07-04 11:36 1226次阅读
    milvus<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>的主要特性和应用场景

    数据库数据恢复—MongoDB数据库文件丢失的数据恢复案例

    将MongoDB数据库文件拷贝到其他分区,数据复制完成后将MongoDB数据库原先所在的分区进行了格式化操作。 结果发现拷贝过去的数据无法使用。
    的头像 发表于 07-01 11:13 778次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—MongoDB<b class='flag-5'>数据库</b>文件丢失的<b class='flag-5'>数据</b>恢复案例

    达梦数据库常用管理SQL命令详解

    达梦数据库常用管理SQL命令详解
    的头像 发表于 06-17 15:12 7634次阅读
    达梦<b class='flag-5'>数据库</b>常用<b class='flag-5'>管理</b>SQL命令详解

    HarmonyOS5服务技术分享--数据库使用指南

    ​​: 敏感数据启用字段级加密(如用户手机号)。 ? ​​总结​​ 华为数据库(CloudDB)让HarmonyOS应用的数据管理变得轻松
    发表于 05-22 18:29

    Redis 8 向量搜索实测:轻松扩展至 10 亿向量

    艾体宝Redis 8 向量搜索实测轻松支持 10 亿向量,仍保持低延迟与高吞吐。中位延迟仅200毫秒,90%精确度;处理50并发搜索请求中位
    的头像 发表于 05-13 14:00 899次阅读
    Redis 8 <b class='flag-5'>向量</b><b class='flag-5'>搜索</b>实测:<b class='flag-5'>轻松</b>扩展至 10 亿<b class='flag-5'>向量</b>