0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软公司如何应对用户搜索习惯的改变?

电子工程师 来源:YXQ 2019-05-17 16:28 次阅读

随着互联网的普及,搜索成为人们最常用的基本功能之一,但这背后的秘密是什么呢?近日,微软公司介绍了他们是其如何应对用户搜索习惯的改变,并开源了支撑 Bing 搜索背后的算法

搜索需求的改变

以前的网页搜索功能十分简单,用户输入几个词,就会返回一系列相应的结果页面。如今,这些用户可能会用手机拍照并将其放入搜索框或使用智能助手来提问,并不需要亲自触摸设备。他们可能会直接输入一个问题,并期待一个对应的回复,而不仅仅是给出多个可能答案的网页列表。

搜索需求的改变对于以往基于索引系统,依赖关键字匹配给出搜索结果的传统搜索引擎是一个挑战。

“关键词搜索算法会在人们提出问题或拍照并询问搜索系统'这是什么?' 时失效”,微软 Bing 搜索和 AI 团队的项目经理 Rangan Majumder 说到。

当然,紧跟用户的搜索偏好并不是新鲜事,自从网络搜索功能出现以来,这一直是一场博弈。但现在,由于人工智能的发展,包括微软在人工智能方向取得进步,越来越容易满足这些不断变化的需求。

“人工智能正在使我们的产品更加符合人的思考习惯,”Majumder 说, “但在以前人们不得不思考,'当我使用计算机进行搜索时,如何输入才能得到自己想要的结果?'”

微软已经制作完成了最先进的人工智能工具之一,并已经在 GitHub 上开源,它还将通过微软的 AI 实验室发布这些工具的用户示例技术和介绍视频

这种被称为空间分治树与图(Space Partition Tree And Graph, SPTAG)的算法,允许用户利用深度学习模型来在毫秒内搜索数十亿条信息(或称矢量)。反过来,这意味着他们可以更快地向用户提供更匹配的结果。

矢量搜索相较于关键字搜索,可以更容易的按照内容得到搜索结果。例如,如果用户键入“巴黎铁塔有多高?”Bing 可以返回一个自然语言结果告诉用户艾菲尔铁塔是 1,063 英尺,即使“搜索查询”中没有出现“Eiffel”这个词,而“tall”这个词也不会出现在结果中。

微软将矢量搜索应用于 Bing 搜索引擎,该技术可以帮助 Bing 更好地理解数十亿网络搜索背后的意图,并在数十亿网页中找到最匹配的结果。

使用矢量进行更好的搜索

矢量的本质上是单词、图像像素或其他数据点的数字表示,它有助于捕获某条数据实际的意义。由于深度学习技术的进步,微软认为可以开始使用这些向量来理解和表示搜索意图。一旦将数据点分配给某条数据,就可以排列或映射这些向量,其中排列地靠前的数字表示相似性。这些近端结果会显示给用户,从而提升搜索结果。当公司工程师注意到用户搜索模式有异常趋势时,Bing 使用的矢量搜索背后的技术就会启动。

“在分析我们的日志时,团队发现搜索查询字符越来越长,”Majumder 说。这表明用户提出了更多问题,对于之前的搜索问题进行更多解释,对关键字搜索的体验不佳,或者在描述抽象事物时“试图像计算机一样思考”。这些对用户来说都是不自然和不方便的。

通过 Bing 搜索,矢量化工作已经扩展到搜索引擎中超过 1500 亿条数据,来提升传统关键字匹配算法的效果,主要包括单个单词、字符、网页代码段、完整查询和其他媒体信息。一旦用户进行搜索后,Bing 可以扫描索引向量并提供最佳的匹配结果。矢量分配使用深度学习技术进行训练,然后持续改进。模型会在搜索后考虑用户最终点击的输入,以便更好地理解搜索的含义。

微软专家表示,虽然矢量化媒体和搜索数据的想法并不新鲜,但最近才有可能在大规模搜索引擎(如 Bing)上使用它。“Bing 每天会处理数十亿个文档,现在的想法是我们可以将这些条目表示为向量,并在 1000 亿个以上的大规模索引中进行搜索,以便在 5 毫秒内找到最匹配结果。”微软 Bing 团队程序经理 Jeffrey Zhu 表示。

为了更直观的描述这一点,Majumder 详细解释道:一堆可以延伸到月球的 1500 亿张的名片中,眨眼之间,可在使用了 SPTAG 算法的 Bing 搜索里一个接一个地找到 10 张不同的名片。

搜索算法 SPTAG 及项目简介

该项目库假设使用向量来表示样本,并且可以使用 L2 距离或余弦距离来比较向量。为查询返回的向量是与查询向量具有最小 L2 距离或余弦距离的向量。

SPTAG 提供两种方法:kd-tree 和相关邻域图(SPTAG-KDT)与平衡 k-means 树和相关邻域图(SPTAG-BKT)。 SPTAG-KDT 在索引构建成本上更便宜,而 SPTAG-BKT 在高维数据中的搜索精度方面更好。

算法流程

SPTAG 的灵感来自 NGS 方法[WangL12]。 它包含两个基本模块:索引构建器和搜索器。 RNG 建立在 k 近邻图[WangWZTG12,WangWJLZZH14]上,用于提高连接度。平衡的 k 均值树是用于替换 kd 树,以避免在高维向量中,kd 树对距离估计不准确带来的束缚。搜索首先在空间分治树中搜索,以找到可以在 RNG 中开始搜索的若干种子数,然后迭代地在树和图中进行搜索。

强调

最新更新:支持在线矢量删除和插入

分布式服务:在多台计算机上搜索

构建

环境配置

安装

它将在代码目录中生成一个 Release 文件夹,其中包含所有构建目标。

它将在构建目录中生成 SPTAGLib.sln。 在 Visual Studio(至少 2015 年版本)中编译ALL_BUILD 项目将生成一个包含所有构建目标的 Release 目录。

验证

运行 Release 文件夹中的 test(或 Test.exe)以验证所有测试。

未来

将矢量用于视觉、音频搜索

Bing 团队表示,他们希望开源产品以用于企业或面向消费者的应用程序,从而识别基于音频片段的语言或者用于图像繁多的服务,例如让人们拍摄鲜花等照片的应用程序,然后确定它是什么类型的花。对于这类应用,缓慢或不相关的搜索体验容易失去用户。

“甚至需要几秒钟的搜索都会使应用程序无法使用,”Majumder 指出。该团队还希望研究人员和学者能够利用它来探索其他领域的搜索突破。“我们才开始在这个深度上探索矢量搜索的真正可能性”。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6291

    浏览量

    103103
  • 互联网
    +关注

    关注

    54

    文章

    10915

    浏览量

    100908

原文标题:千亿级照片,毫秒间匹配最佳结果,微软开源Bing搜索背后的关键算法

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    微软将在威斯康星州投资33亿美元建设AI基础设施

    微软公司计划在威斯康星州进行一项重大投资。美国总统拜登将与微软总裁布拉德·史密斯一同前往该州东南角的芒特普莱森特,宣布一项33亿美元的新数据中心建设计划。
    的头像 发表于 05-10 10:05 79次阅读

    微软获得新专利:Windows在共享屏幕时可定制隐藏应用程序

    根据美国知识产权机构USPTO公布的最新动态,微软公司成功申请了Windows系统的新专利,此举主要为解决屏幕共享过程中的隐私问题。
    的头像 发表于 04-26 14:51 180次阅读

    微软确认2024年7月1日停止支持经典版Microsoft Teams

     4 月 26 日,微软公司更新其官网文件称,已警示仍在使用经典版 Microsoft Teams 的用户该应用将自 2024 年 7 月 1 日起终止支持,并建议尽快转换至新版本。
    的头像 发表于 04-26 11:34 167次阅读

    微软推出Edge搜索栏,提升用户搜索效率

    据4月19日消息,微软近期推出Windows 11与Windows 10系统更新,新增Edge搜索栏桌面集成功能。官方表示,此举旨在为用户提供更便捷的搜索体验,无需开启浏览器即可获得所
    的头像 发表于 04-19 14:44 240次阅读

    微软推出Outlook手机应用,实现无需密码登录

    据报道,微软公司近日透露一项新功能——Outlook 手机应用可于 Teams、OneDrive、Microsoft 365 及 Windows 等微软账号服务实现无缝登陆。
    的头像 发表于 04-09 16:12 165次阅读

    微软网页版Excel新增复制粘贴功能,助力提升用户工作效率

    今日,微软公司宣布推出Microsoft 365Insider项目,面向会员开放网页版Excel的试用机会,旨在通过提升复制粘贴功能来提高用户生产效率。
    的头像 发表于 04-02 15:16 261次阅读

    微软动视员工组建北美最大游戏工会,员工加入微软工会人数已超1万

    此次建立的工联并得到了微软公司的自主支持,目前已经成为微软旗下最大的工会,并且与Raven Software、Blizzard Albany以及ZeniMax Media等现有的工会达成联合,使得如今超过千名QA员工都成为了微软
    的头像 发表于 03-11 10:16 188次阅读

    微软必应深度搜索:GPT 升级,精确度提升,反应迅捷

    该服务曾于去年12月短暂开放,可针对较复杂问题提供“更为相关回答”。此次新增功能旨在为“极具挑战性的搜索”带来更有效且全面的解答。然而,微软此举并非要取代基础搜索功能,而更像是给予用户
    的头像 发表于 03-08 10:10 255次阅读

    苹果微软曾洽购必应,因谷歌搜索质量未果

    CNBC及其他媒体引述的美国司法部反垄断公诉书详细列举了谷歌在搜索领域所持的垄断角色。诉状中透露,尽管微软多次试图将必应用户作为Safari浏览器的默认搜索引擎,但每一次均因
    的头像 发表于 02-25 10:39 289次阅读

    微软将使用英特尔的18A技术生产芯片

    微软将使用英特尔的18A技术生产芯片 据外媒报道微软公司计划使用英特尔的18A制造技术生产自研芯片。但是目前没有确切的消息表明微软将生产什么芯片,但是业界多估计是人工智能加速器。
    的头像 发表于 02-22 17:35 475次阅读

    微软正开发英伟达网卡的替代品

    微软公司,全球科技巨头,正在研发一种新型网卡,旨在提升其自研人工智能芯片Maia的性能,并减少对英伟达产品的依赖。据称,这款新型网卡的设计和功能与英伟达的ConnectX-7网卡相似,被看作是后者的潜在替代品。
    的头像 发表于 02-21 11:06 430次阅读

    微软超越苹果成全球市值最高公司,AI正在改变科技行业!

    电子发烧友网报道(文/李弯弯)2010年,凭借第四代iPhone的热销,苹果的市值首次超过微软。此后,苹果市值一路狂飙,成为全球市值最高的公司。然而来到2024年开年,美国微软公司以2.89万亿美元
    的头像 发表于 01-17 00:17 1201次阅读

    ARM开发板ARM7TDMI版本硬件参考指南

    错误或遗漏、或产品的任何不正确使用而造成的任何损失或损害承担责任。 ARM商标和ARM POWERED徽标是ARM有限公司的注册商标。 EmbeddedICE是ARM有限公司的商标。 Windows 95是微软公司的注册商标。
    发表于 08-21 07:38

    ChatGPT紧急暂停Bing集成,下线搜索功能

    其实在今年早些时候,继微软宣布未来几年将向 OpenAI 投资百亿美元,进一步拓展两家公司的合作之后,2 月,微软便宣布推出全新的人工智能 Bing 搜索引擎和 Edge 浏览器,以
    的头像 发表于 07-06 16:00 509次阅读
    ChatGPT紧急暂停Bing集成,下线<b class='flag-5'>搜索</b>功能

    人工智能推动的聊天机器人可能会改变我们搜索信息方式

    当人们使用搜索引擎时,通常是在寻找信息。有时是想要搜索买东西,有时可能是想要查找一个记不太清楚网址的网站。 但最常见的情况还是,试图寻找一个问题的答案。 近期,人工智能推动的聊天机器人的兴起可能会改变
    的头像 发表于 07-03 17:37 464次阅读