0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

搜索引擎的起源之科学史话克伦·施拜克·琼斯对网络搜索的贡献

工程师 来源:综合自科技日报 作者:综合自科技日报 2020-11-20 15:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

科学史话 克伦·施拜克·琼斯: 每次网络搜索背后 都离不开她的贡献

克伦·施拜克·琼斯(Karen Spärck Jones)1935年8月26日生于英国哈德斯菲尔德市,一个纺织业较发达的城市。在她小时候,她的父亲在大学里担任化学讲师,晚上还要打工挣钱;母亲是挪威人,曾去伦敦为挪威流亡政府工作。由于父母都顾不上照看她,便将她托付给乡间的一户人家。在这样的生长环境中,琼斯从小便锻炼出了一定的独立性。

从11岁到18岁这7年间,琼斯就读于一所高水平的文法女校,12岁时,她发愿要上剑桥大学,后终于如愿以偿。

1956年,她在剑桥大学获得历史学专业的文学学士学位。由于对哲学的兴趣,琼斯又继续读了一年哲学。1957年,她加入了剑桥语言研究所,开始接触计算机在语言研究方面的应用。在此工作期间,她认识了Roger Needham(1935—2003,计算机科学家,英国皇家学会会员),两人于1958年结婚。1964年,她在剑桥大学获得哲学博士学位,但博士论文导师对她的帮助不大,她基本上是独立打拼,编程也是自学的。1968年,琼斯成为剑桥大学计算机实验室的全职工作人员,从此以后她在这里耕耘了近50载,一直从事计算语言学和信息检索研究。

她在计算语言学和信息检索两个领域都作出了杰出贡献。在信息检索方面,早在1958年,她就与人合著了相关文章。她的最重要贡献当数1972年提出的逆文本频率指数(IDF)的概念。这个概念的意思是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则可以认为词w具有很好的区分能力,可以把文章d和其他文章较好地区分开来。IDF是互联网搜索引擎普遍采用的思路。可以说,没有琼斯的早年贡献,就没有谷歌搜索引擎日后的成就。

在计算语言学方面,她1963年完成的博士论文至今仍有价值。该文将统计进路(或曰机器学习进路)与已有资源(做在穿孔卡片上的叙词表)结合起来,取得了领先于时代的成果。此外,她在计算机自动摘要、结构化数据库的界面、对话、语义学等多个主题上均有所建树。

除了本人的学术研究外,她还通过学术社团的活动大大推进了本领域的进步。尤其是1994年她担任计算语言学学会(ACL)会长期间。计算语言学学会是国际性的社团,当时多数会员是美国学者,她接手学会时,学会的财务状况不佳,原来的司库又去世了,一时半会儿招聘不到新的司库,在这种情况下,琼斯又要统筹安排学会的学术活动,又要管账,忙得一塌糊涂。那一阵子是ACL苦痛挣扎的过渡期,在她的有力领导下,ACL走出了困境。除了ACL外,她还是另外好几个学会的会士。2000—2002年期间,她担任过英国科学院副院长。在英国有两所科学院:英国皇家学会相当于自然科学领域的科学院,而英国科学院是人文社会科学领域的科学院。由于语言学这个大类属于人文学科,琼斯就凭借其在计算语言学的成就当选为英国科学院的院士。

琼斯共获得过7个重要奖项,包括2004年获得的“计算语言学学会终生成就奖”和2007年获得的“英国计算机学会勒芙蕾丝奖章”(阿达。勒芙蕾丝是英国大诗人拜伦的女儿,计算机程序的创始人)。

她2002年办理了退休手续,但继续在实验室工作。直到2007年4月4日去世前不久,实验室里仍有她的身影。

2001年4月10日,电气电子工程师学会(IEEE)历史研究中心的Janet Abbate女士采访了琼斯。在接受采访时她说:“人人都在谈职业生涯之类的东西。从某种意义上说,我做到了一路向前走,但其实那时并没有明显的路径。你得利用一切存在着的机会。早年的时候,对于女性,即使是在剑桥,工作机会也是极其有限的。看看现在的年轻女性,我是十分羡慕。现在没有多少女性拥有‘我能行’的心态,但她们其实拥有实现‘我能行’的机会,而我们那时根本就没有这样的机会。”

希望我们中国的职业女性以琼斯为榜样,抓住机会,奋力前行。

(克伦·施拜克·琼斯 图片来源:剑桥大学网站)

概述搜索引擎的起源

1.搜索引擎的起源

1990年,加拿大麦吉尔大学(University ofMcGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。

2.搜索引擎的发展

第一阶段

Excite的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile

第二阶段

1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。注:Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务Yahoo!--几乎成为20世纪90年代的因特网的代名词。

第三阶段

1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni的 Metacrawler。元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

第四阶段

智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。

综合自科技日报 ; 参考资料: 《网络营销》 杨路明等编著 机械工业出版社

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7856

    浏览量

    93616
  • 网络
    +关注

    关注

    14

    文章

    8387

    浏览量

    95718
  • 机器学习
    +关注

    关注

    67

    文章

    8571

    浏览量

    137438
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌开发者大会火力全开:AI全场景重构,搜索引擎迎最强升级!

    把AI智能体全面“塞进”所有核心入口。   从搜索框到Chrome浏览器,从Android手机到智能眼镜,谷歌Gemini不再只是一个对话助手,而是一个可以持续运行、跨应用执行任务的AI代理——它能替用户追踪信息、生成内容、调用工具,甚至直接完成下单和操作流程。
    的头像 发表于 05-21 11:33 4183次阅读

    深度解析百度地图搜索Agent架构进化论

    随着大型语言模型(LLM)与Agent技术的爆发,搜索引擎正经历一场从“索引+关键词匹配”到“生成式AI搜索”的范式跃迁。
    的头像 发表于 05-21 11:18 799次阅读
    深度解析百度地图<b class='flag-5'>搜索</b>Agent架构进化论

    搜索引擎ElasticSearch8.X+SpringBoot3.X最佳实践elk/es,ES8搜索引擎从基础入门到深度原理,实现综合运用实战

    搭建分布式检索系统,ES8集群实战教学——面向未来的数据检索必修课 数据爆炸的时代,检索能力就是企业的核心竞争力。当一张电商平台的订单表动辄几十亿行,当用户的行为日志每秒产生百万条,当你的搜索框敲下
    的头像 发表于 05-20 13:47 80次阅读

    Oracle和NVIDIA合作加速向量搜索和企业数据处理

    旨在支持 NVIDIA GPU 和 NVIDIA cuVS 开源库,用于向量搜索索引生成。本公告基于在 Oracle AI World 2025 大会上推出的 Oracle AI Database 26ai 和 Oracle Private AI Services Co
    的头像 发表于 03-23 15:26 556次阅读

    1688按图搜索API技术实现详解

    API允许开发者通过上传商品图片,检索1688平台上与相似的商品列表。其核心功能是图像识别与商品匹配。 二、 准备工作 获取API权限 访问1688开放平台注册开发者账号。 创建应用,获取 App Key 和 App Secret。 在应用权限中申请 按图搜索商品 接口
    的头像 发表于 03-13 17:01 964次阅读
    1688按图<b class='flag-5'>搜索</b>API技术实现详解

    迈富时GEO服务:技术驱动AI搜索时代的企业增长新引擎

    导语: 随着DeepSeek、豆包、文心一言等生成式AI搜索引擎的快速普及,用户获取信息的方式正从传统"链接点击"转向"AI直接对话"。在这场深刻的信息检索范式变革中,企业如何让品牌内容被AI系统
    的头像 发表于 01-17 21:20 576次阅读

    工业UPS不间断电源价格解析:优比电源为您拆解成本与价值

    搜索引擎上,“工业UPS不间断电源价格”是成千上万企业采购人员和技术负责人高频搜索的关键词。然而,当您点开众多页面,却很少能看到一个明确的数字。这并非厂家故弄玄虚,而是因为工业级UPS电源的价格
    的头像 发表于 12-03 08:37 793次阅读
    工业UPS不间断电源价格解析:优比<b class='flag-5'>施</b>电源为您拆解成本与价值

    5分钟了解SEO优化服务器对网站加载速度的影响

    一个为SEO优化过的服务器,能显著提升网站性能,从而在搜索引擎排名中占据有利位置。
    的头像 发表于 12-02 10:27 510次阅读

    线性搜索与二分搜索介绍

    线性搜索(Linear Search):从数组的第一个元素开始,依次将当前元素与目标值进行比较,直到找到目标值或搜索完整个数组。 二分搜索(Binary Search):在有序数组中查找某一特定元素
    发表于 12-01 07:36

    苏宁搜索接口深析:全品类智能分轨如何解决 O2O 电商的搜索痛点?

    本文深度解析苏宁全品类O2O搜索接口核心技术,涵盖智能分轨引擎、库存联动系统与高并发架构设计,解决多品类参数识别、线上线下库存同步等电商搜索痛点,助力构建高效精准的现代电商搜索体系。
    的头像 发表于 10-28 16:20 1051次阅读
    苏宁<b class='flag-5'>搜索</b>接口深析:全品类智能分轨如何解决 O2O 电商的<b class='flag-5'>搜索</b>痛点?

    按图搜索1688商品的API接口

    ​  在电商场景中,按图搜索商品功能(即通过上传图片查找相似商品)极大提升了用户体验和效率。1688作为阿里巴巴旗下的批发平台,虽然没有直接公开的“按图搜索”API,但我们可以借助阿里云的图像搜索
    的头像 发表于 10-22 15:05 999次阅读
    按图<b class='flag-5'>搜索</b>1688商品的API接口

    根据标题获取商品链接评论接口的技术实现

    ; B(搜索引擎API调用) B -- > C{链接匹配度验证} C -- >|匹配成功| D[获取商品ID] C -- >|匹配失败| E[人工干预校准] D -- > F
    的头像 发表于 10-20 16:03 882次阅读
    根据标题获取商品链接评论接口的技术实现

    微店关键词搜索接口核心突破:动态权重算法与语义引擎的实战落地

    本文详解微店搜索接口从基础匹配到智能推荐的技术进阶路径,涵盖动态权重、语义理解与行为闭环三大创新,助力商家提升搜索转化率、商品曝光与用户留存,实现技术驱动的业绩增长。
    的头像 发表于 10-15 14:38 606次阅读

    产品搜索与过滤API接口

    ​ 在现代化电子商务和应用程序开发中,高效的产品搜索与过滤功能至关重要。它能帮助用户快速找到所需商品,提升用户体验和转化率。产品搜索与过滤API接口作为后端服务的核心组件,允许开发者通过编程方式实现
    的头像 发表于 07-24 14:35 745次阅读
    产品<b class='flag-5'>搜索</b>与过滤API接口

    地平线余凯谈AI时代产品方法论

    互联网时代,商业逻辑始终围绕“连接”与“理解人”展开。从搜索引擎、社交平台再到短视频应用,都在通过用户行为数据揣摩人类偏好,优化服务体验。
    的头像 发表于 06-03 11:44 1129次阅读