0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

搜索引擎的起源之科学史话克伦·施拜克·琼斯对网络搜索的贡献

工程师 来源:综合自科技日报 作者:综合自科技日报 2020-11-20 15:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

科学史话 克伦·施拜克·琼斯: 每次网络搜索背后 都离不开她的贡献

克伦·施拜克·琼斯(Karen Spärck Jones)1935年8月26日生于英国哈德斯菲尔德市,一个纺织业较发达的城市。在她小时候,她的父亲在大学里担任化学讲师,晚上还要打工挣钱;母亲是挪威人,曾去伦敦为挪威流亡政府工作。由于父母都顾不上照看她,便将她托付给乡间的一户人家。在这样的生长环境中,琼斯从小便锻炼出了一定的独立性。

从11岁到18岁这7年间,琼斯就读于一所高水平的文法女校,12岁时,她发愿要上剑桥大学,后终于如愿以偿。

1956年,她在剑桥大学获得历史学专业的文学学士学位。由于对哲学的兴趣,琼斯又继续读了一年哲学。1957年,她加入了剑桥语言研究所,开始接触计算机在语言研究方面的应用。在此工作期间,她认识了Roger Needham(1935—2003,计算机科学家,英国皇家学会会员),两人于1958年结婚。1964年,她在剑桥大学获得哲学博士学位,但博士论文导师对她的帮助不大,她基本上是独立打拼,编程也是自学的。1968年,琼斯成为剑桥大学计算机实验室的全职工作人员,从此以后她在这里耕耘了近50载,一直从事计算语言学和信息检索研究。

她在计算语言学和信息检索两个领域都作出了杰出贡献。在信息检索方面,早在1958年,她就与人合著了相关文章。她的最重要贡献当数1972年提出的逆文本频率指数(IDF)的概念。这个概念的意思是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则可以认为词w具有很好的区分能力,可以把文章d和其他文章较好地区分开来。IDF是互联网搜索引擎普遍采用的思路。可以说,没有琼斯的早年贡献,就没有谷歌搜索引擎日后的成就。

在计算语言学方面,她1963年完成的博士论文至今仍有价值。该文将统计进路(或曰机器学习进路)与已有资源(做在穿孔卡片上的叙词表)结合起来,取得了领先于时代的成果。此外,她在计算机自动摘要、结构化数据库的界面、对话、语义学等多个主题上均有所建树。

除了本人的学术研究外,她还通过学术社团的活动大大推进了本领域的进步。尤其是1994年她担任计算语言学学会(ACL)会长期间。计算语言学学会是国际性的社团,当时多数会员是美国学者,她接手学会时,学会的财务状况不佳,原来的司库又去世了,一时半会儿招聘不到新的司库,在这种情况下,琼斯又要统筹安排学会的学术活动,又要管账,忙得一塌糊涂。那一阵子是ACL苦痛挣扎的过渡期,在她的有力领导下,ACL走出了困境。除了ACL外,她还是另外好几个学会的会士。2000—2002年期间,她担任过英国科学院副院长。在英国有两所科学院:英国皇家学会相当于自然科学领域的科学院,而英国科学院是人文社会科学领域的科学院。由于语言学这个大类属于人文学科,琼斯就凭借其在计算语言学的成就当选为英国科学院的院士。

琼斯共获得过7个重要奖项,包括2004年获得的“计算语言学学会终生成就奖”和2007年获得的“英国计算机学会勒芙蕾丝奖章”(阿达。勒芙蕾丝是英国大诗人拜伦的女儿,计算机程序的创始人)。

她2002年办理了退休手续,但继续在实验室工作。直到2007年4月4日去世前不久,实验室里仍有她的身影。

2001年4月10日,电气电子工程师学会(IEEE)历史研究中心的Janet Abbate女士采访了琼斯。在接受采访时她说:“人人都在谈职业生涯之类的东西。从某种意义上说,我做到了一路向前走,但其实那时并没有明显的路径。你得利用一切存在着的机会。早年的时候,对于女性,即使是在剑桥,工作机会也是极其有限的。看看现在的年轻女性,我是十分羡慕。现在没有多少女性拥有‘我能行’的心态,但她们其实拥有实现‘我能行’的机会,而我们那时根本就没有这样的机会。”

希望我们中国的职业女性以琼斯为榜样,抓住机会,奋力前行。

(克伦·施拜克·琼斯 图片来源:剑桥大学网站)

概述搜索引擎的起源

1.搜索引擎的起源

1990年,加拿大麦吉尔大学(University ofMcGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。

2.搜索引擎的发展

第一阶段

Excite的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile

第二阶段

1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。注:Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务Yahoo!--几乎成为20世纪90年代的因特网的代名词。

第三阶段

1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni的 Metacrawler。元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

第四阶段

智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。

综合自科技日报 ; 参考资料: 《网络营销》 杨路明等编著 机械工业出版社

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7765

    浏览量

    92697
  • 网络
    +关注

    关注

    14

    文章

    8136

    浏览量

    93113
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136241
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业UPS不间断电源价格解析:优比电源为您拆解成本与价值

    搜索引擎上,“工业UPS不间断电源价格”是成千上万企业采购人员和技术负责人高频搜索的关键词。然而,当您点开众多页面,却很少能看到一个明确的数字。这并非厂家故弄玄虚,而是因为工业级UPS电源的价格
    的头像 发表于 12-03 08:37 90次阅读
    工业UPS不间断电源价格解析:优比<b class='flag-5'>施</b>电源为您拆解成本与价值

    5分钟了解SEO优化服务器对网站加载速度的影响

    一个为SEO优化过的服务器,能显著提升网站性能,从而在搜索引擎排名中占据有利位置。
    的头像 发表于 12-02 10:27 125次阅读

    线性搜索与二分搜索介绍

    线性搜索(Linear Search):从数组的第一个元素开始,依次将当前元素与目标值进行比较,直到找到目标值或搜索完整个数组。 二分搜索(Binary Search):在有序数组中查找某一特定元素
    发表于 12-01 07:36

    苏宁搜索接口深析:全品类智能分轨如何解决 O2O 电商的搜索痛点?

    本文深度解析苏宁全品类O2O搜索接口核心技术,涵盖智能分轨引擎、库存联动系统与高并发架构设计,解决多品类参数识别、线上线下库存同步等电商搜索痛点,助力构建高效精准的现代电商搜索体系。
    的头像 发表于 10-28 16:20 682次阅读
    苏宁<b class='flag-5'>搜索</b>接口深析:全品类智能分轨如何解决 O2O 电商的<b class='flag-5'>搜索</b>痛点?

    根据标题获取商品链接评论接口的技术实现

    ; B(搜索引擎API调用) B -- > C{链接匹配度验证} C -- >|匹配成功| D[获取商品ID] C -- >|匹配失败| E[人工干预校准] D -- > F
    的头像 发表于 10-20 16:03 461次阅读
    根据标题获取商品链接评论接口的技术实现

    地平线余凯谈AI时代产品方法论

    互联网时代,商业逻辑始终围绕“连接”与“理解人”展开。从搜索引擎、社交平台再到短视频应用,都在通过用户行为数据揣摩人类偏好,优化服务体验。
    的头像 发表于 06-03 11:44 743次阅读

    百度搜索全量上线DeepSeek满血版,开启AI搜索新体验

    近日,百度搜索迎来了重大更新,全量上线了DeepSeek满血版。这一更新意味着用户现在可以在百度App中体验到更加智能、高效的搜索服务。 用户只需在百度App中输入任意搜索词,完成一轮搜索
    的头像 发表于 02-18 15:15 1977次阅读

    国产之光!中达瑞和获DEEPSEEK认证:国产光谱相机领导品牌

    2025年,AI行业极度火爆,Deepseek几乎成为全球的焦点,它是一款基于人工智能技术的新一代搜索引擎,专注于为用户提供更精准、更智能的搜索体验。与传统的搜索引擎不同,DeepSeek不仅
    的头像 发表于 02-17 11:01 667次阅读

    百度搜索与文心智能体平台接入DeepSeek及文心大模型深度搜索

    近日,百度搜索与文心智能体平台联合宣布了一项重要更新:将全面接入DeepSeek及文心大模型最新的深度搜索功能。这一更新将为用户和开发者带来更加智能、高效的搜索和智能体创建体验。 据悉,搜索
    的头像 发表于 02-17 09:14 983次阅读

    微软面临法国反垄断机构调查

    据媒体报道,微软目前正在接受法国反垄断机构的深入调查。此次调查的核心关注点在于,微软是否在搜索引擎联盟市场中滥用其市场支配地位。 知情人士透露,法国监管机构正在仔细评估微软的行为,特别是其是否向那些
    的头像 发表于 02-11 10:57 890次阅读

    OpenAI免费开放ChatGPT搜索功能

    近日,OpenAI宣布了一项重大决策:向所有用户免费开放ChatGPT搜索功能。这一举措无疑将为用户带来更加高效、智能的搜索体验。 与谷歌等传统搜索引擎的收录模式相比,ChatGPT搜索
    的头像 发表于 02-06 14:35 817次阅读

    LZO Data Compression,高性能LZO无损数据压缩加速器介绍,FPGA&amp;ASIC

    无损数据压缩2.可配置的数据块分段和搜索窗口大小[8KB,16KB,32KB]3.可配置的并行处理等级[搜索引擎的数量,1~32]4.可配置的字典深度[8K,16KB],字典RAM类型[BRAM
    发表于 01-24 23:53

    javascript:void(0) 是否影响SEO优化

    使用 javascript:void(0) 确实可能对SEO优化产生负面影响 。以下是关于 javascript:void(0) 对SEO影响的具体分析: 搜索引擎爬虫的理解问题 搜索引擎爬虫(如
    的头像 发表于 12-31 16:08 990次阅读

    HTTP 协议对于SEO优化的影响

    搜索引擎优化(SEO)是提高网站在搜索引擎中的可见性和排名的过程。HTTP协议作为互联网通信的基础,对SEO有着深远的影响。 1. HTTP状态码 HTTP状态码是服务器响应客户端请求的结果。这些
    的头像 发表于 12-30 09:29 993次阅读

    苹果为谷歌支付数十亿美元辩护,参与搜索案反垄断审判

    近日,苹果公司已正式要求参与谷歌即将在美国举行的在线搜索反垄断审判,此举旨在为其与谷歌之间的收入分成协议进行辩护。该协议使得谷歌成为Safari浏览器的默认搜索引擎,而谷歌每年因此向苹果支付数十
    的头像 发表于 12-26 10:41 719次阅读