0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从搜索引擎到人工智能看大数据应用发展史

OaXG_jingzhengl 来源:cg 2019-01-08 16:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我们对大数据技术的使用也经历了一个发展过程。从最开始的 Google 在搜索引擎中开始使用大数据技术,到现在无处不在的各种人工智能应用,伴随着大数据技术的发展,大数据应用也从曲高和寡走到了今天的遍地开花。

Google 从最开始发表大数据划时代论文的时候,也许自己也没有想到,自己开启了一个大数据的新时代。今天大数据和人工智能的种种成就,离不开全球数百万大数据从业者的努力,这其中也包括你和我。历史也许由天才开启,但终究还是由人民创造,作为大数据时代的参与者,我们正在创造历史。

大数据应用的搜索引擎时代

作为全球最大的搜索引擎公司,Google 也是我们公认的大数据鼻祖,它存储着全世界几乎所有可访问的网页,数目可能超过万亿规模,全部存储起来大约需要数万块磁盘。为了将这些文件存储起来,Google 开发了 GFS(Google 文件系统),将数千台服务器上的数万块磁盘统一管理起来,然后当作一个文件系统,统一存储所有这些网页文件。

你可能会觉得,如果只是简单地将所有网页存储起来,好像也没什么太了不起的。没错,但是 Google 得到这些网页文件是要构建搜索引擎,需要对所有文件中的单词进行词频统计,然后根据 PageRank 算法计算网页排名。这中间,Google 需要对这数万块磁盘上的文件进行计算处理,这听上去就很了不起了吧。当然,也正是基于这些需求,Google 又开发了 MapReduce 大数据计算框架。

其实在 Google 之前,世界上最知名的搜索引擎是 Yahoo。但是 Google 凭借自己的大数据技术和 PageRank 算法,使搜索引擎的搜索体验得到了质的飞跃,人们纷纷弃 Yahoo 而转投 Google。所以当 Google 发表了自己的 GFS 和 MapReduce 论文后,Yahoo 应该是最早关注这些论文的公司。

Doug Cutting 率先根据 Google 论文做了 Hadoop,于是 Yahoo 就把 Doug Cutting 挖了过去,专职开发 Hadoop。可是 Yahoo 和 Doug Cutting 的蜜月也没有持续多久,Doug Cutting 不堪 Yahoo 的内部斗争,跳槽到专职做 Hadoop 商业化的公司 Cloudera,而 Yahoo 则投资了 Cloudera 的竞争对手 HortonWorks。

顶尖的公司和顶尖的高手一样,做事有一种优雅的美感。你可以看 Google 一路走来,从搜索引擎、Gmail、地图、Android无人驾驶,每一步都将人类的技术边界推向更高的高度。而差一点的公司即使也曾经获得过显赫的地位,但是一旦失去做事的美感和节奏感,在这个快速变革的时代,陨落得比流星还快。

大数据应用的数据仓库时代

Google 的论文刚发表的时候,吸引的是 Yahoo 这样的搜索引擎公司和 Doug Cutting 这样的开源搜索引擎开发者,其他公司还只是吃瓜群众。但是当 Facebook 推出 Hive 的时候,嗅觉敏感的科技公司都不淡定了,他们开始意识到,大数据的时代真正开启了。

曾经我们在进行数据分析与统计时,仅仅局限于数据库,在数据库的计算环境中对数据库中的数据表进行统计分析。并且受数据量和计算能力的限制,我们只能对最重要的数据进行统计和分析。这里所谓最重要的数据,通常指的都是给老板看的数据和财务相关的数据。

而 Hive 可以在 Hadoop 上进行 SQL 操作,实现数据统计与分析。也就是说,我们可以用更低廉的价格获得比以往多得多的数据存储与计算能力。我们可以把运行日志、应用采集数据、数据库数据放到一起进行计算分析,获得以前无法得到的数据结果,企业的数据仓库也随之呈指数级膨胀。

不仅是老板,公司中每个普通员工比如产品经理、运营人员、工程师,只要有数据访问权限,都可以提出分析需求,从大数据仓库中获得自己想要了解的数据分析结果。

你看,在数据仓库时代,只要有数据,几乎就一定要进行统计分析,如果数据规模比较大,我们就会想到要用 Hadoop 大数据技术,这也是 Hadoop 在这个时期发展特别快的一个原因。技术的发展同时又促进了技术应用,这也为接下来大数据应用走进数据挖掘时代埋下伏笔。

大数据应用的数据挖掘时代

大数据一旦进入更多的企业,我们就会对大数据提出更多期望,除了数据统计,我们还希望发掘出更多数据的价值,大数据随之进入数据挖掘时代。

讲个真实的案例,很早以前商家就通过数据发现,买尿不湿的人通常也会买啤酒,于是精明的商家就把这两样商品放在一起,以促进销售。啤酒和尿不湿的关系,你可以有各种解读,但是如果不是通过数据挖掘,可能打破脑袋也想不出它们之间会有关系。在商业环境中,如何解读这种关系并不重要,重要的是它们之间只要存在关联,就可以进行关联分析,最终目的是让用户尽可能看到想购买的商品。

除了商品和商品有关系,还可以利用人和人之间的关系推荐商品。如果两个人购买的商品有很多都是类似甚至相同的,不管这两个人天南海北相隔多远,他们一定有某种关系,比如可能有差不多的教育背景、经济收入、兴趣爱好。根据这种关系,可以进行关联推荐,让他们看到自己感兴趣的商品。

更进一步,大数据还可以将每个人身上的不同特性挖掘出来,打上各种各样的标签:90 后、生活在一线城市、月收入 1~2 万、宅……这些标签组成了用户画像,并且只要这样的标签足够多,就可以完整描绘出一个人,甚至比你最亲近的人对你的描述还要完整、准确。

除了商品销售,数据挖掘还可以用于人际关系挖掘。你听过“六度分隔理论”吗,它认为世界上两个互不认识的人,只需要很少的中间人就能把他们联系起来。这个理论在美国的实验结果是,通过六步就能联系上两个不认识的美国人。也是基于这个理论,Facebook 研究了十几亿用户的数据,试图找到关联两个陌生人之间的数字,答案是惊人的 3.57。你可以看到,各种各样的社交软件记录着我们的好友关系,通过关系图谱挖掘,几乎可以把世界上所有的人际关系网都描绘出来。

现代生活几乎离不开互联网,各种各样的应用无时不刻不在收集数据,这些数据在后台的大数据集群中一刻不停地在被进行各种分析与挖掘。这些分析和挖掘带给我们的是美好还是恐惧,依赖大数据从业人员的努力。但是可以肯定,不管最后结果如何,这个进程只会加速不会停止,你我只能投入其中。

大数据应用的机器学习时代

我们很早就发现,数据中蕴藏着规律,这个规律是所有数据都遵循的,过去发生的事情遵循这个规律,将来要发生的事情也遵循这个规律。一旦找到了这个规律,对于正在发生的事情,就可以按照这个规律进行预测。

在过去,我们受数据采集、存储、计算能力的限制,只能通过抽样的方式获取小部分数据,无法得到完整的、全局的、细节的规律。而现在有了大数据,可以把全部的历史数据都收集起来,统计其规律,进而预测正在发生的事情。

这就是机器学习。

把历史上人类围棋对弈的棋谱数据都存储起来,针对每一种盘面记录何种落子可以得到更高的赢面。得到这个统计规律以后,就可以利用这个规律和人下棋,每一步都计算落在何处将得到更大的赢面,于是我们就得到了一个会下棋的机器人,这就是前两年轰动一时的 AlphaGo,以压倒性优势下赢了人类的顶尖棋手。

再举个和我们生活更近的例子。把人聊天的对话数据都收集起来,记录每一次对话的上下文,如果上一句是是问今天过得怎么样,那么下一句该如何应对,通过机器学习可以统计出来。将来有人再问今天过得怎么样,就可以自动回复下一句话,于是我们就得到一个会聊天的机器人。Siri、天猫精灵、小爱同学,这样的语音聊天机器人在机器学习时代已经满大街都是了。

将人类活动产生的数据,通过机器学习得到统计规律,进而可以模拟人的行为,使机器表现出人类特有的智能,这就是人工智能 AI

现在我们对待人工智能还有些不理智的态度,有的人认为人工智能会越来越强大,将来会统治人类。实际上,稍微了解一点人工智能的原理就会发现,这只是大数据计算出来的统计规律而已,表现的再智能,也不可能理解这样做的意义,而有意义才是人类智能的源泉。按目前人工智能的发展思路,永远不可能出现超越人类的智能,更不可能统治人类。

写在最后

大数据从搜索引擎到机器学习,发展思路其实是一脉相承的,就是想发现数据中的规律并为我们所用。所以很多人把数据称作金矿,大数据应用就是从这座蕴含知识宝藏的金矿中发掘中有商业价值的真金白银出来。

数据中蕴藏着价值已经是众所周知的事情了,那么如何从这些庞大的数据中发掘出我们想要的知识价值,这正是大数据技术目前正在解决的事情,包括大数据存储与计算,也包括大数据分析、挖掘、机器学习等应用。

美国的西部淘金运动带来了美国的大拓荒时代,来自全世界各地的人涌向美国西部,将人口、资源、生产力带到了荒蛮的西部地带,一条条铁路也将美国的东西海岸连接起来,整个美国也随之繁荣起来。大数据这座更加庞大的金矿目前也正发挥着同样的作用,全世界无数的政府、企业、个人正在关注着这座金矿,无数的资源正在向这里涌来。

我们不曾生活在美国西部淘金的繁荣时代,错过了那个光荣与梦想、自由与激情的个人英雄主义时代。但是现在,一个更具划时代意义的大数据淘金时代正在到来,而你我正身处其中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50304

    浏览量

    266859
  • 搜索引擎
    +关注

    关注

    0

    文章

    120

    浏览量

    13875

原文标题:大数据应用发展史:从搜索引擎到人工智能

文章出处:【微信号:jingzhenglizixun,微信公众号:机器人博览】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能五大核心:芯片、算力、数据、算法、能源 !

    数据、算法与能源电力。这五大层次自微观至宏观、硬件软件、由物质基础能量支撑,共同构筑起人工智能完整的“身体图谱”,形成其闭环式技术体
    的头像 发表于 04-16 12:47 604次阅读
    <b class='flag-5'>人工智能</b>五大核心:芯片、算力、<b class='flag-5'>数据</b>、算法、能源 !

    九天菜菜大模型agent智能体开发实战2026一月班

    ,引领着自主 AI 迈向全新范式。(搜星 课it。top) 大模型 Agent 的崛起并非偶然,它是人工智能发展到一定阶段的必然产物。传统 AI 往往局限于单一任务,缺乏自主性和灵活性,难以应对
    发表于 04-15 16:04

    浅谈人工智能(2)

    。 强人工智能(Strong AI),又称通用人工智能(Artificial General Intelligence)或完全人工智能,指的是可以胜任人类所有工作的人工智能。 超
    的头像 发表于 02-22 08:24 337次阅读
    浅谈<b class='flag-5'>人工智能</b>(2)

    迈富时GEO服务:技术驱动AI搜索时代的企业增长新引擎

    导语: 随着DeepSeek、豆包、文心一言等生成式AI搜索引擎的快速普及,用户获取信息的方式正从传统"链接点击"转向"AI直接对话"。在这场深刻的信息检索范式变革中,企业如何让品牌内容被AI系统
    的头像 发表于 01-17 21:20 450次阅读

    我国电能表发展史计量工具能源智能终端的演进

    民国时期的机械“老会计”如今适配新能源的智能终端,电能表不仅见证了我国电力工业的崛起,更成为推动能源转型、实现“双碳”目标的重要支撑。
    的头像 发表于 01-09 10:48 1271次阅读
    我国电能表<b class='flag-5'>发展史</b>:<b class='flag-5'>从</b>计量工具<b class='flag-5'>到</b>能源<b class='flag-5'>智能</b>终端的演进

    游戏引擎AI动力核心

    显卡技术演进:游戏引擎AI动力核心 曾经专为图形渲染而生的显卡,如今正成为推动人工智能、边缘计算和科学模拟的关键驱动力。 近年来,显卡技术已从单纯的图形处理单元演变为通用计算加速器
    的头像 发表于 10-30 11:08 411次阅读

    根据标题获取商品链接评论接口的技术实现

    ; B(搜索引擎API调用) B -- > C{链接匹配度验证} C -- >|匹配成功| D[获取商品ID] C -- >|匹配失败| E[人工干预校准] D -- > F
    的头像 发表于 10-20 16:03 798次阅读
    根据标题获取商品链接评论接口的技术实现

    标贝科技参编《人工智能高质量数据集建设指南》

    人工智能迈入“数据驱动”的关键发展阶段,高质量数据集已成为突破技术瓶颈、推动产业落地的核心引擎。日前,中国信息通信研究院
    的头像 发表于 09-11 17:19 1020次阅读

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    应用。 为什么选择 Neuton 作为开发人员,在产品中使用边缘人工智能的两个最大障碍是: ML 模型对于您所选微控制器的内存来说太大。 创建自定义 ML 模型本质上是一个手动过程,需要高度的数据科学知识
    发表于 08-31 20:54

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    应用场景。数据采集,模型推理,都能完整且自如地参与,轻松解锁人工智能全流程实训,让你深度体验AI技术的魅力 。 四、九门课程全覆盖,满足多元学习需求 对于高校教学或者技术学习来说,
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    应用场景。数据采集,模型推理,都能完整且自如地参与,轻松解锁人工智能全流程实训,让你深度体验AI技术的魅力 。 四、九门课程全覆盖,满足多元学习需求 对于高校教学或者技术学习来说,
    发表于 08-07 14:23

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(NLP)、深度
    发表于 07-16 15:29

    人工智能技术的现状与未来发展趋势

    人工智能技术的现状与未来发展趋势     近年来,人工智能(AI)技术迅猛发展,深刻影响着各行各业。计算机视觉
    的头像 发表于 07-16 15:01 2284次阅读

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。职场上辅助工作的智能助手,
    发表于 07-04 11:10

    地平线余凯谈AI时代产品方法论

    互联网时代,商业逻辑始终围绕“连接”与“理解人”展开。搜索引擎、社交平台再到短视频应用,都在通过用户行为数据揣摩人类偏好,优化服务体验。
    的头像 发表于 06-03 11:44 1057次阅读