0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何理解爬虫工程师

工程师人生 来源:wv 作者:简书网 2019-09-18 11:39 次阅读

上个月初,我入职了一家公司,正式开启了我的爬虫职业生涯。虽然之前自学或者说自己钻研并编写了很多爬虫,不过当我第一次见到一个完成的爬虫系统的时候,坦白说,还是觉得挺不可思议的,我大概花了2到3个礼拜对这个系统进行了熟悉,现在在保持对原系统的进行维护的同时,正着手对其进行性能优化。随着理解的深入,我越发觉得爬虫工程师的瓶颈其实并不是JS、css之类的前端反混淆技术,也不是requests、BeautifulSoup之类的网页获取解析技术,当然也不是仅仅对爬虫框架的使用。这些技术固然是必须的,但是真正的上升瓶颈还是工程师的素养:如何写出一个高性能可扩展的爬虫系统?系统如何兼容数百个甚至数千个不同类型的爬取对象(网站)?如何管理这些爬虫?如何高效的并发这些爬虫?如何处理爬取之后的数据?各个子系统之间如何交流?和这些问题比起来,对某个特定网站的爬取的问题只能算是个入门级问题。

对爬虫工程师的理解

我之前写了很多关于爬虫的文章,涉及了各种各样的爬取策略;也爬了不少主流非主流的网站。从我刚入门爬虫到现在,每一个爬虫对应的文章都可以在我的博客上找到,不论是最最简单的抓取,还是scrapy的使用。

然而爬了这么多网站,按理说应付一位爬虫工程师的工作应该绰绰有余吧?当然不是,正如我上文所说,在整个爬虫系统中,如何抓取某个特定的网站其实是最小的任务模块。而对于一个有爬虫需求的公司而言,一个能够长期稳定运行的爬虫系统才是基本需求。

我从另外一个角度解释一下这个问题,如果我们将“爬取某个页面”称为一个爬虫任务。那么一般而言,我们会需要定期执行这个爬虫任务以满足业务上的需求。比如说,我这有一个爬虫任务是“爬取某只股票的当前价格”,那么我可能会要求每10s执行一次这个爬虫任务以达到汇至股价走势的目的。问题就来了,爬虫系统如何保证每10s执行这个爬虫任务呢?time.sleep(10)? crontab?open_signal?send_task?

最简单的,你可以让程序执行一次爬虫任务后sleep10秒,然后无限重复这个循环。嗯,如果只有一个任务,理论上是可行的,此时这个程序就是一种爬虫系统。那么比这种解决方案略微高端一点的就是写一个定时任务,每10秒执行一下,这下连爬虫系统都省了。

但是如果这种爬虫任务有很多呢?比如说,我要绘制1000个不同股票的股价走势图。简单一点的可以将爬虫任务改成可接受参数式的,每10s中传入1000个参数(股票代码)并用多进程或异步执行这些任务。用scrapy也可以解决这个问题,scrapy其实非常适合这个场景,但是scrapy没有定时任务,这个时候可能又会需要用到scrapyd和celery。接着,如果有100W个爬虫任务呢?虽然有些爬虫只需要简单调整一下参数,这些任务可以当成同一类爬虫,但即使去除这些同类型爬虫,仍然会剩下不同类型的爬虫任务,比如说30W?那么这30W个任务我们怎么处理,不可能在一个scrapy里写30W个spider?然后还会涉及到调度,因为每个爬虫的抓取频率可能是不一样的;管理,爬虫任务可能会根据产品需求出现增删的情况;爬取结果处理,比如说去重(对100W个结果去重本身也是个不小的事情)、存储等等。

另外,一个健康的爬虫生态,一般还需要一个代理池,一个网页渲染服务器,像爬微博的话可能还需要Cookie池,然后这个系统本身应该是高可用高可扩展的。随着爬虫任务数量的增加,各个地方都有可能产生性能瓶颈。这也是我为什么说,爬取任务其实是最小的一环,对于单次任务的执行速度,甚至有时候它的成败都不是关键。

插一句,scrapy仍然是一个很强大很厉害的框架,它是我目前认知里最牛逼的爬虫框架。它的厉害不在于它可以方便的编写一个爬虫,而是它的模块定制功能,你可以根据实际的产品需求,通过调整中间件或者调度器方便的实现你想要的功能。

但是有时候偶尔会出现一些反爬特别厉害的网站,这个时候就需要对其进行单独的研究了。另外,我以为手机端抓取其实是一个很关键的手段,现在的手机性能强大,能做的事情实在是太多了,只是大多数时候被人忽略了。个人以为这可能会变成今后一个主流的抓取手段。今后我也会开始学习这方面的知识。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 工程师
    +关注

    关注

    59

    文章

    1553

    浏览量

    67497
收藏 人收藏

    评论

    相关推荐

    如何入门硬件工程师

    想跨行业做硬件设计工程师,应该如何学习规划呢
    发表于 03-17 21:49

    企业老工程师和高校老师有啥区别

    电子工程师硬件
    电子发烧友网官方
    发布于 :2024年02月28日 17:50:00

    如何搞崩一个硬件工程师心态?试试对ta说这几句

    硬件工程师
    扬兴科技
    发布于 :2024年02月20日 18:05:49

    #人工智能 #FPGA 怎么成为一个合格的FPGA工程师

    fpga工程师
    明德扬助教小易老师
    发布于 :2023年12月18日 21:19:01

    电子工程师第一天上班就暴揍师傅。。。#科普 #示波器 #电子工程师 #打工日记

    电子工程师示波器
    安泰小课堂
    发布于 :2023年12月18日 17:36:12

    FPGA工程师需要具备哪些技能?

    ,并进行调试测试以确保其正确性、稳定性、可靠性和可移植性。 因此,FPGA工程师需要有较强的设计思维和逻辑分析能力。他们需要能够理解和应用数学和物理学知识,并解决各种实际问题。 二、硬件
    发表于 11-09 11:03

    招聘数字后端工程师

    招聘数字后端工程师,北京、天津、西安、苏州、成都、无锡
    发表于 10-26 15:11

    #FPGA 本科生也能成为FPGA研发工程师

    fpga工程师
    明德扬助教小易老师
    发布于 :2023年09月23日 08:05:36

    第46期中级电气工程师证已全部下发#硬声创作季

    工程师
    或许
    发布于 :2023年06月28日 07:44:21

    热门推荐:硬件工程师必备工具

    硬件开发的工作流程一般可分为:原理图设计、PCB Layout设计、采购电子BOM、PCB板生产、PCBA组装、功能调试及测试、小批量试产、大批量生产正式投放市场等步骤。 作为一名优秀的硬件工程师
    发表于 06-21 10:15

    电子工程师必看书籍推荐#知识分享 #知识科普 #交流#硬声创作季

    电子工程师
    也许吧
    发布于 :2023年05月24日 10:47:34