0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

来看看Pythoner志朋的爬虫实验

马哥Linux运维 来源:未知 作者:李倩 2018-11-23 15:43 次阅读

下面我们来看看Pythoner志朋的爬虫实验。

一、使用的技术栈:

爬虫:python27 +requests+json+bs4+time

分析工具: ELK套件

开发工具:pycharm

二、数据成果

爬取了知乎部分的用户数据信息

三、简单的可视化分析

1.性别分布

0 绿色代表的是男性 ^ . ^ ——1代表的是女性———— -1 性别不确定

可见知乎的用户男性颇多。

2.粉丝最多的top30

粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。

3.写文章最多的top30

四、爬虫架构

爬虫架构图如下:

说明:

选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬取的url存在set中。

抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个set中,并用已爬取的url作为过滤。

解析该用户的个人信息,并存取到本地磁盘。

logstash取实时的获取本地磁盘的用户数据,并给elsticsearch

kibana和elasticsearch配合,将数据转换成用户友好的可视化图形。

五.编码

爬取一个url:

解析内容:

存本地文件:

代码说明:

需要修改获取requests请求头的authorization。

需要修改你的文件存储路径。

源码下载:https://github.com/forezp/ZhihuSpiderMan,记得star哦!

六.如何获取authorization

打开chorme,打开https://www.zhihu.com/,

登陆,首页随便找个用户,进入他的个人主页,F12(或鼠标右键,点检查)

点击关注,刷新页面,见图:

七、可改进的地方

可增加线程池,提高爬虫效率

存储url的时候我才用的set(),并且采用缓存策略,最多只存2000个url,防止内存不够,其实可以存在redis中。

存储爬取后的用户我说采取的是本地文件的方式,更好的方式应该是存在mongodb中。

对爬取的用户应该有一个信息的过滤,比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。

八.关于ELK套件

关于elk的套件安装就不讨论了,具体见官网就行了。网站:https://www.elastic.co/

另外logstash的配置文件如下:

九、结语

从爬取的用户数据可分析的地方很多,比如地域、学历、年龄等等,我就不一一列举了。

另外,我觉得爬虫是一件非常有意思的事情,在这个内容消费升级的年代,如何在广阔的互联网的数据海洋中挖掘有价值的数据,是一件值得思考和需不断践行的事情。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    10906

    浏览量

    100742
  • python
    +关注

    关注

    51

    文章

    4675

    浏览量

    83466

原文标题:碉堡了!一小时爬取百万知乎用户信息的Python神器曝光

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    很热闹,常来看看

    很热闹,常来看看
    发表于 02-15 14:39

    天天来看看~~~

    天天来看看~~~
    发表于 12-15 16:42

    每天上来看看

    每天上来看看挺好,
    发表于 12-22 22:53

    来看看怎么样 下来看看怎么样 下来看看怎么样

    来看看怎么样下来看看怎么样下来看看怎么样下来看看怎么样下来看看怎么样[table=98%][tr][td]下
    发表于 05-13 19:01

    来看看怎么样 下来看看怎么样 下来看看怎么样

    来看看怎么样下来看看怎么样下来看看怎么样下来看看怎么样下来看看怎么样[table=98%][tr][td]下
    发表于 05-13 19:03

    VR全景声巨幕VR影院值不值购买?详细体验总结

    多大的解析流。   大VR自身平台上具有100+的巨幕视频、普通电影大概有1000+的视频、蓝光电影40+,在来看看支持的视频应用,爱奇艺VR、优酷VR、2大视频巨头的VR应用,这VR视频不要太多
    发表于 10-04 09:24

    网络爬虫nodejs爬虫代理配置

    随着互联网的发展进步,现在互联网上也有许多网络爬虫。网络爬虫通过自己爬虫程序向目标网站采集相关数据信息。当然互联网的网站会有反爬策略。比如某电商网站就会限制一个用户IP的访问频率,从而出现验证码
    发表于 09-01 17:23

    什么是爬虫

    什么是爬虫爬虫的价值?最简单的python爬虫爬虫基本架构
    发表于 11-05 06:13

    如何运行imdb爬虫

    imdbcn爬虫实例 imdbcn网站结构分析 创建爬虫项目 运行imdb爬虫
    发表于 11-05 07:07

    爬虫是如何实现数据的获取爬虫程序如何实现

    进入大数据时代,爬虫技术越来越重要,因为它是获取数据的一个重要手段,是大数据和云计算的基础。那么,爬虫到底是如何实现数据的获取的呢?今天和大家分享的就是一个系统学习爬虫技术的过程:先掌握爬虫
    发表于 01-02 16:30 10次下载
    <b class='flag-5'>爬虫</b>是如何实现数据的获取<b class='flag-5'>爬虫</b>程序如何实现

    Python爬虫 你真的会写爬虫吗?

    你以为你真的会写爬虫了吗?快来看看真正的爬虫架构!
    的头像 发表于 05-02 17:02 3534次阅读
    Python<b class='flag-5'>爬虫</b> 你真的会写<b class='flag-5'>爬虫</b>吗?

    如何使用表格做爬虫

    很多人不知道,其实我们最常用的表格,在某些情况下也是可以用来做爬虫的,而且爬下来的数据规整,不需要花太多时间进行数据清洗,来看看是怎么实现的。
    的头像 发表于 02-03 15:15 4631次阅读
    如何使用表格做<b class='flag-5'>爬虫</b>

    一文读懂关于爬虫的概念

    爬虫就是按照一定的规则,自动地抓取互联网信息的程序或者脚本,能够把网站上的信息收集回来,并且能在网站之间游走。爬虫还会模拟人的行为,这看看、那瞅瞅。 比如百度、谷歌等搜索引擎就是典型的爬虫
    的头像 发表于 10-12 16:05 1755次阅读
    一文读懂关于<b class='flag-5'>爬虫</b>的概念

    利用Python编写简单网络爬虫实例

    利用 Python编写简单网络爬虫实例2 实验环境python版本:3.3.5(2.7下报错
    发表于 02-24 11:05 13次下载

    导热凝胶的特色有哪些,来看看

    导热凝胶的特色有哪些,来看看,15年行业老经验共享
    的头像 发表于 03-07 17:12 2650次阅读
    导热凝胶的特色有哪些,<b class='flag-5'>来看看</b>