0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Python 一个超快的公共情报搜集爬虫

科技绿洲 来源:Python实用宝典 作者:Python实用宝典 2023-11-03 15:16 次阅读

Photon是一个由s0md3v开源的情报搜集爬虫,其主要功能有:

1.爬取链接(内链、外链)。
2.爬取带参数的链接,如(pythondict.com/test?id=2)。
3.文件(pdf, png, xml)。
4.密钥(在前端代码中不小心被释放出来的)。
5.js文件和Endpoint(spring中比较重要的监视器)
6.匹配自定义正则表达式的字符串。
7.子域名和DNS相关数据。

你可以用它来干很多事,比如爬图片、找漏洞、找子域名、爬数据等等。而且提取出来的数据格式非常整洁:

图片

不仅如此,它甚至支持json格式 ,仅需要在输入命令的时候加上json参数:

python photon.py -u "http://example.com" --export=json

为什么能用来做情报搜集呢?耐心往后看哦。

1.下载安装

你可以上photon的github下载完整项目:
https://github.com/s0md3v/Photon

或者关注下方Python实用宝典公众号在后台回复photon获得国内网盘下载地址。下载后解压到你想要使用的地方。如果你还没有安装Python,建议阅读这篇文章:超详细Python安装指南,进行Python的安装。

安装完Python后,打开CMD(windows)/Terminal(macOS),下面简称为终端,进入你刚解压的文件夹,然后输入以下命令安装Photon的依赖:

pip install -r requirements.txt

如图所示:

图片

2.简单使用

注意,使用的时候要在Photon文件夹下。比如我们随便提取一个网站的URL试一下,在终端输入以下命令:

python photon.py -u https://bk.tencent.com/

结果如下:

图片

它会在当前目录下产生一个你测试的域名的文件夹,比如在我这里是 bk.tencent.com:

图片

嘻嘻,让我们看看里面有什么东西,有没有程序员留下的小彩蛋,打开external.txt,这是该网站的外链的存放位置。可以看到,这里不仅仅是只有网站页面,连CDN文件地址都会放在这里,所以external可能是个藏宝库哦。

图片

还能一下找出该网站上链接的全部开源项目:

图片

3.扩展

这个项目的价值,不仅在于能够快速拉取你想要得到的数据,还在于能够构建一个牛逼轰轰的 情报系统 (如果你技术够强的话)。因为它是能不断延伸下去的,比如从外链出发,你能找到很多和这个网站相关的讯息:

图片

相比于搜索引擎搜索的结果,实际上这些信息更符合情报的要求。而且 不是所有的信息都能在搜索引擎搜索得到 ,而通过这个Photon,你可以顺藤摸瓜找到那些隐藏在互联网世界的它们。

试想一下,如果你搜集了很多这样的网站...然后用正则表达式搭建一个属于你自己的搜索引擎,这样的感觉是不是很棒?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 监视器
    +关注

    关注

    0

    文章

    763

    浏览量

    32837
  • 参数
    +关注

    关注

    11

    文章

    1398

    浏览量

    31471
  • 代码
    +关注

    关注

    30

    文章

    4555

    浏览量

    66767
  • python
    +关注

    关注

    51

    文章

    4675

    浏览量

    83466
  • 爬虫
    +关注

    关注

    0

    文章

    77

    浏览量

    6517
收藏 人收藏

    评论

    相关推荐

    Python数据爬虫学习内容

    ,利用爬虫,我们可以解决部分数据问题,那么,如何学习Python数据爬虫能?1.学习Python基础知识并实现基本的爬虫过程
    发表于 05-09 17:25

    Python爬虫与Web开发库盘点

    ,高层次的web抓取网页,并从web站点的页面中提取结构化的数据Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。最爽的就是它是框架,任何人都可以根据需求方便的修改,里面有很多类型爬虫的基
    发表于 05-10 15:21

    Python爬虫初学者需要准备什么?

    ,想从事这方面的工作,需掌握以下知识:1. 学习Python基础知识并实现基本的爬虫过程般获取数据的过程都是按照发送请求-获得页面反馈-解析并且存储数据 这三流程来实现的。这个过程
    发表于 06-20 17:14

    Python 爬虫:8 常用的爬虫技巧总结!

    的话,就需要多线程了,这里给简单的线程池模板 这个程序只是简单地打印了1-10,但是可以看出是并发的。虽然说python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能定程度提高
    发表于 01-02 14:37

    0基础入门Python爬虫实战课

    学习资料良莠不齐爬虫门实践性的技能,没有实战的课程都是骗人的!所以这节Python爬虫实战课,将帮到你!课程从0基础入门开始,受众人群广泛:如毕业大学生、转行人群、对
    发表于 07-25 09:28

    Python爬虫简介与软件配置

    Python爬虫练习爬虫简介1. 介绍2. 软件配置二、爬取南阳理工OJ题目三、爬取学校信息通知四、总结五、参考
    发表于 01-11 06:32

    python网络爬虫概述

    、MySQL、MongoDB、Redis …关于爬虫的合法性几乎每个网站都有名为robots.txt的文档,当然也有有些网站没有设定。对于没有设定robots.txt的网站可以通过网络爬虫
    发表于 03-21 16:51

    Python 公共情报搜集爬虫——Photon

    Photon是由s0md3v开源的情报搜集爬虫,其主要功能有:1.爬取链接(内链、外链)。2.爬取带参数的链接,如(pythondict.com/test?id=2)。3.文件(p
    发表于 06-23 16:35

    详细用Python写网络爬虫

    详细用Python写网络爬虫
    发表于 09-07 08:40 32次下载
    详细用<b class='flag-5'>Python</b>写网络<b class='flag-5'>爬虫</b>

    完全自学指南Python爬虫BeautifulSoup详解

    完全自学指南Python爬虫BeautifulSoup详解
    发表于 09-07 08:55 36次下载
    完全自学指南<b class='flag-5'>Python</b><b class='flag-5'>爬虫</b>BeautifulSoup详解

    WebSpider——多个python爬虫项目下载

    此文档包含多个python爬虫项目
    发表于 03-26 09:29 3次下载

    python爬虫入门教程之python爬虫视频教程分布式爬虫打造搜索引擎

    本文档的主要内容详细介绍的是python爬虫入门教程之python爬虫视频教程分布式爬虫打造搜索引擎
    发表于 08-28 15:32 29次下载

    Python写网络爬虫

    Python写网络爬虫的方法说明。
    发表于 06-01 11:55 21次下载

    利用Python编写简单网络爬虫实例

    利用 Python编写简单网络爬虫实例2 实验环境python版本:3.3.5(2.7下报错
    发表于 02-24 11:05 13次下载

    Photon:一个超快的公共情报搜集爬虫

    Photon是一个由s0md3v开源的情报搜集爬虫,其主要功能有: 1.爬取链接(内链、外链)。 2.爬取带参数的链接,如(pythondict.com/test?id=2)。 3.文件(pdf
    的头像 发表于 10-31 15:17 245次阅读
    Photon:一个超快的<b class='flag-5'>公共</b><b class='flag-5'>情报搜集</b><b class='flag-5'>爬虫</b>