0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Photon:一个超快的公共情报搜集爬虫

科技绿洲 来源:Python实用宝典 作者:Python实用宝典 2023-10-31 15:17 次阅读

Photon是一个由s0md3v开源的情报搜集爬虫,其主要功能有:

1.爬取链接(内链、外链)。
2.爬取带参数的链接,如(pythondict.com/test?id=2)。
3.文件(pdf, png, xml)。
4.密钥(在前端代码中不小心被释放出来的)。
5.js文件和Endpoint(spring中比较重要的监视器)
6.匹配自定义正则表达式的字符串。
7.子域名和DNS相关数据。

你可以用它来干很多事,比如爬图片、找漏洞、找子域名、爬数据等等。而且提取出来的数据格式非常整洁:

图片

不仅如此,它甚至支持json格式 ,仅需要在输入命令的时候加上json参数:

python photon.py -u "http://example.com" --export=json

为什么能用来做情报搜集呢?耐心往后看哦。

1.下载安装

你可以上photon的github下载完整项目:
https://github.com/s0md3v/Photon

或者关注下方Python实用宝典公众号在后台回复photon获得国内网盘下载地址。下载后解压到你想要使用的地方。如果你还没有安装Python,建议阅读这篇文章:超详细Python安装指南,进行Python的安装。

安装完Python后,打开CMD(windows)/Terminal(macOS),下面简称为终端,进入你刚解压的文件夹,然后输入以下命令安装Photon的依赖:

pip install -r requirements.txt

如图所示:

图片

2.简单使用

注意,使用的时候要在Photon文件夹下。比如我们随便提取一个网站的URL试一下,在终端输入以下命令:

python photon.py -u https://bk.tencent.com/

结果如下:

图片

它会在当前目录下产生一个你测试的域名的文件夹,比如在我这里是 bk.tencent.com:

图片

嘻嘻,让我们看看里面有什么东西,有没有程序员留下的小彩蛋,打开external.txt,这是该网站的外链的存放位置。可以看到,这里不仅仅是只有网站页面,连CDN文件地址都会放在这里,所以external可能是个藏宝库哦。

图片

还能一下找出该网站上链接的全部开源项目:

图片

3.扩展

这个项目的价值,不仅在于能够快速拉取你想要得到的数据,还在于能够构建一个牛逼轰轰的 情报系统 (如果你技术够强的话)。因为它是能不断延伸下去的,比如从外链出发,你能找到很多和这个网站相关的讯息:

图片

相比于搜索引擎搜索的结果,实际上这些信息更符合情报的要求。因为存在禁止搜索引擎爬取的 robot.txt, 所以 不是网站的所有信息都能在搜索引擎搜索得到 ,而通过这个Photon,你可以顺藤摸瓜找到那些隐藏在互联网世界的它们。

试想一下,如果你搜集了很多这样的网站...然后用正则表达式搭建一个属于你自己的搜索引擎,这样的感觉是不是很棒?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 参数
    +关注

    关注

    11

    文章

    1398

    浏览量

    31471
  • 开源
    +关注

    关注

    3

    文章

    2985

    浏览量

    41718
  • 漏洞
    +关注

    关注

    0

    文章

    193

    浏览量

    15114
  • 爬虫
    +关注

    关注

    0

    文章

    77

    浏览量

    6517
  • photon
    +关注

    关注

    0

    文章

    32

    浏览量

    3610
收藏 人收藏

    评论

    相关推荐

    识别网络爬虫的策略分析

    的网络资源。由爬虫产生的网络流量占总流量的37.2%,其中由恶意爬虫产生的流量约占65%[1]。如何在网络流量中识别爬虫,是判断爬虫行为意图的前提,常见的使用
    的头像 发表于 09-14 09:08 1296次阅读
    识别网络<b class='flag-5'>爬虫</b>的策略分析

    项目管理部经理/项目管理课课长/项目管理师-上海

    性电子产品工作经历尤佳项目管理课课长-上海工作职责:1. 项目开发进程内部各单位之沟通协调2. 项目开发进程外部单位及客户之沟通协调3. 产业及客户讯息情报搜集及分析4. 金属产品制程及成本结构掌握
    发表于 01-20 11:43

    Python数据爬虫学习内容

    ,利用爬虫,我们可以解决部分数据问题,那么,如何学习Python数据爬虫能?1.学习Python基础知识并实现基本的爬虫过程般获取数据的过程都是按照 发送请求-获得页面反馈-解析并且
    发表于 05-09 17:25

    Python爬虫与Web开发库盘点

    ,高层次的web抓取网页,并从web站点的页面中提取结构化的数据Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。最爽的就是它是框架,任何人都可以根据需求方便的修改,里面有很多类型爬虫的基
    发表于 05-10 15:21

    物联网网关系统设计是怎么样的?

    、监控和管理的种网络。物联网是具有全面感知、可靠传输、智能处理特征的连接物理世界的网络。物联网用途广泛,遍及智能交通、环境保护、***工作、公共安全、平安家居、智能消防、工业监测、老人护理、个人健康、*卉栽培、水系监测、食品溯源、敌情侦查和
    发表于 08-08 07:50

    网络爬虫之关于爬虫http代理的常见使用方式

    网络链接,代理平台自动实现毫秒级代理IP切换,保证了网络稳定性和速度,避免爬虫客户在代理IP策略优化上投入精力。这种方式适用于专做爬虫的用户或者第次使用http代理的用户,使用方便更加简单。市面上
    发表于 04-26 17:43

    网络爬虫nodejs爬虫代理配置

    随着互联网的发展进步,现在互联网上也有许多网络爬虫。网络爬虫通过自己爬虫程序向目标网站采集相关数据信息。当然互联网的网站会有反爬策略。比如某电商网站就会限制
    发表于 09-01 17:23

    Golang爬虫语言接入代理?

    都是可以写出爬虫系统的。无论用什么爬虫语言框架,长期使用IP去采集数据,肯定会收到限制。
    发表于 09-09 17:41

    Python 公共情报搜集爬虫——Photon

    Photon由s0md3v开源的情报搜集爬虫,其主要功能有:1.爬取链接(内链、外链)。2.爬取带参数的链接,如(pythondict
    发表于 06-23 16:35

    基于SVM的主体爬虫采集方法

    为了准确高效采集航天领域内的竞争情报,提出了基于SVM的主题爬虫采集方法。设计了航天领域情报采集总体框架,采用支持向量机分类算法,利用适量已有航天情报信息,强化特定领域特征权重,训练航
    发表于 11-13 11:26 13次下载
    基于SVM的主体<b class='flag-5'>爬虫</b>采集方法

    Single-Photon Detector

    Single-Photon Detector
    发表于 11-23 11:31 0次下载

    物联网的应用在中国将聚焦五大领域

    物联网有许多广泛的用途,遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业监测、老人护理、个人健康、花卉栽培、水系监测、食品溯源、敌情侦查和情报搜集等多个领域。
    发表于 10-10 09:48 2822次阅读

    哪些物联网应用将会在中国爆发

    物联网有许多广泛的用途,遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业监测、老人护理、个人健康、花卉栽培、水系监测、食品溯源、敌情侦查和情报搜集等多个领域。
    发表于 03-25 09:15 389次阅读

    Photon情报搜集爬虫的主要功能与安装使用说明

    你可以用它来干很多事,比如爬图片、找漏洞、找子域名、爬数据等等。
    的头像 发表于 06-23 16:35 856次阅读
    <b class='flag-5'>Photon</b><b class='flag-5'>情报搜集</b><b class='flag-5'>爬虫</b>的主要功能与安装使用说明

    Python 一个超快的公共情报搜集爬虫

    Photon是一个由s0md3v开源的情报搜集爬虫,其主要功能有: 1.爬取链接(内链、外链)。 2.爬取带参数的链接,如(pythondict.com/test?id=2)。 3.文件(pdf
    的头像 发表于 11-03 15:16 293次阅读
    Python 一个超快的<b class='flag-5'>公共</b><b class='flag-5'>情报搜集</b><b class='flag-5'>爬虫</b>