0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用Python爬去百度贴吧图片并保存到本地

马哥Linux运维 来源:lq 2018-12-03 14:55 次阅读

描述:用Python爬去百度贴吧图片并保存到本地。本人刚学爬虫还不是很熟练,其中难点在于正则表达式的理解;

说明

01

获取整个页面数据

Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数:

urllib.urlopen()方法用于打开一个URL地址。

read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。

02

筛选页面中想要的数据

Python 提供了非常强大的正则表达式,我们需要先要了解一点python 正则表达式的知识才行。假如我们百度贴吧找到了几张漂亮的壁纸,通过到前段查看工具。找到了图片的地址,如:src=”http://imgsrc.baidu.com/forum……jpg”pic_ext=”jpeg”

我们又创建了getImg()函数,用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式:

re.compile() 可以把正则表达式编译成一个正则表达式对象.

re.findall() 方法读取html 中包含 imgre(正则表达式)的数据。

运行脚本将得到整个页面中包含图片的URL地址。

03

将页面筛选的数据保存到本地

通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。

程序运行完成,将在目录下看到下载到本地的文件。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • python
    +关注

    关注

    51

    文章

    4674

    浏览量

    83459
  • 爬虫
    +关注

    关注

    0

    文章

    77

    浏览量

    6514

原文标题:Python爬取百度贴吧图片

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    [灌水]如何提升网站在百度的排名

    如何提升网站在百度的排名我想大多数网站流量的来源绝大部分来自百度,所以如何成为百度的“宠儿”,是得到流量的关键,所以今天,我们谈谈如何在短时间内快速提升百度的排名,其实,以下的方法也适
    发表于 11-09 16:55

    百度浏览器1.2 beta版发布

    `升级日志:1、百度浏览器利用百度强大的平台整合力,为您整合万千热门应用,给您一键触达的超快感体验。2、简单可依赖的界面,简洁易操作的设计,洗净繁琐只为您的快捷便利。3、安全浏览模式融合了沙箱技术
    发表于 07-19 09:01

    下载百度到桌面_把百度下载到桌面

    `现在教你怎么把百度下载到桌面,让后你很方便就可以百度。利用百度强大的平台整合力,为您整合万千热门应用,给您一键触达的超快感体验。 简单可依赖的界面,简洁易操作的设计,洗净繁琐只为您
    发表于 10-26 17:16

    怎样Labview将AVI视频转换成图片序列保存到指定文件夹

    怎么样Labview 将一段AVI视频转换成图片序列保存到指定文件夹。
    发表于 11-05 17:45

    百度地图离线API调用教程

    →选择一款浏览器,我这里的是谷歌浏览器,打开效果如图7,可以看到标注点的坐标信息,拖动标注点可以查看到标注点所在的位置的坐标信息。图6 图73、总结以上就是制作离线百度地图的方法,是不是真的很
    发表于 01-24 09:42

    python实现网页爬虫图片

    非常强大的正则表达式,我们需要先要了解一点python 正则表达式的知识才行。re模块中一些重要的函数:假如我们百度找到了几张漂亮的壁纸,通过到前段查看工具。找到了
    发表于 04-05 15:32

    百度竞价排名这件事你怎么看?

    `魏则西事件炸出了百度竞价排名的黑幕但事实上百度竞价排名并不是什么新鲜玩意相信很多喜欢百度一下的亲们都知道很多情况下搜索排名的前几条都不是你想要的答案小编曾经年少无知的时候也曾错信过
    发表于 05-03 15:24

    Python助力百度无人车 人工智能时代到来

    今年7月份,在“百度AI开发者大会”上,百度CEO李彦宏亲自乘坐百度无人车,在真实路况下演示了百度无人驾驶技术,预示着人工智能时代的到来。百度
    发表于 12-13 14:48

    使用Python爬虫实现百度图片自动下载的方法

    如何用Python爬虫实现百度图片自动下载?
    发表于 05-23 14:55

    百度UEditor_解决图片在手机端的自适应问题

    [笔记]百度UEditor_解决图片在手机端的自适应问题
    发表于 06-16 16:10

    4412开发板图像识别项目-通过QT制作图形界面调用百度AI进行图像识别(二)

    (timeout()),this,SLOT(ReadFarme()));添加完如下图所示:​获取摄像头图像显示在屏幕上,我就完成了,接下来我们把获取到的图线传递给百度AI的接口,然后获取百度AI接口返回
    发表于 11-17 10:20

    百度API调用(三)——语音识别 精选资料推荐

    需要的服务,简单填写应用描述即可创建6、创建完成后可以在应用列表中管理或者删除你所创建的应用7、需要开启对应服务才可以使用点击立即领取即可获得免费调用次数(十几万次对于个人学习使用足够了) 二、python实现百度语音识别实例:(发送已经
    发表于 08-18 06:44

    怎么开通百度语音技术接口服务?

    怎么开通百度语音技术接口服务?python实现百度语音识别的步骤是怎样的?
    发表于 11-22 07:18

    Python将二维数组输出为图片

    使用Python读取二维数组,将二维数组输出为图片,并保存本地
    的头像 发表于 01-11 16:18 1018次阅读
    <b class='flag-5'>Python</b>将二维数组输出为<b class='flag-5'>图片</b>

    Python图片输出为二维数组并保存到txt中

    使用Python图片输出为二维数组,并保存到txt文件中。
    的头像 发表于 01-11 16:21 1357次阅读