0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用表格做爬虫

Wildesbeast 来源:今日头条 作者:Python之眼 2020-02-03 15:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

很多人不知道,其实我们最常用的表格,在某些情况下也是可以用来做爬虫的,而且爬下来的数据规整,不需要花太多时间进行数据清洗,来看看是怎么实现的。

一、Microsoft Excel

首先教大家一个用Excel爬取数据的方法,这里用的Microsoft Excel 2013版本,下面手把手开始教学~

(1)新建Excel,打开它,如下图所示

(2)点击“数据”——“自网站”

(3)在弹出的对话框中输入目标网址,这里以全国实时空气质量网站为例,点击转到,再导入

选择导入位置,确定

(4)结果如下图所示,怎么样,是不是很赞?

(5)如果要实时更新数据,可以在“数据”——“全部更新”——“连接属性”中进行设置,输入更新频率即可

非诚勿扰:正在学习python的小伙伴或者打算学习的,可以私信小编“01”领取资料!

二、Google Sheet

使用Google Sheet爬取数据前,要保证三点:使用Chrome浏览器、拥有Google账号、电脑可以科学上网。如果这三个条件具备了的话,下面我们就开始吧~

(1)打开Google Sheet网站:http://www.google.cn/sheets/about/

(2)在首页上点击“转到Google表格”,然后登录自己的账号,可以看到如下界面,再点击“+”创建新的表格

新建的表格如下:

(3)打开要爬取的目标网站,一个全国实时空气质量网站http://www.pm25.in/rank,目标网站上的表格结构如下图所示

(4)回到Google sheet页面,使用函数=IMPORTHTML(网址, 查询, 索引),“网址”就是要爬取数据的目标网站,“查询”中输入“list”或“table”,这个取决于数据的具体结构类型,“索引”填阿拉伯数字,从1开始,对应着网站中定义的哪一份表格或列表

对于我们要爬取的网站,我们在Google sheet的A1单元格中输入函数

=IMPORTHTML("http://www.pm25.in/rank","table",1),回车后就爬得数据啦

(5)将爬取好的表格存到本地

是不是感觉超级简单?

当然,没有学习成本的技能缺陷也是很明显的,就是在网页的数据排列没那么规则的时候,或者说多个页面的数据,以上的方法就失效了,这个时候Python就展现出它强大的威力了。

不过,话说回来,这么装逼的技能,而且不需要学习成本,掌握了有什么不好呢,没准什么时候就能用上了。

最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 浏览器
    +关注

    关注

    1

    文章

    1043

    浏览量

    37165
  • Excel
    +关注

    关注

    4

    文章

    231

    浏览量

    57786
  • 爬虫
    +关注

    关注

    0

    文章

    87

    浏览量

    8174
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Python全栈一课通(470集)(12.96 GB)-网盘资源下载

    跨部门协作的摩擦成本 在传统的软件企业组织架构中,业务链条被人为地割裂:前端写页面、后端写接口、数据组写爬虫、测试组自动化。这种分工虽然在大规模工业时代有其合理性,但也催生了极其高昂的“内部交易成本
    发表于 04-19 16:30

    从个人开发到企业专属集群,NineData怎么的?

    最近看了一圈数据管理相关产品,一个比较明显的感受是: 很多工具都能解决一个点,但很少有产品能把“从开发到生产、从个人到企业”的整条链路做完整。 而 NineData 比较有意思的一点,正是它不只是
    的头像 发表于 03-25 15:35 101次阅读
    从个人开发到企业专属集群,NineData怎么<b class='flag-5'>做</b>的?

    小型直流 UPS 靠谱吗?怎样选择?

      UPS指的就是不间断电源(Uninterruptible Power Supply),停电时能给你家路由器、电脑继续供电的设备,防止数据丢失。那为什么学生和家用要用小型直流UPS呢,在做选择的时候又该怎么呢?下文就为大家分析。
    的头像 发表于 03-13 14:44 287次阅读
    小型直流 UPS 靠谱吗?怎样<b class='flag-5'>做</b>选择?

    油电同智?为什么燃油车很难自动驾驶?

    细心的小伙伴应该会发现,虽然市面上智能电动车的自动驾驶功能日新月异,但在燃油车领域,高阶智驾的普及速度却明显缓慢。为什么燃油车很难自动驾驶?
    的头像 发表于 03-01 11:54 1693次阅读
    油电同智?为什么燃油车很难<b class='flag-5'>做</b>自动驾驶?

    京东关键词搜索商品列表的Python爬虫实战

    京东关键词搜索商品列表 Python 爬虫实战 你想要实现京东关键词搜索商品的爬虫,我会从 合规声明、环境准备、页面分析、代码实现、反爬优化 五个方面展开,帮助你完成实战项目。 一、前置声明(重要
    的头像 发表于 01-04 10:16 1241次阅读

    智能显示模块能实现表格显示功能吗?

    智能显示模块能实现表格显示
    发表于 12-15 08:19

    # 深度解析:爬虫技术获取淘宝商品详情并封装为API的全流程应用

    需求。本文将深入探讨如何借助爬虫技术实现淘宝商品详情的获取,并将其高效封装为API。 一、爬虫技术核心原理与工具 1.1 爬虫运行机制 网络爬虫本质上是一种遵循特定规则,自动抓取网页信
    的头像 发表于 11-17 09:29 472次阅读

    用 Python 给 Amazon “全身 CT”——可量产、可扩展的商品详情爬虫实战

    一、技术选型:为什么选 Python 而不是 Java? 结论: “调研阶段用 Python,上线后如果 QPS 爆表再考虑 Java 重构。” 二、整体架构速览(3 分钟看懂) 三、开发前准备(5 分钟搞定) 环境 Python 3.11 + VSCode + 虚拟环境 依赖一次性装完 bash   python -m venv venvsource venv/bin/activatepip install playwright pandas tqdm loguru fake-useragent aiofilesplaywright install chromium # 自动下载浏览器   目标字段 & CSS 选择器   四、MVP:120 行代码即可跑通 单文件脚本,支持异步并发 10 个 ASIN,自动重
    的头像 发表于 10-21 16:59 625次阅读
    用 Python 给 Amazon <b class='flag-5'>做</b>“全身 CT”——可量产、可扩展的商品详情<b class='flag-5'>爬虫</b>实战

    从 0 到 1:用 PHP 爬虫优雅地拿下京东商品详情

    PHP 语言 实现一个 可运行的京东商品爬虫 ,不仅能抓取商品标题、价格、图片、评价数,还能应对常见的反爬策略。全文附完整代码, 复制粘贴即可运行 。 一、为什么选择 PHP 爬虫? 虽然 Python 是
    的头像 发表于 09-23 16:42 1060次阅读
    从 0 到 1:用 PHP <b class='flag-5'>爬虫</b>优雅地拿下京东商品详情

    Nginx限流与防爬虫配置方案

    在互联网业务快速发展的今天,网站面临着各种流量冲击和恶意爬虫的威胁。作为运维工程师,我们需要在保证正常用户访问的同时,有效防范恶意流量和爬虫攻击。本文将深入探讨基于Nginx的限流与防爬虫解决方案,从原理到实践,为大家提供一套完
    的头像 发表于 09-09 15:52 1071次阅读

    用于各种设备协议间报文转换的网关是什么

    用于各种设备协议间报文转换的网关通常被称为协议转换网关,也常被称为工业协议网关(在工业场景中)或多协议网关。它是一种专门用于解决不同设备、系统或网络之间因协议不兼容而无法直接通信的中间设备,核心
    的头像 发表于 08-11 14:08 1197次阅读
    用于各种设备协议间<b class='flag-5'>做</b>报文转换的网关是什么

    matlab appdesigner 表格组件赋值问题,求助

    如上图所示,我在用matlab2021Ra APP模块进行编程的时候,想在表格中调入自己编写的结构数组,我从网上AI了一个程序语句,看着没问题,但是就是给表格赋值不了,还请各位大神帮忙看一下这个是怎么回事,我是初学者,请各位帮忙看看
    发表于 07-12 11:45

    【HarmonyOS 5】鸿蒙应用实现发票扫描、文档扫描输出PDF图片或者表格的功能

    【HarmonyOS 5】鸿蒙应用实现发票扫描、文档扫描输出PDF图片或者表格的功能 ##鸿蒙开发能力 ##HarmonyOS SDK应用服务##鸿蒙金融类应用 (金融理财# 一、前言 图(1-1
    的头像 发表于 07-11 18:16 1576次阅读
    【HarmonyOS 5】鸿蒙应用实现发票扫描、文档扫描输出PDF图片或者<b class='flag-5'>表格</b>的功能

    求大佬解答,怎么保存为带表头的电子表格

    求大佬解答,怎么保存为带表头的电子表格
    发表于 06-04 14:14

    CYUSB3014从机FIFO接口图显示支持DQ[31:0],但表格仅表明支持DQ[15:0],哪一个是正确的?

    问题 1)从机FIFO接口图显示支持DQ[31:0],但表格仅表明支持DQ[15:0]。 哪一个是正确的? 请详细解释一下。 问题 2) 从属 FIFO 接口使用 A[1:0]、FLAGA 和 FLAGB,但 USB 通信也可以与所连接的电路配合使用。 我可以只使用 FLAGA 吗?
    发表于 05-16 06:15