0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用表格做爬虫

Wildesbeast 来源:今日头条 作者:Python之眼 2020-02-03 15:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

很多人不知道,其实我们最常用的表格,在某些情况下也是可以用来做爬虫的,而且爬下来的数据规整,不需要花太多时间进行数据清洗,来看看是怎么实现的。

一、Microsoft Excel

首先教大家一个用Excel爬取数据的方法,这里用的Microsoft Excel 2013版本,下面手把手开始教学~

(1)新建Excel,打开它,如下图所示

(2)点击“数据”——“自网站”

(3)在弹出的对话框中输入目标网址,这里以全国实时空气质量网站为例,点击转到,再导入

选择导入位置,确定

(4)结果如下图所示,怎么样,是不是很赞?

(5)如果要实时更新数据,可以在“数据”——“全部更新”——“连接属性”中进行设置,输入更新频率即可

非诚勿扰:正在学习python的小伙伴或者打算学习的,可以私信小编“01”领取资料!

二、Google Sheet

使用Google Sheet爬取数据前,要保证三点:使用Chrome浏览器、拥有Google账号、电脑可以科学上网。如果这三个条件具备了的话,下面我们就开始吧~

(1)打开Google Sheet网站:http://www.google.cn/sheets/about/

(2)在首页上点击“转到Google表格”,然后登录自己的账号,可以看到如下界面,再点击“+”创建新的表格

新建的表格如下:

(3)打开要爬取的目标网站,一个全国实时空气质量网站http://www.pm25.in/rank,目标网站上的表格结构如下图所示

(4)回到Google sheet页面,使用函数=IMPORTHTML(网址, 查询, 索引),“网址”就是要爬取数据的目标网站,“查询”中输入“list”或“table”,这个取决于数据的具体结构类型,“索引”填阿拉伯数字,从1开始,对应着网站中定义的哪一份表格或列表

对于我们要爬取的网站,我们在Google sheet的A1单元格中输入函数

=IMPORTHTML("http://www.pm25.in/rank","table",1),回车后就爬得数据啦

(5)将爬取好的表格存到本地

是不是感觉超级简单?

当然,没有学习成本的技能缺陷也是很明显的,就是在网页的数据排列没那么规则的时候,或者说多个页面的数据,以上的方法就失效了,这个时候Python就展现出它强大的威力了。

不过,话说回来,这么装逼的技能,而且不需要学习成本,掌握了有什么不好呢,没准什么时候就能用上了。

最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 浏览器
    +关注

    关注

    1

    文章

    1042

    浏览量

    36910
  • Excel
    +关注

    关注

    4

    文章

    230

    浏览量

    57559
  • 爬虫
    +关注

    关注

    0

    文章

    87

    浏览量

    7961
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    # 深度解析:爬虫技术获取淘宝商品详情并封装为API的全流程应用

    需求。本文将深入探讨如何借助爬虫技术实现淘宝商品详情的获取,并将其高效封装为API。 一、爬虫技术核心原理与工具 1.1 爬虫运行机制 网络爬虫本质上是一种遵循特定规则,自动抓取网页信
    的头像 发表于 11-17 09:29 185次阅读

    用 Python 给 Amazon “全身 CT”——可量产、可扩展的商品详情爬虫实战

    一、技术选型:为什么选 Python 而不是 Java? 结论: “调研阶段用 Python,上线后如果 QPS 爆表再考虑 Java 重构。” 二、整体架构速览(3 分钟看懂) 三、开发前准备(5 分钟搞定) 环境 Python 3.11 + VSCode + 虚拟环境 依赖一次性装完 bash   python -m venv venvsource venv/bin/activatepip install playwright pandas tqdm loguru fake-useragent aiofilesplaywright install chromium # 自动下载浏览器   目标字段 & CSS 选择器   四、MVP:120 行代码即可跑通 单文件脚本,支持异步并发 10 个 ASIN,自动重
    的头像 发表于 10-21 16:59 388次阅读
    用 Python 给 Amazon <b class='flag-5'>做</b>“全身 CT”——可量产、可扩展的商品详情<b class='flag-5'>爬虫</b>实战

    从 0 到 1:用 PHP 爬虫优雅地拿下京东商品详情

    PHP 语言 实现一个 可运行的京东商品爬虫 ,不仅能抓取商品标题、价格、图片、评价数,还能应对常见的反爬策略。全文附完整代码, 复制粘贴即可运行 。 一、为什么选择 PHP 爬虫? 虽然 Python 是
    的头像 发表于 09-23 16:42 580次阅读
    从 0 到 1:用 PHP <b class='flag-5'>爬虫</b>优雅地拿下京东商品详情

    Nginx限流与防爬虫配置方案

    在互联网业务快速发展的今天,网站面临着各种流量冲击和恶意爬虫的威胁。作为运维工程师,我们需要在保证正常用户访问的同时,有效防范恶意流量和爬虫攻击。本文将深入探讨基于Nginx的限流与防爬虫解决方案,从原理到实践,为大家提供一套完
    的头像 发表于 09-09 15:52 670次阅读

    matlab appdesigner 表格组件赋值问题,求助

    如上图所示,我在用matlab2021Ra APP模块进行编程的时候,想在表格中调入自己编写的结构数组,我从网上AI了一个程序语句,看着没问题,但是就是给表格赋值不了,还请各位大神帮忙看一下这个是怎么回事,我是初学者,请各位帮忙看看
    发表于 07-12 11:45

    【HarmonyOS 5】鸿蒙应用实现发票扫描、文档扫描输出PDF图片或者表格的功能

    【HarmonyOS 5】鸿蒙应用实现发票扫描、文档扫描输出PDF图片或者表格的功能 ##鸿蒙开发能力 ##HarmonyOS SDK应用服务##鸿蒙金融类应用 (金融理财# 一、前言 图(1-1
    的头像 发表于 07-11 18:16 889次阅读
    【HarmonyOS 5】鸿蒙应用实现发票扫描、文档扫描输出PDF图片或者<b class='flag-5'>表格</b>的功能

    求大佬解答,怎么保存为带表头的电子表格

    求大佬解答,怎么保存为带表头的电子表格
    发表于 06-04 14:14

    爬虫数据获取实战指南:从入门到高效采集

    爬虫数据获取实战指南:从入门到高效采集     在数字化浪潮中,数据已成为驱动商业增长的核心引擎。无论是市场趋势洞察、竞品动态追踪,还是用户行为分析,爬虫技术都能助你快速捕获目标信息。然而,如何既
    的头像 发表于 03-24 14:08 1260次阅读

    PCB 过孔电流自动计算器表格(免积分下载)

    可以根据所需自行调整数据计算: 获取表格资料可下载附件哦!!!!
    发表于 03-13 11:20

    火语言如何循环读取表格

    描述 从MySQL读取数据(包含列名:id,name,count,create_date)输出到表格类型变量dt,用For循环读取表格每行数据,通过dt.Rows[i]['id']取表格第i行列
    的头像 发表于 02-07 15:11 519次阅读
    火语言如何循环读取<b class='flag-5'>表格</b>

    Spire.XLS for JavaScript——多功能JavaScript电子表格库(二)

    创建图表 图表是一种以视觉方式分组和分析数据的出色工具。它为读者提供数据集的结构,并以图形方式显示数据,这样大多数用户都能更容易看到数据。 创建数据透视表 数据透视表是一种交互式表格,让用户以简洁
    的头像 发表于 01-21 09:47 963次阅读
    Spire.XLS for JavaScript——多功能JavaScript电子<b class='flag-5'>表格</b>库(二)

    企业AI模型托管怎么

    当下,越来越多的企业选择将AI模型托管给专业的第三方平台,以实现高效、灵活和安全的模型运行。下面,AI部落小编为您介绍企业AI模型托管是怎么的。
    的头像 发表于 01-15 10:10 739次阅读

    Chart FX之DataGrid电子表格

    在Chart FX 中有一个名为 DataGrid 的电子表格,允许用户以电子表格的方式查看图表中包含的所有series 和points 。默认情况下,DataGrid 是只读的,但是开发人员可以
    的头像 发表于 01-06 10:59 613次阅读
    Chart FX之DataGrid电子<b class='flag-5'>表格</b>

    javascript:void(0) 是否影响SEO优化

    使用 javascript:void(0) 确实可能对SEO优化产生负面影响 。以下是关于 javascript:void(0) 对SEO影响的具体分析: 搜索引擎爬虫的理解问题 搜索引擎爬虫(如
    的头像 发表于 12-31 16:08 990次阅读

    IP地址数据信息和爬虫拦截的关联

    IP地址数据信息和爬虫拦截的关联主要涉及到两方面的内容,也就是数据信息和爬虫。IP 地址数据信息的内容丰富,包括所属地域、所属网络运营商、访问时间序列、访问频率等。 从IP地址信息中可以窥见
    的头像 发表于 12-23 10:13 681次阅读