二维码 购物车
部落窝在线教育欢迎您!

用Excel“自网站”命令抓取网页数据的方法和无法抓取的原因

 

作者:花花来源:部落窝教育发布时间:2023-06-05 14:03:31点击:3145

分享到:
0
收藏    收藏人气:0人
版权说明: 原创作品,禁止转载。

编按:

今天主要是和大家分享如何用“自网站”命令抓取网页数据并实现自动更新。内容包括抓取数据的方法和无法抓取的原因。

 

我们可以用Excel快速抓取网页中的表格数据,避免手动复制粘贴的麻烦。Excel抓取网页数据有多种方法,今天介绍最简单的一种:用“自网站”命令抓取数据。

 

1. Excel“自网站”命令抓取数据的操作方法

最近比较关心房价的跌幅,所以下面以房价爬取为例介绍“自网站”命令的使用。

版本说明: Excel 2016及以上就有该命令,WPS或低版本可能会存在差异。

 

Step1:新建一个空白的表格,在数据选项卡中找到“自网站”按钮。如下图所示:

 

 

Step2:接着用浏览器打开需要抓取数据的网址,我们复制一下当前网页的网址。

 



Step3:接着回到Excel中,从数据选项卡中打开自网页按钮,软件会弹出一个“从web”对话框,选择高级,URL部分处粘贴刚刚固执的网址,单击确认后会提示正在连接。随后会出现一个导航器。

 

 

Step4:导航器如下图所示,其中抓取的会有两个表格的数据,Table0是房价涨幅数据,Table1是房价跌幅数据。

现在我们选中Table1在表视图中就能预览看到数据,接着选择转换数据即可。

 

 

Step5:转换数据后会跳转到Power Query编辑器界面,因为这个网页的数据相对比较规整的,所以不需要我们做额外的操作,只需要选择关闭并上载即可。

 

 

Step6:上载到Excel中的数据如下图所示,查询&连接会提示已经加载了10行。此时的表格数据也是默认套用的超级表样式。

 

 

Step7:我们可以光标定位在表格数据中,在表设计中找到快速样式进行更改一个我喜欢的表格样式,当需要刷新数据时可以单击一下刷新中的全部刷新按钮,表格的左下角就会提示在后台运行查询数据。

 

 

Step8:如果我们想自定义一下刷新的时间,也可以通过查询选项卡中找到查询属性,设置一下刷新控件中的刷新频率,这里我们可以以分钟进行自定义刷新的时间。

 

 

2. Excel“自网站”命令无法抓取数据的原因

很多朋友随意打开一个网页,看到网页中好像存在数据,就采用自网站命令进行抓取,但往往不成功,只得到一个名为Document的空表格,如下。

 

 

这是“自网站”命令抓取数据的局限性造成的。它只能抓取符合以下两个特征的网页数据:

1)支持GET请求。

GET请求指客户向服务器申请获取某个资源。通过Excel“自网站”命令爬数据,实际就是你向服务器发出得到资源请求。如果该资源服务接口不支持GET请求,那就无法爬取。

2)数据位于网页的table(表格)标签中。

在浏览器中打开网页后按F12打开网页调试器,单击调试器左上角第一个图标“选取页面元素”图标 ,然后移动鼠标到网页中的数据上,即可在“查看器”栏目中查看数据所在标签,如下图。如果数据不在中则无法爬取。

 

以上就是今日分享的Excel“自网站”命令抓取数据。它只能爬取位于标签中的数据,最大的优点是操作简单。

对于其他类型的网页数据,则需要采用其他方法来爬取。有兴趣的伙伴可以留言。

本文配套的练习课件请加入QQ群:902294808下载。

Excel高手,快速提升工作效率,部落窝教育《一周Excel直通车》视频和《Excel极速贯通班》直播课全心为你!

扫下方二维码关注公众号,可随时随地学习Excel

IMG_256

相关推荐:

如何提取品牌信息?LOOKUP函数有绝招!

没有Textjoin函数,如何解决提取数据的问题?

Excel教程:如何制作带有层次和透视感的图表?

八大查找函数公式,轻松搞定数据中的多条件查找

版权申明:

本文作者花花;同时部落窝教育享有专有使用权。若需转载请联系部落窝教育。