二維碼 購物車
部落窩在線教育歡迎您!

用Excel“自網(wǎng)站”命令抓取網(wǎng)頁數(shù)據(jù)的方法和無法抓取的原因

?

作者:花花來源:部落窩教育發(fā)布時(shí)間:2023-06-05 14:03:31點(diǎn)擊:2942

分享到:
0
收藏    收藏人氣:0人
版權(quán)說明: 原創(chuàng)作品,禁止轉(zhuǎn)載。

編按:

今天主要是和大家分享如何用“自網(wǎng)站”命令抓取網(wǎng)頁數(shù)據(jù)并實(shí)現(xiàn)自動(dòng)更新。內(nèi)容包括抓取數(shù)據(jù)的方法和無法抓取的原因。

 

我們可以用Excel快速抓取網(wǎng)頁中的表格數(shù)據(jù),避免手動(dòng)復(fù)制粘貼的麻煩。Excel抓取網(wǎng)頁數(shù)據(jù)有多種方法,今天介紹最簡單的一種:用“自網(wǎng)站”命令抓取數(shù)據(jù)。

 

1. Excel“自網(wǎng)站”命令抓取數(shù)據(jù)的操作方法

最近比較關(guān)心房價(jià)的跌幅,所以下面以房價(jià)爬取為例介紹“自網(wǎng)站”命令的使用。

版本說明: Excel 2016及以上就有該命令,WPS或低版本可能會(huì)存在差異。

 

Step1:新建一個(gè)空白的表格,在數(shù)據(jù)選項(xiàng)卡中找到“自網(wǎng)站”按鈕。如下圖所示:

 

 

Step2:接著用瀏覽器打開需要抓取數(shù)據(jù)的網(wǎng)址,我們復(fù)制一下當(dāng)前網(wǎng)頁的網(wǎng)址。

 



Step3:接著回到Excel中,從數(shù)據(jù)選項(xiàng)卡中打開自網(wǎng)頁按鈕,軟件會(huì)彈出一個(gè)“從web”對話框,選擇高級,URL部分處粘貼剛剛固執(zhí)的網(wǎng)址,單擊確認(rèn)后會(huì)提示正在連接。隨后會(huì)出現(xiàn)一個(gè)導(dǎo)航器。

 

 

Step4:導(dǎo)航器如下圖所示,其中抓取的會(huì)有兩個(gè)表格的數(shù)據(jù),Table0是房價(jià)漲幅數(shù)據(jù),Table1是房價(jià)跌幅數(shù)據(jù)。

現(xiàn)在我們選中Table1在表視圖中就能預(yù)覽看到數(shù)據(jù),接著選擇轉(zhuǎn)換數(shù)據(jù)即可。

 

 

Step5:轉(zhuǎn)換數(shù)據(jù)后會(huì)跳轉(zhuǎn)到Power Query編輯器界面,因?yàn)檫@個(gè)網(wǎng)頁的數(shù)據(jù)相對比較規(guī)整的,所以不需要我們做額外的操作,只需要選擇關(guān)閉并上載即可。

 

 

Step6:上載到Excel中的數(shù)據(jù)如下圖所示,查詢&連接會(huì)提示已經(jīng)加載了10行。此時(shí)的表格數(shù)據(jù)也是默認(rèn)套用的超級表樣式。

 

 

Step7:我們可以光標(biāo)定位在表格數(shù)據(jù)中,在表設(shè)計(jì)中找到快速樣式進(jìn)行更改一個(gè)我喜歡的表格樣式,當(dāng)需要刷新數(shù)據(jù)時(shí)可以單擊一下刷新中的全部刷新按鈕,表格的左下角就會(huì)提示在后臺運(yùn)行查詢數(shù)據(jù)。

 

 

Step8:如果我們想自定義一下刷新的時(shí)間,也可以通過查詢選項(xiàng)卡中找到查詢屬性,設(shè)置一下刷新控件中的刷新頻率,這里我們可以以分鐘進(jìn)行自定義刷新的時(shí)間。

 

 

2. Excel“自網(wǎng)站”命令無法抓取數(shù)據(jù)的原因

很多朋友隨意打開一個(gè)網(wǎng)頁,看到網(wǎng)頁中好像存在數(shù)據(jù),就采用自網(wǎng)站命令進(jìn)行抓取,但往往不成功,只得到一個(gè)名為Document的空表格,如下。

 

 

這是“自網(wǎng)站”命令抓取數(shù)據(jù)的局限性造成的。它只能抓取符合以下兩個(gè)特征的網(wǎng)頁數(shù)據(jù):

1)支持GET請求。

GET請求指客戶向服務(wù)器申請獲取某個(gè)資源。通過Excel“自網(wǎng)站”命令爬數(shù)據(jù),實(shí)際就是你向服務(wù)器發(fā)出得到資源請求。如果該資源服務(wù)接口不支持GET請求,那就無法爬取。

2)數(shù)據(jù)位于網(wǎng)頁的table(表格)標(biāo)簽中。

在瀏覽器中打開網(wǎng)頁后按F12打開網(wǎng)頁調(diào)試器,單擊調(diào)試器左上角第一個(gè)圖標(biāo)“選取頁面元素”圖標(biāo) ,然后移動(dòng)鼠標(biāo)到網(wǎng)頁中的數(shù)據(jù)上,即可在“查看器”欄目中查看數(shù)據(jù)所在標(biāo)簽,如下圖。如果數(shù)據(jù)不在中則無法爬取。

 

以上就是今日分享的Excel“自網(wǎng)站”命令抓取數(shù)據(jù)。它只能爬取位于標(biāo)簽中的數(shù)據(jù),最大的優(yōu)點(diǎn)是操作簡單。

對于其他類型的網(wǎng)頁數(shù)據(jù),則需要采用其他方法來爬取。有興趣的伙伴可以留言。

本文配套的練習(xí)課件請加入QQ群:902294808下載。

Excel高手,快速提升工作效率,部落窩教育《一周Excel直通車》視頻和《Excel極速貫通班》直播課全心為你!

掃下方二維碼關(guān)注公眾號,可隨時(shí)隨地學(xué)習(xí)Excel

IMG_256

相關(guān)推薦:

如何提取品牌信息?LOOKUP函數(shù)有絕招!

沒有Textjoin函數(shù),如何解決提取數(shù)據(jù)的問題?

Excel教程:如何制作帶有層次和透視感的圖表?

八大查找函數(shù)公式,輕松搞定數(shù)據(jù)中的多條件查找

版權(quán)申明:

本文作者花花;同時(shí)部落窩教育享有專有使用權(quán)。若需轉(zhuǎn)載請聯(lián)系部落窩教育。