二維碼 購物車
部落窩在線教育歡迎您!

用Excel“自網(wǎng)站”命令抓取網(wǎng)頁數(shù)據(jù)的方法和無法抓取的原因

?

作者:花花來源:部落窩教育發(fā)布時間:2023-06-05 14:03:31點擊:3340

分享到:
0
收藏    收藏人氣:0人
版權(quán)說明: 原創(chuàng)作品,禁止轉(zhuǎn)載。

編按:

今天主要是和大家分享如何用“自網(wǎng)站”命令抓取網(wǎng)頁數(shù)據(jù)并實現(xiàn)自動更新。內(nèi)容包括抓取數(shù)據(jù)的方法和無法抓取的原因。

 

我們可以用Excel快速抓取網(wǎng)頁中的表格數(shù)據(jù),避免手動復(fù)制粘貼的麻煩。Excel抓取網(wǎng)頁數(shù)據(jù)有多種方法,今天介紹最簡單的一種:用“自網(wǎng)站”命令抓取數(shù)據(jù)。

 

1. Excel“自網(wǎng)站”命令抓取數(shù)據(jù)的操作方法

最近比較關(guān)心房價的跌幅,所以下面以房價爬取為例介紹“自網(wǎng)站”命令的使用。

版本說明: Excel 2016及以上就有該命令,WPS或低版本可能會存在差異。

 

Step1:新建一個空白的表格,在數(shù)據(jù)選項卡中找到“自網(wǎng)站”按鈕。如下圖所示:

 

 

Step2:接著用瀏覽器打開需要抓取數(shù)據(jù)的網(wǎng)址,我們復(fù)制一下當(dāng)前網(wǎng)頁的網(wǎng)址。

 



Step3:接著回到Excel中,從數(shù)據(jù)選項卡中打開自網(wǎng)頁按鈕,軟件會彈出一個“從web”對話框,選擇高級,URL部分處粘貼剛剛固執(zhí)的網(wǎng)址,單擊確認后會提示正在連接。隨后會出現(xiàn)一個導(dǎo)航器。

 

 

Step4:導(dǎo)航器如下圖所示,其中抓取的會有兩個表格的數(shù)據(jù),Table0是房價漲幅數(shù)據(jù),Table1是房價跌幅數(shù)據(jù)。

現(xiàn)在我們選中Table1在表視圖中就能預(yù)覽看到數(shù)據(jù),接著選擇轉(zhuǎn)換數(shù)據(jù)即可。

 

 

Step5:轉(zhuǎn)換數(shù)據(jù)后會跳轉(zhuǎn)到Power Query編輯器界面,因為這個網(wǎng)頁的數(shù)據(jù)相對比較規(guī)整的,所以不需要我們做額外的操作,只需要選擇關(guān)閉并上載即可。

 

 

Step6:上載到Excel中的數(shù)據(jù)如下圖所示,查詢&連接會提示已經(jīng)加載了10行。此時的表格數(shù)據(jù)也是默認套用的超級表樣式。

 

 

Step7:我們可以光標(biāo)定位在表格數(shù)據(jù)中,在表設(shè)計中找到快速樣式進行更改一個我喜歡的表格樣式,當(dāng)需要刷新數(shù)據(jù)時可以單擊一下刷新中的全部刷新按鈕,表格的左下角就會提示在后臺運行查詢數(shù)據(jù)。

 

 

Step8:如果我們想自定義一下刷新的時間,也可以通過查詢選項卡中找到查詢屬性,設(shè)置一下刷新控件中的刷新頻率,這里我們可以以分鐘進行自定義刷新的時間。

 

 

2. Excel“自網(wǎng)站”命令無法抓取數(shù)據(jù)的原因

很多朋友隨意打開一個網(wǎng)頁,看到網(wǎng)頁中好像存在數(shù)據(jù),就采用自網(wǎng)站命令進行抓取,但往往不成功,只得到一個名為Document的空表格,如下。

 

 

這是“自網(wǎng)站”命令抓取數(shù)據(jù)的局限性造成的。它只能抓取符合以下兩個特征的網(wǎng)頁數(shù)據(jù):

1)支持GET請求。

GET請求指客戶向服務(wù)器申請獲取某個資源。通過Excel“自網(wǎng)站”命令爬數(shù)據(jù),實際就是你向服務(wù)器發(fā)出得到資源請求。如果該資源服務(wù)接口不支持GET請求,那就無法爬取。

2)數(shù)據(jù)位于網(wǎng)頁的table(表格)標(biāo)簽中。

在瀏覽器中打開網(wǎng)頁后按F12打開網(wǎng)頁調(diào)試器,單擊調(diào)試器左上角第一個圖標(biāo)“選取頁面元素”圖標(biāo) ,然后移動鼠標(biāo)到網(wǎng)頁中的數(shù)據(jù)上,即可在“查看器”欄目中查看數(shù)據(jù)所在標(biāo)簽,如下圖。如果數(shù)據(jù)不在中則無法爬取。

 

以上就是今日分享的Excel“自網(wǎng)站”命令抓取數(shù)據(jù)。它只能爬取位于標(biāo)簽中的數(shù)據(jù),最大的優(yōu)點是操作簡單。

對于其他類型的網(wǎng)頁數(shù)據(jù),則需要采用其他方法來爬取。有興趣的伙伴可以留言。

本文配套的練習(xí)課件請加入QQ群:902294808下載。

Excel高手,快速提升工作效率,部落窩教育《一周Excel直通車》視頻和《Excel極速貫通班》直播課全心為你!

掃下方二維碼關(guān)注公眾號,可隨時隨地學(xué)習(xí)Excel

IMG_256

相關(guān)推薦:

如何提取品牌信息?LOOKUP函數(shù)有絕招!

沒有Textjoin函數(shù),如何解決提取數(shù)據(jù)的問題?

Excel教程:如何制作帶有層次和透視感的圖表?

八大查找函數(shù)公式,輕松搞定數(shù)據(jù)中的多條件查找

版權(quán)申明:

本文作者花花;同時部落窩教育享有專有使用權(quán)。若需轉(zhuǎn)載請聯(lián)系部落窩教育。