好強的谷歌“Excel”,不用自己寫代碼就能爬蟲,網友立馬cue微軟:慌不慌?
豐色 發自 凹非寺
量子位 | 公眾號 QbitAI
家人們,要爬蟲——現在用一個電子表格就行了。
一行代碼也別寫,第三方軟件也甭安。
只需在表格里點幾下就ok。
不信,你瞧:
就這么兩下,網頁上的商品信息都有了。
網友看完都驚呆了,碼個不停。
一看到這是來自谷歌的產品(Google Sheet,谷歌的“Excel”),大家就立馬cue起了微軟,問它慌不慌。
還有人稱這是在“跨界打擊”它。?(手動狗頭)
△ 掃盲:“巨硬”就是微軟,網友給的調侃
好不熱鬧。
來看具體怎么實現。
詳細步驟
以爬亞馬遜某個手機產品的商品頁為例。
我們先打開谷歌Sheet(網友版即可),新建一個文檔。
然后copy一下要爬的網址,粘進去。
剩下的都在Sheet里完成。
我們先列一下要爬的元素,這里依次為:
商品圖片-識別碼(asin,亞馬遜給每個商品生成的唯一標識)-商品名-價格-評分-圖片網址。
然后就可以正式開始爬了。
要訣就是一個叫做ImportFromWeb的函數。
它也是個插件,沒有的需要先安裝一下(安裝地址放文末了),然后通過Google Sheet程序的“擴展程序”菜單導入就行。
我們只需把ImportFromWeb函數放進asin那一列,然后第一個參數選中剛剛粘過來的網址,第二個參數把要爬的元素單元格拖一遍(除了“圖片”)。
稍等個1~2s,價格、商品名等信息就都出來了!
還差圖片。
簡單~基操~
用IMAGE函數把G3格子里得到的圖片網址值給過去就行。
至此,第一個商品頁里的東西就爬到了。
唯一麻煩的是,如果還需要爬更多商品的信息,需要把商品網址挨個粘一遍。
然后就沒啥了,除了給單元格地址的行標列標加一下絕對引用符“$”。
這里可以不學視頻,直接一個f4就行。
拖一下,全部搞定!
怎么樣?是不是非常方便。
看完整個操作,你也發現了,其實就是谷歌寫了個腳本給咱封裝好了直接用。
而據官方介紹,這個ImportFromWeb功能還能自動更新爬取到的信息。
而且只要是用JS寫的網站都可以爬(基本等于絕大數網站了),每個函數還可支持50個url,以及數千個數據點。
快點碼起來吧~
參考鏈接:
[1]https://weibo.com/1402400261/M9ZY84thO?filter=hot&root_comment_id=0&type=comment
[2]https://www.getapp.sg/software/2060417/importfromweb
[3]https://workspace.google.com/marketplace/app/importfromweb_web_scraping_in_google_she/278587576794(安裝ImportFromWeb)
- 谷歌研究回顧2022年健康領域進展:達成多個合作,邁向移動醫療2023-03-03
- 美團創始高管離職創業/ 國內首個類ChatGPT下月開源/ 推特員工睡公司仍被裁 …今日更多新鮮事在此2023-02-27
- 人類離「定居月球」又近一步:貝索斯公司用月壤實現太陽能發電2023-02-24
- 每周只上四天班:半年試驗后,老板竟然也喜聞樂見2023-02-23



