前期焦點

透過jsoup解析網頁元素
2015-7-22

何謂 jsoup?

Java專案進行時,難免會遇到需要擷取、解析網頁元素的時候(例如進行網頁探勘…等),為了在抓取網站/網頁資料,進行資料蒐集,則需要一個強而有力的 HTML 解析器,jsoup的使用,正為得以效勞之處。

jsoup 是一個運作於真實世界的一個 java 函式庫,它為擷取與操作資料提供了一個非常方便、使用與撰寫DOM、CSS、jQuery類似方法的 API。同時,jsoup 實作了 WHATWG HTML5 所定義的規格,且解析的方法與目前主流瀏覽器的方法一樣。

使用方式

一、 我們必須先下載相關的函式庫,並加以載入,目前版本為 1.8.1。
二、 使用 Eclipse 編輯器,按下 Ctrl + Shift + O來匯入 jsoup 相關套件。
三、 按照下列各圖的指令,撰寫程式碼,即可呈現結果。


圖(一)欲抓取的元素


圖(二)官方網站提供程式碼範例


圖(三)程式碼撰寫


圖(四)執行結果

參考連結
[1] jsoup 官方網站:http://jsoup.org/
[2] eclipse 編輯器:https://eclipse.org/downloads/
[3] wikipedia:http://en.wikipedia.org/wiki/Main_Page