何謂 jsoup?
Java專案進行時,難免會遇到需要擷取、解析網頁元素的時候(例如進行網頁探勘…等),為了在抓取網站/網頁資料,進行資料蒐集,則需要一個強而有力的 HTML 解析器,jsoup的使用,正為得以效勞之處。
jsoup 是一個運作於真實世界的一個 java 函式庫,它為擷取與操作資料提供了一個非常方便、使用與撰寫DOM、CSS、jQuery類似方法的 API。同時,jsoup 實作了 WHATWG HTML5 所定義的規格,且解析的方法與目前主流瀏覽器的方法一樣。
使用方式
一、 我們必須先下載相關的函式庫,並加以載入,目前版本為 1.8.1。
二、 使用 Eclipse 編輯器,按下 Ctrl + Shift + O來匯入 jsoup 相關套件。
三、 按照下列各圖的指令,撰寫程式碼,即可呈現結果。
圖(一)欲抓取的元素
圖(二)官方網站提供程式碼範例
圖(三)程式碼撰寫
圖(四)執行結果
參考連結
[1] jsoup 官方網站:http://jsoup.org/
[2] eclipse 編輯器:https://eclipse.org/downloads/
[3] wikipedia:http://en.wikipedia.org/wiki/Main_Page