程式扎記

參考至自己動手寫網路爬蟲 ISBN:9866143309
前言 :
在開始這個主題前, 可能你必須具備了解 Http, Http Status code 與一些簡單的 Algorithm 如 Tree 的廣度優先 Visited. 幸運的是這些並不會太難, 且網路有相當多資源在解釋或說明它們. 這裡我們要介紹的是 Crawler 俗稱爬蟲, 而爬蟲的用途則是檢查網際網路並將相關的網頁抓取過來.

網際網路可以看成一個超級大的圖型結構, 而每個頁面可以看成是一個"節點". 頁面的連結則可以看成圖的 "有向邊". 因此能透過圖的檢查方式對這個網際網路這個超級大的 "圖" 進行存取. 而圖的檢查通常可以分為寬度優先檢查與深度優先檢查兩種方式. 但是深度優先檢查可能會在深度檢查時進入了"無止盡"的黑洞而不可自拔, 因此大多數爬蟲都不採用這種方式. 另一方面在爬取時, 有時候也不能完全按照寬度優先檢查方式, 而是給待檢查的網頁賦予一定的優先順序, 根據這個優先順序進行檢查, 這種方式稱為帶偏好的檢查.

圖的寬度優先檢查 :
在開始介紹爬蟲前先來了解一下寬度優先的檢查過程. 圖的寬度優先檢查 (BFS) 演算法是一個分層搜尋的過程, 和樹的層序檢查演算法相同. 首先在圖中選取一個節點作為起始節點, 然後按照階層檢查方式一層層的進行存取. 事實上寬度優先使用佇列資料結構來完成所以一層層的存取, 實際演算法如下所列 :

(1) 頂點 V 入佇列
(2) 當佇列非空時繼續往下執行, 否則退出並完成演算法.
(3) 出佇列, 並存取該節點 V 後標示該節點已被存取.
(4) 尋找頂點 V 的相鄰頂點, 如果該頂點 col 未被存與過則將該頂點進佇列.
(5) 前往步驟 (2)

沒圖沒真相, 下面我們以圖示方式介紹寬度優先檢查過程 :

在上圖的檢查過程中, 出佇列的節點順序即是圖的寬度優先檢查存取順序. 由上可以知道存取順序為 :

A -> B -> C -> D -> E -> F -> H -> G -> I

接著我們會著重講解如何對網際網路進行寬度優先檢查.

寬度優先檢查網際網路 :
實際上的爬蟲種子連結就像寬度優先檢查的節點, 可以有多個而如何定義一個連結的子檢點? 每個連結對應一個 HTML 頁面或是其他檔案 (如 word, pdf, jpg 等), 在這些檔案中, 只有 HTML 頁面中有相應的 "子節點", 這些子節點就是頁面上對應的超連結. 整個寬度優先爬蟲過程就是從一系列的種子節點開始, 接著把網頁的 "子節點" (也就是超連結) 分析出來並放入佇列依次進行抓取. 被處理過的連結需放入一張表 (通常稱為 Visited 表) 中. 每次新處理一個連結前都須檢視這個連結是否已經存在於 Visited 表中, 如果存在代表已經處理過並跳過, 否則進行下一步處理. 過程如下 :

如上圖所示, 初始的 URL 位址是爬蟲系統中提供的種子 URL (一般是系統設定檔中給定). 當解析這些種子 URL 網頁時, 上面的連結會產生新的 URL 並進行下面步驟 :

(1) 把解析出來的連結與 Visited 表中的連結進行比較, 若 Visited 表中不存在此連結表示未被處理過.
(2) 如果未被處理過則放進 TODO 表中.
(3) 處理完畢後, 再次從 TODO 表中取得下一條連結並放入 Visited 中.
(4) 針對處理連結網頁繼續上述過程直到 TODO 表為空.

之所以採用寬度優先為爬蟲處理網頁的策略, 主要原因有三點 :

* 重要的網頁往往離種子比較近.
* www 的實際深度最多能達到 17 層, 但到達某個網頁總存在一條很短路徑, 而寬度優先檢查會以最快速度到達這個網頁.
* 寬度優先有利於多爬蟲的合作抓取, 多爬蟲合作通常先抓站內連結, 抓取封閉性強.

底下我們會來看看實作的部分.

Java 寬度優先爬蟲範例 :
這裡使用 Java 實現一個簡單的爬蟲, 其中用到 HttpClient 和 HttpParser 兩個開放原代碼工具包. 有關這兩個開源包的使用說明, 請參考對應官網上的教學. 下面為程式的執行流程 :

首先需要有一個 "URL 佇列", 這裡使用 LinkedList 來實現這個佇列 :

- Queue.java :

view plain copy to clipboard print ?

package john.crawler;



import java.util.LinkedList;



/**

* 數據結構隊列

*/

public class Queue {



    private LinkedList queue=new LinkedList();



    public void enQueue(T t)

    {

        queue.addLast(t);

    }



    public T deQueue()

    {

        return queue.removeFirst();

    }



    public boolean isQueueEmpty()

    {

        return queue.isEmpty();

    }



    public boolean contians(T t)

    {

        return queue.contains(t);

    }



    public boolean empty()

    {

        return queue.isEmpty();

    }



    public void clear(){queue.clear();}

}

除了 URL 佇列外, 在爬蟲過程中還需要一個資料結構來記錄已經存取過的 URL. 每當要存取一個 URL 時候, 首先要確保該 URL 未存取過(如果存取過則忽略該筆 URL). 而這個資料結構要有兩個特點 :

* 結構中儲存的 URL 不能重複
* 能夠快速地尋找(因為 URL 數目可能非常多!)

針對以上特點, 這裡使用 HashSet 作為儲存已存取過URL 的資料結構 :

- LinkDB.java :

view plain copy to clipboard print ?

package john.crawler;



import java.util.HashSet;

import java.util.Set;



/**

* 用來保存已經訪問過Url 和待訪問的Url 的類

*/

public class LinkDB {

    // 已訪問的url 集合

    private static Set visitedUrl = new HashSet();

    // 待訪問的url 集合

    private static Queue unVisitedUrl = new Queue();



    public static void reset()

    {

        visitedUrl.clear();

        unVisitedUrl.clear();

    }



    public static Queue getUnVisitedUrl() {

        return unVisitedUrl;

    }



    public static void addVisitedUrl(String url) {

        visitedUrl.add(url);

    }



    public static void removeVisitedUrl(String url) {

        visitedUrl.remove(url);

    }



    public static String unVisitedUrlDeQueue() {

        return unVisitedUrl.deQueue();

    }



    // 保證每個url 只被訪問一次

    public static void addUnvisitedUrl(String url) {

        if (url != null && !url.trim().equals("") && !visitedUrl.contains(url)

                && !unVisitedUrl.contians(url))

            unVisitedUrl.enQueue(url);

    }



    public static int getVisitedUrlNum() {

        return visitedUrl.size();

    }



    public static boolean unVisitedUrlsEmpty() {

        return unVisitedUrl.empty();

    }

}

下面程式碼用途為下載某 URL 對應到的網路資源. 它考慮到請求逾時以及避掉儲存網頁遇到不合法檔案字元的問題 :

- FileDownLoader.java :

view plain copy to clipboard print ?

package john.crawler;



import java.io.DataOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;



import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;

import org.apache.commons.httpclient.HttpClient;

import org.apache.commons.httpclient.HttpException;

import org.apache.commons.httpclient.HttpStatus;

import org.apache.commons.httpclient.methods.GetMethod;

import org.apache.commons.httpclient.params.HttpMethodParams;



public class FileDownLoader {

    private String  charset="";

    private long    fileSize=-1;

    /**

     * 根據url 和網頁類型生成需要保存的網頁的文件名去除掉url 中非文件名字符

     */

    public String getFileNameByUrl(String url, String contentType) {

        url = url.substring(7);// remove http://

        if (contentType.indexOf("html") != -1)// text/html

        {

            url = url.replaceAll("[\\?/:*|<>\"]", "_") + ".html";

            return url;

        }

        else// 如application/pdf

        {

            //System.out.println("\t[FileDownLoader] ContentType="+contentType+"("+contentType.substring(contentType.lastIndexOf("/") + 1)+")");

            return url.replaceAll("[\\?/:*|<>\"]", "_") + "."

                    + contentType.substring(contentType.lastIndexOf("/") + 1);

        }

    }



    /**

     * 保存網頁字節數組到本地文件 filePath 為要保存的文件的相對地址

     */

    private void saveToLocal(byte[] data, String filePath) {

        try {

            DataOutputStream out = new DataOutputStream(new FileOutputStream(

                    new File(filePath)));

            for (int i = 0; i < data.length; i++)

                out.write(data[i]);

            out.flush();

            out.close();

        } catch (IOException e) {

            e.printStackTrace();

        }

    }



    private long saveToLocal(InputStream is, String filePath)

    {

        try{

            DataOutputStream out = new DataOutputStream(new FileOutputStream(new File(filePath)));

            long dbytes = 0;

            byte b[] = new byte[1024];

            int r;

            while((r=is.read(b))>0)

            {

                for(int i=0; i

                dbytes+=r;

            }

            out.flush();

            out.close();

            is.close();

            return dbytes;

        }

        catch(IOException e)

        {

            e.printStackTrace();

        }

        return -1;

    }





    public void getCharset(String cntType)

    {

        if(cntType!=null && !cntType.isEmpty())

        {

            String[] params = cntType.split(";");

            for(String param:params)

            {

                param = param.trim();

                if(param.startsWith("charset="))

                {

                    charset=param.substring(8, param.length());

                }

            }

        }

    }



    /* 下載url 指向的網頁 */

    public String downloadFile(String url) {

        if(url==null || url.isEmpty())

        {

            System.out.println("\t[FileDownLoader] Illegal URL='"+url+"'...");

        }

        charset="";

        fileSize = -1;

        String filePath = null;

        /* 1.生成HttpClinet 對象並設置參數 */

        HttpClient httpClient = new HttpClient();

        // 設置Http 連接超時5s

        httpClient.getHttpConnectionManager().getParams()

                .setConnectionTimeout(5000);



        /* 2.生成GetMethod 對象並設置參數 */

        GetMethod getMethod = new GetMethod(url);

        // 設置get 請求超時5s

        getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000);

        // 設置請求重試處理

        getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,

                new DefaultHttpMethodRetryHandler());



        /* 3.執行HTTP GET 請求 */

        try {

            int statusCode = httpClient.executeMethod(getMethod);

            // 判斷訪問的狀態碼

            if (statusCode != HttpStatus.SC_OK) {

                System.err.println("Method failed: "

                        + getMethod.getStatusLine());

                filePath = null;

            }



            /* 4.處理HTTP 響應內容 */

            String cntType = getMethod.getResponseHeader("Content-Type").getValue();

            // byte[] responseBody = getMethod.getResponseBody();// 讀取為字節數組

            // 根據網頁url 生成保存時的文件名

            filePath = "temp/"

                    + getFileNameByUrl(url, cntType);

            getCharset(cntType);

            fileSize = saveToLocal(getMethod.getResponseBodyAsStream(), filePath);

        } catch (HttpException e) {

            // 發生致命的異常，可能是協議不對或者返回的內容有問題

            System.out.println("Please check your provided http address!");

            e.printStackTrace();

        } catch (IOException e) {

            // 發生網絡異常

            e.printStackTrace();

        } finally {

            // 釋放連接

            getMethod.releaseConnection();

        }

        return filePath;

    }



    public long getFileSize() {

        return fileSize;

    }



    public String getFileSizeInStr()

    {

        if(fileSize<0)

            return "0 bytes";

        else if(fileSize<1000)

            return fileSize+" bytes";

        else

        {

            long kb = fileSize/1000;

            return kb+"k bytes or "+fileSize+" bytes";

        }

    }



    public String getCharset() {

        return charset;

    }



    // 測試的main 方法

    public static void main(String[] args) {

        FileDownLoader downLoader = new FileDownLoader();

        downLoader.downloadFile("http://www.twt.edu.cn");

    }

}

接下來我們還需要從以下載的網頁分析其中的連結, 這個工作可以透過 Html Parser 來做到. 透過底下類別的方法 extracLinks 便可以將某個頁面上的所有連結回傳 :

- HtmlParserTool.java :

view plain copy to clipboard print ?

package john.crawler;



import java.util.HashSet;

import java.util.Set;



import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.filters.OrFilter;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.tags.ImageTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;



public class HtmlParserTool {

    public static Set extracLinks(String host, String url, LinkFilter filter)

    {

        return extracLinksWithEncoding(host , url, null, filter);

    }

    // 獲取一個網站上的鏈接,filter 用來過濾鏈接

    public static Set extracLinksWithEncoding(String host, String url, String encoding, LinkFilter filter) {



        Set links = new HashSet();

        try {

            Parser parser = new Parser(url);

            if(encoding==null||encoding.isEmpty()) parser.setEncoding("gb2312");

            else parser.setEncoding(encoding);

            // 過濾標籤的filter，用來提取frame 標籤裡的src 屬性所表示的鏈接

            NodeFilter frameFilter = new NodeFilter() {

                @Override

                public boolean accept(Node node) {

                    if (node.getText().startsWith("frame src="))

                        return true;

                    return false;

                }

            };

            // OrFilter 來設置過濾標籤，和標籤

            OrFilter linkFilter = new OrFilter(new NodeClassFilter(LinkTag.class), frameFilter);

            OrFilter linkImgFilter = new OrFilter(new NodeClassFilter(ImageTag.class), linkFilter);

            // 得到所有經過過濾的標籤

            NodeList list = parser.extractAllNodesThatMatch(linkImgFilter);

            for (int i = 0; i < list.size(); i++) {

                Node tag = list.elementAt(i);

                if (tag instanceof LinkTag)// 標籤

                {

                    LinkTag link = (LinkTag) tag;

                    String linkUrl = link.getLink();// url

                    if (filter==null || filter.accept(linkUrl))

                        if(linkUrl.startsWith("/")) links.add(host+linkUrl);

                        else links.add(linkUrl);

                }

                else if(tag instanceof ImageTag)// 標籤

                {

                    ImageTag imgTag = (ImageTag) tag;

                    String imgSrc = imgTag.getImageURL();

                    if(filter==null || filter.accept(imgSrc))

                        if(imgSrc.startsWith("/")) links.add(host+imgSrc);

                        else links.add(imgSrc);

                }

                else

                {

                    // 提取frame 裡src 屬性的鏈接如

                    String frame = tag.getText();

                    System.out.println("\t[HtmlParserTool] Parsing frame="+frame+"...");

                    int start = frame.indexOf("src=");

                    frame = frame.substring(start);

                    int end = frame.indexOf(" ");

                    if (end == -1)

                        end = frame.indexOf(">");

                    String frameUrl = frame.substring(5, end - 1);

                    if (filter==null || filter.accept(frameUrl))

                        links.add(frameUrl);

                }

            }

        } catch (ParserException e) {

            e.printStackTrace();

        }

        return links;

    }

}

最後來看看該爬蟲的主程式 :

- Crawler.java :

view plain copy to clipboard print ?

package john.crawler;



import java.util.Observable;

import java.util.Set;

import java.util.regex.Matcher;

import java.util.regex.Pattern;



public class Crawler extends Observable{

    private boolean isRecursive = false;    /*決定是否 recursive 的從下載網頁取出連結入佇列*/

    private boolean isHostonly = false;     /*是否只取該 URL 相同 Host 下的資源*/

    //private String acceptHost = "";

    private Pattern ptn = Pattern.compile("(http://[a-zA-Z0-9.]+)/.*");



    public Crawler(boolean isR, boolean isH) {isRecursive = isR; isHostonly=isH;}

    public Crawler() {}



    //public Crawler(String ahost) {

    //  this.acceptHost = ahost;

    //}



    protected void printf(String fmt, Object...args)

    {

        String log = String.format(fmt, args);

        System.out.print(log);

        setChanged();

        notifyObservers(log);

    }



    /* 使用種子url 初始化URL 隊列 */

    private void initCrawlerWithSeeds(String[] seeds) {

        LinkDB.reset();

        for (int i = 0; i < seeds.length; i++)

            LinkDB.addUnvisitedUrl(seeds[i]);

    }



    protected String getHost(String url)

    {

        Matcher mhr = ptn.matcher(url);

        if(mhr.find()) return mhr.group(1);

        else return null;

    }



    public long crawling(String url)

    {

        return crawling(new String[]{url});

    }



    /* 爬取方法 */

    public long crawling(String[] seeds) {

        long totalSize = 0;

        // 初始化URL 隊列

        initCrawlerWithSeeds(seeds);

        // 循環條件：待抓取的鏈接不空且抓取的網頁不多於1000

        while (!LinkDB.unVisitedUrlsEmpty() && LinkDB.getVisitedUrlNum() <= 100) {

            // 隊頭URL 出對

            String visitUrl = LinkDB.unVisitedUrlDeQueue();

            if(visitUrl.endsWith(".gif") ||

               visitUrl.endsWith(".jpg") ||

               visitUrl == null)

                        continue;



            FileDownLoader downLoader = new FileDownLoader();

            // 下載網頁

            printf("\t[Crawler] Download page=%s...",visitUrl);

            downLoader.downloadFile(visitUrl);

            totalSize+=downLoader.getFileSize();

            printf("Done! (Charset=%s, Size=%s)\n",downLoader.getCharset(),downLoader.getFileSizeInStr());

            // 該url 放入到已訪問的URL 中

            LinkDB.addVisitedUrl(visitUrl);



            // 提取出下載網頁中的URL

            if(isRecursive)

            {

                LinkFilter filter = null;

                final String host = getHost(visitUrl);

                if(isHostonly)

                {



                    filter = new LinkFilter() {

                        // 提取以http://www.twt.edu.cn開頭的鏈接

                        public boolean accept(String url) {

                            //System.out.println("\t[LinkFilter] check "+url+" with "+host);

                            if (url.startsWith(host)) return true;

                            else if(url.startsWith("/")) return true;

                            else

                            {

                                //printf("\t[Crawler] Bypass '%s'...\n", url);

                                return false;

                            }

                        }

                    };

                }



                if(host!=null)

                {

                    Set links = HtmlParserTool.extracLinksWithEncoding(host, visitUrl, downLoader.getCharset(), filter);

                    // 新的未訪問的URL 入隊

                    for (String link : links) {

                        //printf("\t[Crawler] Extrack link=%s...\n",link);

                        LinkDB.addUnvisitedUrl(link);

                    }

                }

                else

                {

                    printf("\t[Crawler] Unknow Host for URL=%s...\n",visitUrl);

                }

            }

        }

        return totalSize;

    }



    public boolean isRecursive() {

        return isRecursive;

    }



    public void setRecursive(boolean isRecursive) {

        this.isRecursive = isRecursive;

    }



    public boolean isHostonly() {

        return isHostonly;

    }



    public void setHostonly(boolean isHostonly) {

        this.isHostonly = isHostonly;

    }



    // main 方法入口

    public static void main(String[] args) {

        Crawler crawler = new Crawler();

        crawler.crawling(new String[] { "http://localhost/jforum/posts/list/1422.page" });

    }

}

上面主程式使用了一個 LinkFilter 介面並且實現為一個內部類別. 這個介面的目的是為了過濾分析出來的 URL, 它使得程式分析出來的 URL 只會與原先 URL 同一個 Host.

帶偏好的爬蟲 :
有時候在 URL 佇列中選擇要抓取的 URL 時不一定要按照佇列 "先進先出" 的方式進行出佇列的選擇, 而是把"重要"的 URL 先從佇列中 "挑" 出來進行處理. 這種策略稱為 "頁面選擇" (Page selection), 這可以使有限的資源用來照顧重要性高的網頁. 那麼哪些是重要性高的頁面呢?

判斷頁面的重要性因素有很多, 主要有連結的歡迎程度, 平均連結深度, 網站品質, 歷史權重等主要因素. 連結的歡迎程度主要是由反向連結 (backlinks, 及指向目前 URL 的連結) 的數量和品質決定, 我們定義為 IB(P).

而連結的重要度是由一個關於 URL 字串的函數進行判斷, 例如 ".com" 和 "home" 的 URL 重要度比 ".cc" 和 "map" 高, 我們定義為 IL(P). 而平均連結深度根據上面的寬度優先原則已經包含, 認為距離種子網站越近的重要性越高(ID(P)). 最後如果我們定義網頁重要性為 I(P), 那麼頁面的重要度可以由下面公式決定 :

I(P) = X*IB(P) + Y*IL(P)

其中 X 和 Y 參數用來調整 IB(P) 與 IL(P) 所占比例的大小, ID(P) 則由寬度優先的檢查規則保證, 因此不作為指標函數. 那麼如何實現最佳優化爬蟲呢? 最簡單的方法可以使用優先順序佇列來實現 TODO 表, 並且把每個 URL 的重要性作為佇列元素的優先順序. 這樣每次選出來擴充的 URL 就是具有最高重要性的網頁. 至於在 Java 1.5 後, 有提供支援優先順序佇列的資料結構 - java.util.PriorityQueue. 只要將 TODO 的 LinkedList 替換成 PriorityQueue 並且將 URL 實作對應的介面 Comparator 便可實作出帶偏好的爬蟲.

補充說明 :
* 網路爬蟲(Web Crawler) 扼殺了網站經營者 ?!

爬蟲技術所能創造的商機，當然不僅僅是搜尋引擎而已，像 Google 其實還得再加上搜尋技術才算是真正建立起進入門檻。在 Google 確立了搜尋引擎霸主的地位後，網路爬蟲專家們逐一放棄了將網路上所有的資訊爬下來的野心，轉往利基市場如比價系統(FindPrice)、即時資訊、或非web-based的爬蟲 (如 telnet)，有的則是站在 Google 巨人的肩膀上，從搜尋結果中再爬出更有價值的資訊，將 search engine 當作是爬蟲中的一個子功能加以利用...

This message was edited 22 times. Last update was at 11/10/2011 17:36:35

程式扎記

標籤

2011年10月11日星期二

[ Java Crawler ] 寬度優先爬蟲和帶偏好的爬蟲

4 則留言:

[Git 常見問題] error: The following untracked working tree files would be overwritten by merge

檢舉濫用情形

學習筆記

標籤

2011年10月11日 星期二