程式扎記: [ klibsvm ] libsvm 的 Java wrapper

2012年9月7日星期五

[ klibsvm ] libsvm 的 Java wrapper

Preface :
最近因為研究需要, 打算使用林智仁老師開發的 libsvm 來訓練自己的 corpus 抽出取來的 features, 作為實驗數據的 baseline. 從網站上面可以下載 zip 檔後解壓縮, 可以發現有個 Java 目錄. 耶! 對於 Java 比較熟的我是一大福音. 有興趣可以去讀裡面元代碼的 "svm_train.java", "svm_predict.java" 與 "svm.java" 就可以知道其命令列的使用方法與工作流程.

基本上使用 "svm_train.java", "svm_predict.java" 並可以進行 SVM 的 training 與 predict 這兩個動作便可以滿足大多數的需求, 不過因為那是命令列的用法因此如果你希望把它當作 library 去使用, 可以需要做些封裝. 這邊我根據自己的使用經驗根據 libsvm.jar 的類別設計, 自己封裝了 "training" 與 "predict" 的用法, 並另外導出一個 klibsvm.jar 方便自己後續寫程式來 Integrate libsvm.jar 來做 automation.

Prepare training data:
SVM 是一個可以支援很高維的 machine learning, 而在 training data 你必須事先定義好 features (feature 的大小決定 training 的維度) ; 而每個 feature 會有自己用來 training 的值, 另外 SVM 是用來解 Classification 的問題, 因此你還需要提供一個 Label 的值 (Classification 的類別). 接著這些資料將會被存成 Vector 送進去的 SVM 進行 training. 在 libsvm 的 README 中的 "Installation and Data Format" 有定義要為進去的資料格式如下 :

<label> <index1>:<value1> <index2>:<value2> ...

其中 <label> 就是類別的種類, 使用數字 1, 2 etc 代表; 而 <index1> 則是說明是哪一個 feature, 而 <value1> 則是對應該 feature 的值.

以等下我要說明的範例, 假設我的 training data 是一個 X/Y 二維平面的座標, 我定義了一個方程式 0.7*X^2 - 10 = Y ; 如果我有一堆座標(x,y), 我定義 x 帶入先前方程式得到的值如果大於等於座標的y 值我定義為類別1, 反之為類別2. 因此這邊我可以假設我有兩個 features1->x, feature2->y ; 接著考慮有座標 (-10,48), 因為 0.7*(-10)^2 - 10 = 60 < 48 -> 得到類別2, 因此我有一筆 Training 的 record 為 :

2 1:-10.000 2:48.00

當然你的 training data 不可能只有一筆 record. 接著我們將之 mapping 到 klibsvm ; 我們的一筆 training 紀錄會使用類別 ksvm.data.Record 來代表, 而該類別上的屬性 label 則代表個該筆紀錄預測的類別. 而每一個 training 紀錄可能有多個 feature, 這邊使用類別 ksvm.data.TData 來代表一個 feature. 你可以使用 Record.addFeature() 來添加 feature 到你的 training 紀錄中. 而TData 上面的屬性 index 代表著第幾個 feature ; value 則是該 feature 的值. 因此如果我們要將剛剛的 training 座標 (-10, 48) 傳換成代碼, 可以參考下面 :

view plaincopy to clipboardprint?
Record record = new Record();  
record.addFeature(1, -10); // 添加 feature x=-10  
record.addFeature(2, 48); // 添加 feature y=48  
record.label=2; // 設定預測類別2  

但這樣一筆筆寫到代碼我可能會瘋掉 ><". 因此通常我們會利用外部的檔案來存放 training 的 data, 再用程式來載入. 在 klibsvm 中 Training 吃的類別必須實作介面 ksvm.data.IRecordIter :

view plaincopy to clipboardprint?
package ksvm.data;  
  
import java.util.Iterator;  
  
public interface IRecordIter extends Iterator{}  

而如果外部檔案的格式滿足 libsvm 的格式定義, 則可以使用類別 ksvm.data.BasicRDIter 來載入外部 training data, 它實作了介面 ksvm.data.IRecordIter :

view plaincopy to clipboardprint?
package ksvm.data;  
  
import java.io.BufferedReader;  
import java.io.File;  
import java.io.FileReader;  
import java.io.IOException;  
import java.util.StringTokenizer;  
  
public class BasicRDIter implements IRecordIter{  
    private BufferedReader  br = null;  
    private String          nextProcline = null;      
  
    public BasicRDIter(File trainFile)throws IOException{this(new BufferedReader(new FileReader(trainFile)));}  
    public BasicRDIter(BufferedReader br){this.br = br; retriveProcline();}  
      
    protected void retriveProcline()  
    {  
        try  
        {  
            do  
            {  
                nextProcline = br.readLine();  
                if(nextProcline!=null &&   
                   (nextProcline.isEmpty() || nextProcline.startsWith("#"))) continue;  
                else break;  
            }while(nextProcline!=null);  
            if(nextProcline==null) br.close();  
        }  
        catch(IOException e)  
        {  
            e.printStackTrace();  
            nextProcline = null;  
        }  
    }  
      
    @Override  
    public boolean hasNext() {  
        return (nextProcline!=null);  
    }  
  
    @Override  
    public Record next() {  
        if(nextProcline!=null)  
        {  
            //System.out.printf("\t[Test] line=%s\n", nextProcline);  
            StringTokenizer st = new StringTokenizer(nextProcline," \t\n\r\f:");  
            Record rd = new Record(st);  
            retriveProcline();  
            return rd;  
        }  
        return null;  
    }  
  
    @Override  
    public void remove() {  
        throw new java.lang.UnsupportedOperationException("Not support");         
    }  
}  

因此考慮我們 training data 外部檔案 "scatters_train.tf", 可以如下載入提供後續 training model 使用 :

view plaincopy to clipboardprint?
File trainFile = new File("scatters_train.tf");  
BasicRDIter basicRDIter = new BasicRDIter(trainFile);   // 1) Prepare training input data iter  

Training process :
現在知道什麼是 training 紀錄 ; 什麼是 features 與如何從外部載入 training data. 剩下的就是 training 與 predict. 在 training 的部分簡單到不行, 建立類別 ksvm.run.SVMTrain 物件後再將剛剛載入的 training data 傳入其建構子便完成 training 的準備階段. 完整 Training process 代碼如下 :

view plaincopy to clipboardprint?
public static void main(String[] args) throws IOException{  
    File trainFile = new File("scatters_train.tf");  
    File modelFile = new File("scatters.model");  
    BasicRDIter basicRDIter = new BasicRDIter(trainFile);   // 1) Prepare training input data iter  
    SVMTrain train = new SVMTrain(basicRDIter);             // 2) Prepare SVMTrain object  
    //train.param.C = 10;  
    if(train.start())                                       // 3) Start training  
    {  
        System.out.printf("\t[Info] Training is done!\n");  
        train.saveModel(modelFile);                         //4) Output training model to external file  
    }  
    else  
    {  
        System.out.printf("\t[Info] Something wrong while training:\n");  
        for(String em:train.errMsg)  
        {  
            System.out.printf("\t%s\n", em);  
        }  
        return;  
    }  
        
}  

執行後會出現如下 training 訊息並導出 training model 到外部檔案 "scatters.model" :

..*
optimization finished, #iter = 777
nu = 0.52894127152566
obj = -105.0870659825975, rho = -0.3120789555948129
nSV = 340, nBSV = 45
Total nSV = 340
[Info] Training time=0 sec
[Info] Training is done!

Predict process :
有了 Training model, 後續的應用便是利用它來對給定的 feature set 進行預測並推論每個紀錄應該是屬於哪一個類別. 接著我們可以透過類別 ksvm.demo.ui.ScatterPlotDemo 將我們剛剛的 training data 用視覺化的效果標示於座標軸上 :

view plaincopy to clipboardprint?
ScatterPlotDemo demo = new ScatterPlotDemo(new File("scatters_train.tf")); // 載入 training data 並繪於座標上  
demo.pack();  
demo.setVisible(true);  

執行後會出現下圖, 紅點即是類別2 ; 藍點是類別1 ; 綠點則是由剛剛我們定義的方程式繪出 :

接著有了剛剛我們訓練出來的 model (scatters.model) , 接著我們使用類別 ksvm.run.SVMPredict 對測試 data (scatters_test.tf) 進行 predict. 參考範例代碼如下 :

view plaincopy to clipboardprint?
File testFile = new File("scatters_test.tf");  
File modelFile = new File("scatters.model"); // Training model file  
File resultFile = new File("scatters_test.pid"); // Output predict result file  
SVMPredict svmPredict = new SVMPredict(modelFile);  
svmPredict.start(new BasicRDIter(testFile), resultFile);  // Start predicting  

執行後產生訊息如下, 並導出 predict 結果到 "scatters_test.pid". 由訊息可以知道準確率約 92% :

[Info] Accuracy = 91.56%(347/379) (classification)

你也可以透過下面的代碼, 將測試的結果視覺化到座標上面 :

view plaincopy to clipboardprint?
File modelFile = new File("scatters.model");  
File testFile = new File("scatters_test.tf");  
SVMPredict svmPredict = new SVMPredict(modelFile);  
ScatterPlotDemo demo = new ScatterPlotDemo(testFile, svmPredict);  
demo.pack();  
demo.setVisible(true);  

執行後會由如下 UI 產出, 黃點代表的是預測錯誤的部分 :

Supplement :
* [ libsvm ] 碼上會！Java+libSVM 分析動態資料 (144行)
* [ libsvm ] piaip 的 (lib)SVM 簡易入門

21 則留言:

pm4290152013年2月20日上午11:16
大大我覺得你的文章很好可以請你再把klibsvm.jar 載點從新掛上嗎他失效了我也想試試看謝瞜
回覆刪除
回覆
太陽の西2014年10月1日凌晨4:00
請問可以改參數等等的嗎? g c等等的
回覆刪除
回覆
Unknown2015年4月17日凌晨2:21
大大你好，請問"現在知道什麼是 training 紀錄 ; 什麼是 features 與如何從外部載入 training data. 剩下的就是 training 與 predict. 在 training 的部分簡單到不行, 建立類別 ksvm.run.SVMTrain 物件後再將剛剛載入的 training data 傳入其建構子便完成 training 的準備階段."
這段我看不太懂不知道該怎麼操作~請問可以再解釋一次嗎?
回覆刪除
回覆
Unknown2015年4月29日凌晨12:53
感謝你的回覆，但我要問的不是這個><
請問可以跟您留下mail我在跟您討論嗎? 感謝你
回覆刪除
回覆
Unknown2015年4月29日晚上10:21
感謝你的回覆，我再寄MAIL給你跟您討論。謝謝!!!!
回覆刪除
回覆
Nicholas SIew2016年8月27日晚上7:41
大大我想問一下為什麼在執行 ScatterPlotDemo demo = new ScatterPlotDemo(new File("scatters_train.tf")); 的時候會
出現 java.lang.NoClassDefFoundError: org/jfree/chart/ChartPanel 的錯誤啊？？
回覆刪除
回覆
Unknown2017年2月22日凌晨12:08
作者已經移除這則留言。
回覆刪除
回覆
Unknown2017年3月9日上午8:12
作者大大你好，有辦法可以擷取出TP FP TN FN 出來嗎? 我想要另外算precision 跟 recall，但我擷取不出來。謝謝
回覆刪除
回覆

新增留言

訂閱：張貼留言 (Atom)

程式扎記

標籤

2012年9月7日星期五

[ klibsvm ] libsvm 的 Java wrapper

21 則留言:

[Git 常見問題] error: The following untracked working tree files would be overwritten by merge

檢舉濫用情形

學習筆記

標籤

2012年9月7日 星期五

[ klibsvm ] libsvm 的 Java wrapper

21 則留言:

[Git 常見問題] error: The following untracked working tree files would be overwritten by merge

檢舉濫用情形

學習筆記

2012年9月7日星期五