程式扎記: [Toolkit] Keras - MNIST 手寫數字辨識使用 CNN

2017年7月3日星期一

[Toolkit] Keras - MNIST 手寫數字辨識使用 CNN

CNN 卷積神經網路簡介

STEP1. 卷積神經網路介紹
CNN 卷積神經網路可以分成兩大部分:

* 影像的特徵提取: 透過 Convolution 與 Max Pooling 提取影像特徵.
* Fully connected Feedforward network: Flatten layers, hidden layers and output layers

STEP2. 卷積運算 (Convolution)
卷積運算的原理是將一個影像透過卷積運算的 Filter weight(s) 產生多個影像, 在上面第一層的 Convolution 為例:
1. 先以隨機方式產生 16 個 3x3 的 filter weight(S)

2. 要轉換的影像由左而右, 由上而下透過 filter weight 產生新影像的值:

3. 使用 16 個 filter weight 產生 16 個影像

STEP3. Max-Pooling 運算說明
Max-Pool 運算可以將影像縮減取樣 (downsampling), 如下圖: 原本影像是 4x4, 經過 Max-Pool 運算後, 影像大小為 2x2:

downsampling 有以下好處:

* 減少需要處理的資料點: 減少後續運算所需時間.
* 讓影像位置的差異變小: 例如手寫數字 7, 位置上下左右可能不同, 但是位置不同可能影響辨識. 減少影像大小讓數字的位置差異變小.
* 參數的數量和計算量下降: 這在一定程度上也控制了 Overfitting 的狀況.

進行資料前處理 (Preprocess)
CNN (Convolution Neural Network) 與 MLP 進行資料的前處理方式有所不同, 說明如下:

* MLP : image reshape (60000, 784): MLP 因為直接送進神經元處理, 所以 60,000 筆轉換為一筆成 28x28 = 784 個神經元輸入.
* CNN : image reshape (60000, 28, 28, 1): CNN 因為必須先進行卷積與池化 (Max-Pool) 運算, 所以必須保留影像的維度. 因此 60,000 筆轉換成一筆成 28 (長) x 28(寬) x 1(高) 的影像單位.

STEP1. 資料讀取與轉換

view plaincopy to clipboardprint?
#!/usr/bin/env python3  
from keras.datasets import mnist  
from keras.utils import np_utils  
import numpy as np  
np.random.seed(10)  
  
# Read MNIST data  
(X_Train, y_Train), (X_Test, y_Test) = mnist.load_data()  
  
# Translation of data  
X_Train40 = X_Train.reshape(X_Train.shape[0], 28, 28, 1).astype('float32')  
X_Test40 = X_Test.reshape(X_Test.shape[0], 28, 28, 1).astype('float32')  

STEP2. 將 Features 進行標準化與 Label 的 Onehot encoding

view plaincopy to clipboardprint?
# Standardize feature data  
X_Train40_norm = X_Train40 / 255  
X_Test40_norm = X_Test40 /255  
  
# Label Onehot-encoding  
y_TrainOneHot = np_utils.to_categorical(y_Train)  
y_TestOneHot = np_utils.to_categorical(y_Test)  

建立模型
接著會依照下面流程圖建立模型:

STEP1. 建立卷積層與池化層

view plaincopy to clipboardprint?
from keras.models import Sequential  
from keras.layers import Dense,Dropout,Flatten,Conv2D,MaxPooling2D  
  
model = Sequential()  
# Create CN layer 1  
model.add(Conv2D(filters=16,  
                 kernel_size=(5,5),  
                 padding='same',  
                 input_shape=(28,28,1),  
                 activation='relu'))  
# Create Max-Pool 1  
model.add(MaxPooling2D(pool_size=(2,2)))  
  
# Create CN layer 2  
model.add(Conv2D(filters=36,  
                 kernel_size=(5,5),  
                 padding='same',  
                 input_shape=(28,28,1),  
                 activation='relu'))  
  
# Create Max-Pool 2  
model.add(MaxPooling2D(pool_size=(2,2)))  
  
# Add Dropout layer  
model.add(Dropout(0.25))  

STEP2. 建立神經網路
- 建立平坦層
下面程式碼建立平坦層, 將之前步驟已經建立的池化層2, 共有 36 個 7x7 維度的影像轉換成 1 維向量, 長度是 36x7x7 = 1764, 也就是對應到 1764 個神經元:

view plaincopy to clipboardprint?
model.add(Flatten())  

- 建立 Hidden layer

view plaincopy to clipboardprint?
model.add(Dense(128, activation='relu'))  
model.add(Dropout(0.5))  

- 建立輸出層
最後建立輸出層, 共有 10 個神經元, 對應到 0~9 共 10 個數字. 並使用 softmax 激活函數 進行轉換 (softmax 函數可以將神經元的輸出轉換成每一個數字的機率):

view plaincopy to clipboardprint?
model.add(Dense(10, activation='softmax'))  

STEP3. 查看模型的摘要

view plaincopy to clipboardprint?
model.summary()  
print("")  

進行訓練
接著我們使用 Back Propagation 進行訓練.

STEP1. 定義訓練並進行訓練

view plaincopy to clipboardprint?
# 定義訓練方式  
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])  
  
# 開始訓練  
train_history = model.fit(x=X_Train4D_norm,  
                          y=y_TrainOneHot, validation_split=0.2,  
                          epochs=10, batch_size=300, verbose=2)  

在 compile 方法中:

* loss: 設定 Loss Function, 這邊選定 Cross Entropy 作為 Loss Function.
* optimizer: 設定訓練時的優化方法, 在深度學習使用 adam (Adam: A Method for Stochastic Optimization) 可以更快收斂, 並提高準確率.
* metrics: 設定評估模型的方式是 accuracy 準確率.

訓練過程的輸出如下:

22s - loss: 0.4872 - acc: 0.8478 - val_loss: 0.0968 - val_acc: 0.9722
Epoch 2/10
22s - loss: 0.1407 - acc: 0.9591 - val_loss: 0.0631 - val_acc: 0.9808
Epoch 3/10
22s - loss: 0.1029 - acc: 0.9689 - val_loss: 0.0516 - val_acc: 0.9838
...
Epoch 8/10
22s - loss: 0.0513 - acc: 0.9841 - val_loss: 0.0345 - val_acc: 0.9898
Epoch 9/10
22s - loss: 0.0454 - acc: 0.9866 - val_loss: 0.0342 - val_acc: 0.9902
Epoch 10/10
22s - loss: 0.0428 - acc: 0.9874 - val_loss: 0.0330 - val_acc: 0.9903

STEP2. 畫出 accuracy 執行結果
之前的訓練步驟產生的 accuracy 與 loss 都會記錄在 train_history 變數. 底下將常用的函數定義在 utils.py:
- utils.py

view plaincopy to clipboardprint?
import os  
  
def isDisplayAvl():  
    return 'DISPLAY' in os.environ.keys()  
  
import matplotlib.pyplot as plt  
def plot_image(image):  
    fig = plt.gcf()  
    fig.set_size_inches(2,2)  
    plt.imshow(image, cmap='binary')  
    plt.show()  
  
def plot_images_labels_predict(images, labels, prediction, idx, num=10):  
    fig = plt.gcf()  
    fig.set_size_inches(12, 14)  
    if num > 25: num = 25  
    for i in range(0, num):  
        ax=plt.subplot(5,5, 1+i)  
        ax.imshow(images[idx], cmap='binary')  
        title = "l=" + str(labels[idx])  
        if len(prediction) > 0:  
            title = "l={},p={}".format(str(labels[idx]), str(prediction[idx]))  
        else:  
            title = "l={}".format(str(labels[idx]))  
        ax.set_title(title, fontsize=10)  
        ax.set_xticks([]); ax.set_yticks([])  
        idx+=1  
    plt.show()  
  
def show_train_history(train_history, train, validation):  
    plt.plot(train_history.history[train])  
    plt.plot(train_history.history[validation])  
    plt.title('Train History')  
    plt.ylabel(train)  
    plt.xlabel('Epoch')  
    plt.legend(['train', 'validation'], loc='upper left')  
    plt.show()  

接著便可以使用函數 show_train_history 顯示 accuracy 在 train 與 evaluation 的差異與 loss 在 train 與 evaluation 的差異如下:

view plaincopy to clipboardprint?
from utils import *  
if isDisplayAvl():  
    show_train_history(train_history, 'acc', 'val_acc')  
    show_train_history(train_history, 'loss', 'val_loss')  

執行結果如下:
- Training accuracy vs Evaluation accuracy

- Training loss vs Evaluation loss

評估模型準確率與進行預測
我們已經完成訓練, 接下來要使用 test 測試資料集來評估準確率.

STEP1. 評估模型準確率

view plaincopy to clipboardprint?
scores = model.evaluate(X_Test4D_norm, y_TestOneHot)  
print()  
print("\t[Info] Accuracy of testing data = {:2.1f}%".format(scores[1]*100.0))  

STEP2. 預測結果

view plaincopy to clipboardprint?
print("\t[Info] Making prediction of X_Test4D_norm")  
prediction = model.predict_classes(X_Test4D_norm)  # Making prediction and save result to prediction  
print()  
print("\t[Info] Show 10 prediction result (From 240):")  
print("%s\n" % (prediction[240:250]))  

STEP3. 顯示前 10 筆預測結果

view plaincopy to clipboardprint?
if isDisplayAvl():  
    plot_images_labels_predict(X_Test, y_Test, prediction, idx=240)  

STEP4. 顯示 Confusion Matrix

view plaincopy to clipboardprint?
import pandas as pd  
print("\t[Info] Display Confusion Matrix:")  
print("%s\n" % pd.crosstab(y_Test, prediction, rownames=['label'], colnames=['predict']))  

完整代碼連結如下:

* ch8_1.py: 主程式
* utils.py: 相關使用函式

Supplement
* ML Lecture 10: Convolutional Neural Network
* TensorFlow : Tutorials 02 - Convolutional Neural Network
* Save and Load Your Keras Deep Learning Models

48 則留言:

Jax2017年8月3日上午8:16
您好 !
我想請教您
我試著跑程式碼的時候
跑到
KERAS_MODEL_NAME = 'mnist_model_cnn.model'
KERAS_MODEL_WEIG = 'mnist_model_cnn.h5'
這部分的時候
出現了錯誤
是什麼問題呢

環境是
WIN7+Anaconda3+keras
完整代碼有確實下載了 ~
回覆刪除
回覆
Unknown2017年8月3日晚上11:27
您好
我在執行主程式時會有importError的錯誤如下
Traceback (most recent call last):
File "ccc.py", line 69, in
model.load_weights(KERAS_MODEL_WEIG)
File "/Users/lichenyu/myvenv/lib/python3.6/site-packages/keras/models.py", line 701, in load_weights
raise ImportError('`load_weights` requires h5py.')
ImportError: `load_weights` requires h5py.
回覆刪除
回覆
東海林將司2018年5月15日下午5:46
請問一下，計算第一列第一行
1x1 + 0x0 + 0x0 + 1x1 =2
應該是
1x1 + 0x0 + 0x0 + 1x5 =6
才對吧，因為右下角的1的值是5
回覆刪除
回覆
Unknown2018年5月20日晚上10:55
請問一下，為甚麼卷積層2的input_shape=(28,28,1)；
在池化層1的時候不是已經將影像大小變成14*14 ?
回覆刪除
回覆
Unknown2018年5月27日凌晨12:02
大家好我是個剛接觸深度學習的新手，使用的是keras, 想請問
如果有個訓練好的模型已經model.save存起來了
現在想要拿這個模型再訓練
只要load.model再model.fit
就是拿已經訓練好的模型再加入資料訓練了嗎?
還是這模型變成只有最新一批訓練資料的權重而已嗎
回覆刪除
回覆
Unknown2018年6月26日凌晨1:06
你好:
我想請問X_Train4D = X_Train.reshape(X_Train.shape[0], 28, 28, 1).astype('float32') 之中的1和X_Train.shape[0]的0代表甚麼意思?
回覆刪除
回覆
Unknown2018年8月30日清晨7:06
John你好:
可以請教如何看到filters裡面的值嗎?
回覆刪除
回覆
2132019年3月4日下午6:36
這份很清楚感恩
回覆刪除
回覆
Frobenius2019年8月1日晚上7:40
您好，我初次接觸AI相關領域，用您的手寫辨識範例程式在學習，
我想把後面的"進行預測"改成餵入自己的".jpg數字圖檔"做辨識測試，
但是不知道要怎麼改寫??
回覆刪除
回覆
Frobenius2019年8月5日清晨5:41
您好，真的是很新的新手，可能我敘述不清楚，
我想把訓練和測試分開寫，希望將測試的部分獨立成一個.py，且餵入自己用小畫家寫的數字圖做測試，
先開啟順練的.py執行訓練獲得模型資料且儲存，之後再開啟執行測試的.py檔，匯入已經訓練儲存模型資料，
然後餵入自己要測試的數字圖，訓練和測試兩個檔案是獨立的，以上是我想做的。
然後有幾個主要問題
1.要如何在測試的.py檔引入訓練好的模型?
2.要如何餵入自己的".jpg數字圖"且進行辨識?

回覆刪除
回覆
Unknown2019年12月12日清晨7:46
您好
我發現我的 os.environ.keys() 裡面沒有 'DISPLAY'
導致畫圖的部分都畫不出來
請問有什麼解決方法嗎
回覆刪除
回覆
廖軒湧2020年6月9日上午10:19
您好
我在使用小畫家自己製作的數字圖
發現
input_fmt = img_mnist_fmt.reshape(1, 28, 28, 1).astype('float32') / 255
print('input_fmt.shape={}'.format(input_fmt.shape))
print('The prediction of my data is {}'.format(model.predict_classes(input_fmt)[0]))

這裡執行過一遍之後
更換圖片再跑一次
顯示的結果會跟第一次執行時一樣

請問要怎麼解決?
回覆刪除
回覆

訂閱：張貼留言 (Atom)

程式扎記

標籤

2017年7月3日星期一

[Toolkit] Keras - MNIST 手寫數字辨識使用 CNN

48 則留言:

[Git 常見問題] error: The following untracked working tree files would be overwritten by merge

檢舉濫用情形

學習筆記

標籤

2017年7月3日 星期一

[Toolkit] Keras - MNIST 手寫數字辨識使用 CNN

48 則留言:

[Git 常見問題] error: The following untracked working tree files would be overwritten by merge

檢舉濫用情形

學習筆記

2017年7月3日星期一