轉載自 這裡
基礎正規表示法 :
正規表示法是處理字串的一種表示方式,那麼對字元排序有影響的語系資料就會對正規表示法的結果有影響! 此外,正規表示法也需要支援工具程式來輔助才行!所以,我們這裡就先介紹一個最簡單的字串擷取功能的工具程式,那就是 grep . 前一章已經介紹過 grep 的相關選項與參數,本章著重在較進階的 grep 選項說明囉! 介紹完 grep 的功能之後,就進入正規表示法的特殊字符的處理能力了.
- 語系對正規表示法的影響
檔案其實記錄的僅有 0 與 1,我們看到的字元文字與數字都是透過編碼表轉換來的. 由於不同語系的編碼資料並不相同,所以就會造成資料擷取結果的差異了. 舉例來說,在英文大小寫的編碼順序中,zh_TW.big5 及 C 這兩種語系的輸出結果分別如下 :
上面的順序是編碼的順序,我們可以很清楚的發現這兩種語系明顯就是不一樣!如果你想要擷取大寫字元而使用 [A-Z] 時, 會發現 LANG=C 確實可以僅捉到大寫字元 (因為是連續的) ,但是如果LANG=zh_TW.big5 時,就會發現到, 連同小寫的 b-z 也會被擷取出來!因為就編碼的順序來看, big5 語系可以擷取到『 A b B c C ... z Z 』這一堆字元哩! 所以,使用正規表示法時,需要特別留意當時環境的語系為何, 否則可能會發現與別人不相同的擷取結果喔!
由於一般我們在練習正規表示法時,使用的是相容於 POSIX 的標準,因此就使用『 C 』這個語系! 因此,底下的很多練習都是使用『 LANG=C 』這個語系資料來進行的喔! 另外,為了要避免這樣編碼所造成的英文與數字的擷取問題,因此有些特殊的符號我們得要瞭解一下的! 這些符號主要有底下這些意義 :
尤其上表中的 [:alnum:], [:alpha:], [:upper:], [:lower:], [:digit:] 這幾個一定要知道代表什麼意思,因為他要比 a-z 或 A-Z 的用途要確定的很!好了,底下就讓我們開始來玩玩進階版的 grep 吧.
- grep 的一些進階選項
在 第十一章 BASH 裡面的 grep 談論過一些基礎用法, 但其實 grep 還有不少的進階用法喔!底下我們僅列出較進階的 grep 選項與參數給大家參考 :
範例一:用 dmesg 列出核心訊息,再以 grep 找出內含 eth 那行
範例二:承上題,要將捉到的關鍵字顯色,且加上行號(-n)來表示
範例三:承上題,在關鍵字所在行的前兩行與後三行也一起捉出來顯示
如果每次使用 grep 都得要自行加上 --color=auto 又顯的很麻煩~ 此時那個好用的 alias 就得來處理一下啦!你可以在 ~/.bashrc 內加上這行:『alias grep='grep --color=auto'』再以『 source ~/.bashrc 』來立即生效即可喔! 這樣每次執行 grep 他都會自動幫你加上顏色顯示.
- 基礎正規表示法練習
要瞭解正規表示法最簡單的方法就是由實際練習去感受啦!所以在彙整正規表示法特殊符號前, 我們先以底下這個檔案的內容來進行正規表示法的理解吧!先說明一下,底下的練習大前提是 :
進行練習的檔案內容如下 :
(這檔案共有 22 行,最底下一行為空白行)
* 例題一、搜尋特定字串
假設我們要從剛剛的檔案當中取得 the 這個特定字串,最簡單的方式就是這樣 :
那如果想要『反向選擇』呢?也就是說,當該行沒有 'the' 這個字串時才顯示在螢幕上,那就直接使用 :
如果你想要取得不論大小寫的 the 這個字串,則 :
* 例題二、利用中括號 [] 來搜尋集合字元
如果要搜尋 'test' 或 'tast' 這兩個單字時,可以發現到,其實她們有共通的 't?st' 存在. 這個時候,我可以這樣來搜尋 :
其實 [] 裡面不論有幾個字元,他都謹代表某『一個』字元, 所以,上面的例子說明了,我需要的字串是『tast』或『test』兩個字串而已! 而如果想要搜尋到有 oo 的字元時,則使用 :
但是,如果我不想要 oo 前面有 g 的話呢?此時,可以利用在集合字元的反向選擇 [^] 來達成 :
假設我 oo 前面不想要有小寫字元,我可以這樣寫 [^abcd....z]oo , 但是這樣似乎不怎麼方便,由於小寫字元的 ASCII 上編碼的順序是連續的, 因此我們可以將之簡化為底下這樣 :
接著我們要取得有數字的那一行 :
考慮到語系對於編碼順序的影響,因此除了連續編碼使用減號『 - 』之外, 你也可以使用如下的方法來取得前面兩個測試的結果 :
* 例題三、行首與行尾字元 ^ $
如果我想要讓 the 只在行首列出現呢? 這個時候就得要使用定位字元了!我們可以這樣做 :
如果我想要開頭是小寫字元的那一行就列出呢? 可以這樣 :
好!那如果我不想要開頭是英文字母,則可以是這樣 :
那個 ^ 符號,在字元集合符號(括號[])之內與之外是不同的! 在 [] 內代表『反向選擇』,在 [] 之外則代表定位在行首的意義!要分清楚喔! 反過來思考,那如果我想要找出來,行尾結束為小數點 (.) 的那一行,該如何處理 :
因為小數點具有其他意義(底下會介紹),所以必須要使用跳脫字元 (\) 來加以解除其特殊意義!那麼如果我想要找出來,哪一行是『空白行』, 也就是說,該行並沒有輸入任何資料 :
* 例題四、任意一個字元 . 與重複字元 *
在 第十一章 bash 當中,我們知道萬用字元 * 可以用來代表任意(0或多個)字元, 但是正規表示法並不是萬用字元,兩者之間是不相同的! 至於正規表示法當中的『 . 』則代表『絕對有一個任意字元』的意思!這兩個符號在正規表示法的意義如下 :
假設我需要找出 g??d 的字串,亦即共有四個字元, 起頭是 g 而結束是 d ,我可以這樣做 :
因為 * 代表的是『重複 0 個或多個前面的 RE 字符』的意義, 因此,『o*』代表的是:『擁有空字元或一個 o 以上的字元』, 特別注意,因為允許空字元(就是有沒有字元都可以的意思),因此,『 grep -n 'o*' regular_express.txt 』將會把所有的資料都列印出來螢幕上.
那如果是『oo*』呢?則第一個 o 肯定必須要存在,第二個 o 則是可有可無的多個 o , 所以,凡是含有 o, oo, ooo, oooo 等等,都可以被列出來. 同理,當我們需要『至少兩個 o 以上的字串』時,就需要 ooo* ,亦即是 :
如果我想要字串開頭與結尾都是 g,但是兩個 g 之間僅能存在至少一個 o ,亦即是 gog, goog, gooog.... 等等 :
* 例題五、限定連續 RE 字符範圍 {}
我們可以利用 . 與 RE 字符及 * 來設定 0 個到無限多個重複字元, 那如果我想要限制一個範圍區間內的重複字元數呢?舉例來說,我想要找出兩個到五個 o 的連續字串,該如何作?這時候就得要使用到限定範圍的字符 {} 了。 但因為 { 與 } 的符號在 shell 是有特殊意義的,因此, 我們必須要使用跳脫字符 \ 來讓他失去特殊意義才行. 至於 {} 的語法是這樣的,假設我要找到兩個 o 的字串,可以是 :
接著我們要找出 g 後面接 2 到 5 個 o ,然後再接一個 g 的字串 :
那麼,如果我想要的是 2 個 o 以上的 goooo....g 呢?
- 基礎正規表示法字符彙整 (characters)
經過了上面的幾個簡單的範例,我們可以將基礎的正規表示法特殊字符彙整如下 :
- sed 工具
在瞭解了一些正規表示法的基礎應用之後,再來有兩個東西可以玩一玩的,那就是 sed 跟底下會介紹的 awk 了! 這兩個傢伙可是相當的有用的啊. 先來談一談 sed 好了, sed 本身也是一個管線命令,可以分析 standard input 的啦! 而且 sed 還可以將資料進行取代、刪除、新增、擷取特定行等等的功能 :
* 以行為單位的新增/刪除功能
sed 光是用看的是看不懂的啦!所以又要來練習了!先來玩玩刪除與新增的功能.
sed 的動作為 '2,5d' ,那個 d 就是刪除!因為 2-5 行給他刪除了,所以顯示的資料就沒有 2-5 行囉~ 另外,注意一下,原本應該是要下達 sed -e 才對,沒有 -e 也行啦!同時也要注意的是, sed 後面接的動作,請務必以 '' 兩個單引號括住喔. 如果只要刪除第 2 行,可以使用『 nl /etc/passwd | sed '2d' 』來達成, 至於若是要刪除第 3 到最後一行,則是『 nl /etc/passwd | sed '3,$d' 』的啦,那個錢字號『 $ 』代表最後一行.
在 a 後面加上的字串就已將出現在第二行後面囉!那如果是要在第二行前呢?『 nl /etc/passwd | sed '2i drink tea' 』就對啦!就是將『 a 』變成『 i 』即可。 增加一行很簡單,那如果是要增將兩行以上呢?
這個範例的重點是『我們可以新增不只一行喔!可以新增好幾行』但是每一行之間都必須要以反斜線『 \ 』來進行新行的增加喔.
* 以行為單位的取代與顯示功能
剛剛是介紹如何新增與刪除,那麼如果要整行取代呢?看看底下的範例吧 :
範例四:我想將第2-5行的內容取代成為『No 2-5 number』呢?
透過這個方法我們就能夠將資料整行取代了!非常容易吧!sed 還有更好用的東東!我們以前想要列出第 11~20 行, 得要透過『head -n 20 | tail -n 10』之類的方法來處理,很麻煩啦~ sed 則可以簡單的直接取出你想要的那幾行!是透過行號來捉的喔!看看底下的範例先 :
* 部分資料的搜尋並取代的功能
除了整行的處理模式之外, sed 還可以用行為單位進行部分資料的搜尋並取代的功能喔! 基本上 sed 的搜尋與取代的與 vi 相當的類似!他有點像這樣 :
上表中特殊字體的部分為關鍵字,請記下來!至於三個斜線分成兩欄就是新舊字串的替換啦! 接著使用底下這個取得 IP 數據的範例,一段一段的來處理,讓你瞭解一下什麼是咱們所謂的搜尋並取代 :
再來繼續研究 sed 與正規表示法的配合練習!假設我只要 MAN 存在的那幾行資料, 但是含有 # 在內的註解與空白行不要!此時該如何處理呢?可以透過這幾個步驟來實作看看 :
* 直接修改檔案內容 (危險動作)
sed 可以直接修改檔案的內容呢!而不必使用管線命令或資料流重導向. 不過由於這個動作會直接修改到原始的檔案,所以請你千萬不要隨便拿系統設定檔來測試喔. 底下為幾個說明範例 :
基礎正規表示法 :
正規表示法是處理字串的一種表示方式,那麼對字元排序有影響的語系資料就會對正規表示法的結果有影響! 此外,正規表示法也需要支援工具程式來輔助才行!所以,我們這裡就先介紹一個最簡單的字串擷取功能的工具程式,那就是 grep . 前一章已經介紹過 grep 的相關選項與參數,本章著重在較進階的 grep 選項說明囉! 介紹完 grep 的功能之後,就進入正規表示法的特殊字符的處理能力了.
- 語系對正規表示法的影響
檔案其實記錄的僅有 0 與 1,我們看到的字元文字與數字都是透過編碼表轉換來的. 由於不同語系的編碼資料並不相同,所以就會造成資料擷取結果的差異了. 舉例來說,在英文大小寫的編碼順序中,zh_TW.big5 及 C 這兩種語系的輸出結果分別如下 :
上面的順序是編碼的順序,我們可以很清楚的發現這兩種語系明顯就是不一樣!如果你想要擷取大寫字元而使用 [A-Z] 時, 會發現 LANG=C 確實可以僅捉到大寫字元 (因為是連續的) ,但是如果LANG=zh_TW.big5 時,就會發現到, 連同小寫的 b-z 也會被擷取出來!因為就編碼的順序來看, big5 語系可以擷取到『 A b B c C ... z Z 』這一堆字元哩! 所以,使用正規表示法時,需要特別留意當時環境的語系為何, 否則可能會發現與別人不相同的擷取結果喔!
由於一般我們在練習正規表示法時,使用的是相容於 POSIX 的標準,因此就使用『 C 』這個語系! 因此,底下的很多練習都是使用『 LANG=C 』這個語系資料來進行的喔! 另外,為了要避免這樣編碼所造成的英文與數字的擷取問題,因此有些特殊的符號我們得要瞭解一下的! 這些符號主要有底下這些意義 :
尤其上表中的 [:alnum:], [:alpha:], [:upper:], [:lower:], [:digit:] 這幾個一定要知道代表什麼意思,因為他要比 a-z 或 A-Z 的用途要確定的很!好了,底下就讓我們開始來玩玩進階版的 grep 吧.
- grep 的一些進階選項
在 第十一章 BASH 裡面的 grep 談論過一些基礎用法, 但其實 grep 還有不少的進階用法喔!底下我們僅列出較進階的 grep 選項與參數給大家參考 :
範例一:用 dmesg 列出核心訊息,再以 grep 找出內含 eth 那行
範例二:承上題,要將捉到的關鍵字顯色,且加上行號(-n)來表示
範例三:承上題,在關鍵字所在行的前兩行與後三行也一起捉出來顯示
如果每次使用 grep 都得要自行加上 --color=auto 又顯的很麻煩~ 此時那個好用的 alias 就得來處理一下啦!你可以在 ~/.bashrc 內加上這行:『alias grep='grep --color=auto'』再以『 source ~/.bashrc 』來立即生效即可喔! 這樣每次執行 grep 他都會自動幫你加上顏色顯示.
- 基礎正規表示法練習
要瞭解正規表示法最簡單的方法就是由實際練習去感受啦!所以在彙整正規表示法特殊符號前, 我們先以底下這個檔案的內容來進行正規表示法的理解吧!先說明一下,底下的練習大前提是 :
進行練習的檔案內容如下 :
(這檔案共有 22 行,最底下一行為空白行)
* 例題一、搜尋特定字串
假設我們要從剛剛的檔案當中取得 the 這個特定字串,最簡單的方式就是這樣 :
那如果想要『反向選擇』呢?也就是說,當該行沒有 'the' 這個字串時才顯示在螢幕上,那就直接使用 :
如果你想要取得不論大小寫的 the 這個字串,則 :
* 例題二、利用中括號 [] 來搜尋集合字元
如果要搜尋 'test' 或 'tast' 這兩個單字時,可以發現到,其實她們有共通的 't?st' 存在. 這個時候,我可以這樣來搜尋 :
其實 [] 裡面不論有幾個字元,他都謹代表某『一個』字元, 所以,上面的例子說明了,我需要的字串是『tast』或『test』兩個字串而已! 而如果想要搜尋到有 oo 的字元時,則使用 :
但是,如果我不想要 oo 前面有 g 的話呢?此時,可以利用在集合字元的反向選擇 [^] 來達成 :
假設我 oo 前面不想要有小寫字元,我可以這樣寫 [^abcd....z]oo , 但是這樣似乎不怎麼方便,由於小寫字元的 ASCII 上編碼的順序是連續的, 因此我們可以將之簡化為底下這樣 :
接著我們要取得有數字的那一行 :
考慮到語系對於編碼順序的影響,因此除了連續編碼使用減號『 - 』之外, 你也可以使用如下的方法來取得前面兩個測試的結果 :
* 例題三、行首與行尾字元 ^ $
如果我想要讓 the 只在行首列出現呢? 這個時候就得要使用定位字元了!我們可以這樣做 :
如果我想要開頭是小寫字元的那一行就列出呢? 可以這樣 :
好!那如果我不想要開頭是英文字母,則可以是這樣 :
那個 ^ 符號,在字元集合符號(括號[])之內與之外是不同的! 在 [] 內代表『反向選擇』,在 [] 之外則代表定位在行首的意義!要分清楚喔! 反過來思考,那如果我想要找出來,行尾結束為小數點 (.) 的那一行,該如何處理 :
因為小數點具有其他意義(底下會介紹),所以必須要使用跳脫字元 (\) 來加以解除其特殊意義!那麼如果我想要找出來,哪一行是『空白行』, 也就是說,該行並沒有輸入任何資料 :
* 例題四、任意一個字元 . 與重複字元 *
在 第十一章 bash 當中,我們知道萬用字元 * 可以用來代表任意(0或多個)字元, 但是正規表示法並不是萬用字元,兩者之間是不相同的! 至於正規表示法當中的『 . 』則代表『絕對有一個任意字元』的意思!這兩個符號在正規表示法的意義如下 :
假設我需要找出 g??d 的字串,亦即共有四個字元, 起頭是 g 而結束是 d ,我可以這樣做 :
因為 * 代表的是『重複 0 個或多個前面的 RE 字符』的意義, 因此,『o*』代表的是:『擁有空字元或一個 o 以上的字元』, 特別注意,因為允許空字元(就是有沒有字元都可以的意思),因此,『 grep -n 'o*' regular_express.txt 』將會把所有的資料都列印出來螢幕上.
那如果是『oo*』呢?則第一個 o 肯定必須要存在,第二個 o 則是可有可無的多個 o , 所以,凡是含有 o, oo, ooo, oooo 等等,都可以被列出來. 同理,當我們需要『至少兩個 o 以上的字串』時,就需要 ooo* ,亦即是 :
如果我想要字串開頭與結尾都是 g,但是兩個 g 之間僅能存在至少一個 o ,亦即是 gog, goog, gooog.... 等等 :
* 例題五、限定連續 RE 字符範圍 {}
我們可以利用 . 與 RE 字符及 * 來設定 0 個到無限多個重複字元, 那如果我想要限制一個範圍區間內的重複字元數呢?舉例來說,我想要找出兩個到五個 o 的連續字串,該如何作?這時候就得要使用到限定範圍的字符 {} 了。 但因為 { 與 } 的符號在 shell 是有特殊意義的,因此, 我們必須要使用跳脫字符 \ 來讓他失去特殊意義才行. 至於 {} 的語法是這樣的,假設我要找到兩個 o 的字串,可以是 :
接著我們要找出 g 後面接 2 到 5 個 o ,然後再接一個 g 的字串 :
那麼,如果我想要的是 2 個 o 以上的 goooo....g 呢?
- 基礎正規表示法字符彙整 (characters)
經過了上面的幾個簡單的範例,我們可以將基礎的正規表示法特殊字符彙整如下 :
- sed 工具
在瞭解了一些正規表示法的基礎應用之後,再來有兩個東西可以玩一玩的,那就是 sed 跟底下會介紹的 awk 了! 這兩個傢伙可是相當的有用的啊. 先來談一談 sed 好了, sed 本身也是一個管線命令,可以分析 standard input 的啦! 而且 sed 還可以將資料進行取代、刪除、新增、擷取特定行等等的功能 :
* 以行為單位的新增/刪除功能
sed 光是用看的是看不懂的啦!所以又要來練習了!先來玩玩刪除與新增的功能.
sed 的動作為 '2,5d' ,那個 d 就是刪除!因為 2-5 行給他刪除了,所以顯示的資料就沒有 2-5 行囉~ 另外,注意一下,原本應該是要下達 sed -e 才對,沒有 -e 也行啦!同時也要注意的是, sed 後面接的動作,請務必以 '' 兩個單引號括住喔. 如果只要刪除第 2 行,可以使用『 nl /etc/passwd | sed '2d' 』來達成, 至於若是要刪除第 3 到最後一行,則是『 nl /etc/passwd | sed '3,$d' 』的啦,那個錢字號『 $ 』代表最後一行.
在 a 後面加上的字串就已將出現在第二行後面囉!那如果是要在第二行前呢?『 nl /etc/passwd | sed '2i drink tea' 』就對啦!就是將『 a 』變成『 i 』即可。 增加一行很簡單,那如果是要增將兩行以上呢?
這個範例的重點是『我們可以新增不只一行喔!可以新增好幾行』但是每一行之間都必須要以反斜線『 \ 』來進行新行的增加喔.
* 以行為單位的取代與顯示功能
剛剛是介紹如何新增與刪除,那麼如果要整行取代呢?看看底下的範例吧 :
範例四:我想將第2-5行的內容取代成為『No 2-5 number』呢?
透過這個方法我們就能夠將資料整行取代了!非常容易吧!sed 還有更好用的東東!我們以前想要列出第 11~20 行, 得要透過『head -n 20 | tail -n 10』之類的方法來處理,很麻煩啦~ sed 則可以簡單的直接取出你想要的那幾行!是透過行號來捉的喔!看看底下的範例先 :
* 部分資料的搜尋並取代的功能
除了整行的處理模式之外, sed 還可以用行為單位進行部分資料的搜尋並取代的功能喔! 基本上 sed 的搜尋與取代的與 vi 相當的類似!他有點像這樣 :
上表中特殊字體的部分為關鍵字,請記下來!至於三個斜線分成兩欄就是新舊字串的替換啦! 接著使用底下這個取得 IP 數據的範例,一段一段的來處理,讓你瞭解一下什麼是咱們所謂的搜尋並取代 :
再來繼續研究 sed 與正規表示法的配合練習!假設我只要 MAN 存在的那幾行資料, 但是含有 # 在內的註解與空白行不要!此時該如何處理呢?可以透過這幾個步驟來實作看看 :
* 直接修改檔案內容 (危險動作)
sed 可以直接修改檔案的內容呢!而不必使用管線命令或資料流重導向. 不過由於這個動作會直接修改到原始的檔案,所以請你千萬不要隨便拿系統設定檔來測試喔. 底下為幾個說明範例 :
This message was edited 37 times. Last update was at 11/12/2011 15:21:38
沒有留言:
張貼留言