程式扎記

轉載自這裡
基礎正規表示法 :
正規表示法是處理字串的一種表示方式，那麼對字元排序有影響的語系資料就會對正規表示法的結果有影響！此外，正規表示法也需要支援工具程式來輔助才行！所以，我們這裡就先介紹一個最簡單的字串擷取功能的工具程式，那就是 grep . 前一章已經介紹過 grep 的相關選項與參數，本章著重在較進階的 grep 選項說明囉！介紹完 grep 的功能之後，就進入正規表示法的特殊字符的處理能力了.

- 語系對正規表示法的影響
檔案其實記錄的僅有 0 與 1，我們看到的字元文字與數字都是透過編碼表轉換來的. 由於不同語系的編碼資料並不相同，所以就會造成資料擷取結果的差異了. 舉例來說，在英文大小寫的編碼順序中，zh_TW.big5 及 C 這兩種語系的輸出結果分別如下 :

LANG=C 時 : 0 1 2 3 4 ... A B C D ... Z a b c d ...z
LANG=zh_TW 時 : 0 1 2 3 4 ... a A b B c C d D ... z Z

上面的順序是編碼的順序，我們可以很清楚的發現這兩種語系明顯就是不一樣！如果你想要擷取大寫字元而使用 [A-Z] 時，會發現 LANG=C 確實可以僅捉到大寫字元 (因為是連續的) ，但是如果LANG=zh_TW.big5 時，就會發現到，連同小寫的 b-z 也會被擷取出來！因為就編碼的順序來看， big5 語系可以擷取到『 A b B c C ... z Z 』這一堆字元哩！所以，使用正規表示法時，需要特別留意當時環境的語系為何，否則可能會發現與別人不相同的擷取結果喔!

由於一般我們在練習正規表示法時，使用的是相容於 POSIX 的標準，因此就使用『 C 』這個語系！因此，底下的很多練習都是使用『 LANG=C 』這個語系資料來進行的喔！另外，為了要避免這樣編碼所造成的英文與數字的擷取問題，因此有些特殊的符號我們得要瞭解一下的！這些符號主要有底下這些意義 :

尤其上表中的 [:alnum:], [:alpha:], [:upper:], [:lower:], [:digit:] 這幾個一定要知道代表什麼意思，因為他要比 a-z 或 A-Z 的用途要確定的很！好了，底下就讓我們開始來玩玩進階版的 grep 吧.

- grep 的一些進階選項
在第十一章 BASH 裡面的 grep 談論過一些基礎用法，但其實 grep 還有不少的進階用法喔！底下我們僅列出較進階的 grep 選項與參數給大家參考 :

# grep [-A] [-B] [--color=auto] '搜尋字串' filename
選項與參數：
-A ：後面可加數字，為 after 的意思，除了列出該行外，後續的 n 行也列出來；
-B ：後面可加數字，為 befer 的意思，除了列出該行外，前面的 n 行也列出來；
--color=auto 可將正確的那個擷取資料列出顏色

範例一：用 dmesg 列出核心訊息，再以 grep 找出內含 eth 那行

$ dmesg | grep 'eth'
[ 1.776204] i2c-core: driver [adp5520] using legacy suspend method
[ 1.776223] i2c-core: driver [adp5520] using legacy resume method
[ 4.174255] pcnet32: eth0: registered as PCnet/PCI II 79C970A
[ 4.175405] pcnet32: eth1: registered as PCnet/PCI II 79C970A
...(略)...
# dmesg 可列出核心產生的訊息！透過 grep 來擷取網路卡相關資訊 (eth). 不過沒有行號, 看看下個範例吧!

範例二：承上題，要將捉到的關鍵字顯色，且加上行號(-n)來表示

範例三：承上題，在關鍵字所在行的前兩行與後三行也一起捉出來顯示

# dmesg | grep -n -A3 -B2 --color=auto 'eth'
245-PCI: setting IRQ 10 as level-triggered
246-ACPI: PCI Interrupt 0000:00:0e.0[A] -> Link ...
247:eth0: RealTek RTL8139 at 0xee846000, 00:90:cc:a6:34:84, IRQ 10
248:eth0: Identified 8139 chip type 'RTL-8139C'
249-input: PC Speaker as /class/input/input2
250-ACPI: PCI Interrupt 0000:00:01.4 -> Link ...
251-hdb: ATAPI 48X DVD-ROM DVD-R-RAM CD-R/RW drive, 2048kB Cache, UDMA(66)
# 如上所示，你會發現關鍵字 247 所在的前兩行及 248 後三行也都被顯示出來！
# 這樣可以讓你將關鍵字前後資料捉出來進行分析啦

如果每次使用 grep 都得要自行加上 --color=auto 又顯的很麻煩～此時那個好用的 alias 就得來處理一下啦！你可以在 ~/.bashrc 內加上這行：『alias grep='grep --color=auto'』再以『 source ~/.bashrc 』來立即生效即可喔！這樣每次執行 grep 他都會自動幫你加上顏色顯示.

- 基礎正規表示法練習
要瞭解正規表示法最簡單的方法就是由實際練習去感受啦！所以在彙整正規表示法特殊符號前，我們先以底下這個檔案的內容來進行正規表示法的理解吧！先說明一下，底下的練習大前提是 :

* 語系已經使用『 export LANG=C 』的設定值；
* grep 已經使用 alias 設定成為『 grep --color=auto 』

進行練習的檔案內容如下 :

# vi regular_express.txt

"Open Source" is a good mechanism to develop programs.
apple is my favorite food.
Football game is not use feet only.
this dress doesn't fit me.
However, this dress is about $ 3183 dollars.^M
GNU is free air not free beer.^M
Her hair is very beauty.^M
I can't finish the test.^M
Oh! The soup taste good.^M
motorcycle is cheap than car.
This window is clear.
the symbol '*' is represented as start.
Oh! My god!
The gd software is a library for drafting programs.^M
You are the best is mean you are the no. 1.
The world is the same with "glad".
I like dog.
google is the best tools for search keyword.
goooooogle yes!
go! go! Let's go.
# I am VBird

(這檔案共有 22 行，最底下一行為空白行)

* 例題一、搜尋特定字串
假設我們要從剛剛的檔案當中取得 the 這個特定字串，最簡單的方式就是這樣 :

那如果想要『反向選擇』呢？也就是說，當該行沒有 'the' 這個字串時才顯示在螢幕上，那就直接使用 :

# grep -vn 'the' regular_express.txt

如果你想要取得不論大小寫的 the 這個字串，則 :

# grep -in 'the' regular_express.txt

* 例題二、利用中括號 [] 來搜尋集合字元
如果要搜尋 'test' 或 'tast' 這兩個單字時，可以發現到，其實她們有共通的 't?st' 存在. 這個時候，我可以這樣來搜尋 :

其實 [] 裡面不論有幾個字元，他都謹代表某『一個』字元，所以，上面的例子說明了，我需要的字串是『tast』或『test』兩個字串而已！而如果想要搜尋到有 oo 的字元時，則使用 :

但是，如果我不想要 oo 前面有 g 的話呢？此時，可以利用在集合字元的反向選擇 [^] 來達成 :

假設我 oo 前面不想要有小寫字元，我可以這樣寫 [^abcd....z]oo ，但是這樣似乎不怎麼方便，由於小寫字元的 ASCII 上編碼的順序是連續的，因此我們可以將之簡化為底下這樣 :

$ grep -n '[^a-z]oo' regular_express.txt # 此時 LANG=zh_TW.UTF-8, 故 a-z 包含 A-Z!
$ LANG=C # 設定 LANG=C. a-z 只包含小寫 a...z
$ grep -n '[^a-z]oo' regular_express.txt # 再執行一次 grep...
3:Football game is not use feet only. # 此時大寫 'Foo' 的就出現了.

接著我們要取得有數字的那一行 :

考慮到語系對於編碼順序的影響，因此除了連續編碼使用減號『 - 』之外，你也可以使用如下的方法來取得前面兩個測試的結果 :

$ grep -n '[^[:lower:]]oo' regular_express.txt
$ grep -n '[[:digit:]]' regular_express.txt

* 例題三、行首與行尾字元 ^ $
如果我想要讓 the 只在行首列出現呢? 這個時候就得要使用定位字元了！我們可以這樣做 :

$ grep -n '^the' regular_express.txt
12:the symbol '*' is represented as start.

如果我想要開頭是小寫字元的那一行就列出呢? 可以這樣 :

好！那如果我不想要開頭是英文字母，則可以是這樣 :

$ grep -n '^[^a-zA-Z]' regular_express.txt
1:"Open Source" is a good mechanism to develop programs.
21:# I am VBird
# 指令也可以是： grep -n '^[^[:alpha:]]' regular_express.txt

那個 ^ 符號，在字元集合符號(括號[])之內與之外是不同的！在 [] 內代表『反向選擇』，在 [] 之外則代表定位在行首的意義！要分清楚喔！反過來思考，那如果我想要找出來，行尾結束為小數點 (.) 的那一行，該如何處理 :

$ grep -n '\.$' regular_express.txt

因為小數點具有其他意義(底下會介紹)，所以必須要使用跳脫字元 (\) 來加以解除其特殊意義！那麼如果我想要找出來，哪一行是『空白行』，也就是說，該行並沒有輸入任何資料 :

# grep -n '^$' regular_express.txt

* 例題四、任意一個字元 . 與重複字元 *
在第十一章 bash 當中，我們知道萬用字元 * 可以用來代表任意(0或多個)字元，但是正規表示法並不是萬用字元，兩者之間是不相同的！至於正規表示法當中的『 . 』則代表『絕對有一個任意字元』的意思！這兩個符號在正規表示法的意義如下 :

. (小數點)：代表『一定有一個任意字元』的意思；
* (星星號)：代表『重複前一個字元， 0 到無窮多次』的意思，為組合形態

假設我需要找出 g??d 的字串，亦即共有四個字元，起頭是 g 而結束是 d ，我可以這樣做 :

因為 * 代表的是『重複 0 個或多個前面的 RE 字符』的意義，因此，『o*』代表的是：『擁有空字元或一個 o 以上的字元』，特別注意，因為允許空字元(就是有沒有字元都可以的意思)，因此，『 grep -n 'o*' regular_express.txt 』將會把所有的資料都列印出來螢幕上.

那如果是『oo*』呢？則第一個 o 肯定必須要存在，第二個 o 則是可有可無的多個 o ，所以，凡是含有 o, oo, ooo, oooo 等等，都可以被列出來. 同理，當我們需要『至少兩個 o 以上的字串』時，就需要 ooo* ，亦即是 :

如果我想要字串開頭與結尾都是 g，但是兩個 g 之間僅能存在至少一個 o ，亦即是 gog, goog, gooog.... 等等 :

# grep -n 'goo*g' regular_express.txt

* 例題五、限定連續 RE 字符範圍 {}
我們可以利用 . 與 RE 字符及 * 來設定 0 個到無限多個重複字元，那如果我想要限制一個範圍區間內的重複字元數呢？舉例來說，我想要找出兩個到五個 o 的連續字串，該如何作？這時候就得要使用到限定範圍的字符 {} 了。但因為 { 與 } 的符號在 shell 是有特殊意義的，因此，我們必須要使用跳脫字符 \ 來讓他失去特殊意義才行. 至於 {} 的語法是這樣的，假設我要找到兩個 o 的字串，可以是 :

接著我們要找出 g 後面接 2 到 5 個 o ，然後再接一個 g 的字串 :

$ grep -n 'go\{2\}g' regular_express.txt
18:google is the best tools for search keyword.

那麼，如果我想要的是 2 個 o 以上的 goooo....g 呢?

$ grep -n 'go\{2,\}g' regular_express.txt
18:google is the best tools for search keyword.
19:goooooogle yes!

- 基礎正規表示法字符彙整 (characters)
經過了上面的幾個簡單的範例，我們可以將基礎的正規表示法特殊字符彙整如下 :

- sed 工具
在瞭解了一些正規表示法的基礎應用之後，再來有兩個東西可以玩一玩的，那就是 sed 跟底下會介紹的 awk 了！這兩個傢伙可是相當的有用的啊. 先來談一談 sed 好了， sed 本身也是一個管線命令，可以分析 standard input 的啦！而且 sed 還可以將資料進行取代、刪除、新增、擷取特定行等等的功能 :

# sed [-nefr] [動作]
選項與參數：
-n ：使用安靜(silent)模式。在一般 sed 的用法中，所有來自 STDIN
的資料一般都會被列出到螢幕上。但如果加上 -n 參數後，則只有經過
sed 特殊處理的那一行(或者動作)才會被列出來。
-e ：直接在指令列模式上進行 sed 的動作編輯；
-f ：直接將 sed 的動作寫在一個檔案內， -f filename 則可以執行 filename 內的
sed 動作；
-r ：sed 的動作支援的是延伸型正規表示法的語法。(預設是基礎正規表示法語法)
-i ：直接修改讀取的檔案內容，而不是由螢幕輸出。

動作說明： [n1[,n2]]function
n1, n2 ：不見得會存在，一般代表『選擇進行動作的行數』，舉例來說，如果我的動作
是需要在 10 到 20 行之間進行的，則『 10,20[動作行為] 』

function 有底下這些咚咚：
a ：新增， a 的後面可以接字串，而這些字串會在新的一行出現(目前的下一行)～
c ：取代， c 的後面可以接字串，這些字串可以取代 n1,n2 之間的行！
d ：刪除，因為是刪除啊，所以 d 後面通常不接任何咚咚；
i ：插入， i 的後面可以接字串，而這些字串會在新的一行出現(目前的上一行)；
p ：列印，亦即將某個選擇的資料印出。通常 p 會與參數 sed -n 一起運作～
s ：取代，可以直接進行取代的工作哩！通常這個 s 的動作可以搭配
正規表示法！例如 1,20s/old/new/g 就是啦！

* 以行為單位的新增/刪除功能
sed 光是用看的是看不懂的啦！所以又要來練習了！先來玩玩刪除與新增的功能.

範例一：將 /etc/passwd 的內容列出並且列印行號，同時，請將第 2~5 行刪除！
# nl /etc/passwd | sed '2,5d'
1 root:x:0:0:root:/root:/bin/bash
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
.....(後面省略).....

sed 的動作為 '2,5d' ，那個 d 就是刪除！因為 2-5 行給他刪除了，所以顯示的資料就沒有 2-5 行囉～另外，注意一下，原本應該是要下達 sed -e 才對，沒有 -e 也行啦！同時也要注意的是， sed 後面接的動作，請務必以 '' 兩個單引號括住喔. 如果只要刪除第 2 行，可以使用『 nl /etc/passwd | sed '2d' 』來達成，至於若是要刪除第 3 到最後一行，則是『 nl /etc/passwd | sed '3,$d' 』的啦，那個錢字號『 $ 』代表最後一行.

範例二：承上題，在第二行後(亦即是加在第三行)加上『drink tea?』字樣！
# nl /etc/passwd | sed '2a drink tea'
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
drink tea
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
.....(後面省略).....

在 a 後面加上的字串就已將出現在第二行後面囉！那如果是要在第二行前呢？『 nl /etc/passwd | sed '2i drink tea' 』就對啦！就是將『 a 』變成『 i 』即可。增加一行很簡單，那如果是要增將兩行以上呢?

範例三：在第二行後面加入兩行字，例如『Drink tea or .....』與『drink beer?』
# nl /etc/passwd | sed '2a Drink tea or ......\
> drink beer ?'
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
Drink tea or ......
drink beer ?
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
.....(後面省略).....

這個範例的重點是『我們可以新增不只一行喔！可以新增好幾行』但是每一行之間都必須要以反斜線『 \ 』來進行新行的增加喔.

* 以行為單位的取代與顯示功能
剛剛是介紹如何新增與刪除，那麼如果要整行取代呢？看看底下的範例吧 :
範例四：我想將第2-5行的內容取代成為『No 2-5 number』呢？

# nl /etc/passwd | sed '2,5c No 2-5 number'
1 root:x:0:0:root:/root:/bin/bash
No 2-5 number
6 sync:x:5:0:sync:/sbin:/bin/sync
.....(後面省略).....

透過這個方法我們就能夠將資料整行取代了！非常容易吧！sed 還有更好用的東東！我們以前想要列出第 11~20 行，得要透過『head -n 20 | tail -n 10』之類的方法來處理，很麻煩啦～ sed 則可以簡單的直接取出你想要的那幾行！是透過行號來捉的喔！看看底下的範例先 :

範例五：僅列出 /etc/passwd 檔案內的第 5-7 行
# nl /etc/passwd | sed -n '5,7p'
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown

* 部分資料的搜尋並取代的功能
除了整行的處理模式之外， sed 還可以用行為單位進行部分資料的搜尋並取代的功能喔！基本上 sed 的搜尋與取代的與 vi 相當的類似！他有點像這樣 :

sed 's/要被取代的字串/新的字串/g'

上表中特殊字體的部分為關鍵字，請記下來！至於三個斜線分成兩欄就是新舊字串的替換啦！接著使用底下這個取得 IP 數據的範例，一段一段的來處理，讓你瞭解一下什麼是咱們所謂的搜尋並取代 :

步驟一：先觀察原始訊息，利用 /sbin/ifconfig 查詢 IP 為何？
# ifconfig eth0
eth0 Link encap:Ethernet HWaddr 00:90:CC:A6:34:84
inet addr:192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
inet6 addr: fe80::290:ccff:fea6:3484/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
.....(以下省略).....
# 因為我們還沒有講到 IP ，這裡你先有個概念即可啊！我們的重點在第二行，
# 也就是 192.168.1.100 那一行而已！先利用關鍵字捉出那一行！

步驟二：利用關鍵字配合 grep 擷取出關鍵的一行資料
# ifconfig eth0 | grep 'inet addr'
inet addr:192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
# 當場僅剩下一行！接下來，我們要將開始到 addr: 通通刪除，就是像底下這樣：
# inet addr:192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
# 上面的刪除關鍵在於『 ^.*inet addr: 』啦！正規表示法出現！ ^_^

步驟三：將 IP 前面的部分予以刪除
# ifconfig eth0 | grep 'inet addr' | \
> sed 's/^.*addr://g'
192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
# 仔細與上個步驟比較一下，前面的部分不見了！接下來則是刪除後續的部分，亦即：
# 192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
# 此時所需的正規表示法為：『 Bcast.*$ 』就是啦！

步驟四：將 IP 後面的部分予以刪除
# ifconfig eth0 | grep 'inet addr' | \
> sed 's/^.*addr://g' | sed 's/Bcast.*$//g'
192.168.1.100

再來繼續研究 sed 與正規表示法的配合練習！假設我只要 MAN 存在的那幾行資料，但是含有 # 在內的註解與空白行不要！此時該如何處理呢？可以透過這幾個步驟來實作看看 :

步驟一：先使用 grep 將關鍵字 MAN 所在行取出來
# cat /etc/man.config | grep 'MAN'
# when MANPATH contains an empty substring), to find out where the cat
# MANBIN pathname
# MANPATH manpath_element [corresponding_catdir]
# MANPATH_MAP path_element manpath_element
# MANBIN /usr/local/bin/man
# Every automatically generated MANPATH includes these fields
MANPATH /usr/man
....(後面省略)....

步驟二：刪除掉註解之後的資料！
# cat /etc/man.config | grep 'MAN'| sed 's/#.*$//g'

MANPATH /usr/man
....(後面省略)....
# 從上面可以看出來，原本註解的資料都變成空白行啦！所以，接下來要刪除掉空白行

# cat /etc/man.config | grep 'MAN'| sed 's/#.*$//g' | \
> sed '/^$/d'
MANPATH /usr/man
MANPATH /usr/share/man
MANPATH /usr/local/man
....(後面省略)....

* 直接修改檔案內容 (危險動作)
sed 可以直接修改檔案的內容呢！而不必使用管線命令或資料流重導向. 不過由於這個動作會直接修改到原始的檔案，所以請你千萬不要隨便拿系統設定檔來測試喔. 底下為幾個說明範例 :

範例六：利用 sed 將 regular_express.txt 內每一行結尾若為 . 則換成 !
# sed -i 's/\.$/\!/g' regular_express.txt
# 上頭的 -i 選項可以讓你的 sed 直接去修改後面接的檔案內容而不是由螢幕輸出喔！
# 這個範例是用在取代！請您自行 cat 該檔案去查閱結果囉！

範例七：利用 sed 直接在 regular_express.txt 最後一行加入『# This is a test』
# sed -i '$a # This is a test' regular_express.txt
# 由於 $ 代表的是最後一行，而 a 的動作是新增，因此該檔案最後新增囉！

This message was edited 37 times. Last update was at 11/12/2011 15:21:38

程式扎記

標籤

2011年12月12日星期一

[Linux 小學堂] 鳥哥的 Linux 私房菜 : 第十二章、正規表示與文件格式處理 - 基礎正規表示法 (2)

沒有留言:

張貼留言

[Git 常見問題] error: The following untracked working tree files would be overwritten by merge

檢舉濫用情形

學習筆記

標籤

2011年12月12日 星期一