程式扎記: [Linux 小學堂] 鳥哥的 Linux 私房菜 : 第十二章、正規表示與文件格式處理 - 基礎正規表示法 (2)

標籤

2011年12月12日 星期一

[Linux 小學堂] 鳥哥的 Linux 私房菜 : 第十二章、正規表示與文件格式處理 - 基礎正規表示法 (2)


轉載自 這裡
基礎正規表示法 :
正規表示法是處理字串的一種表示方式,那麼對字元排序有影響的語系資料就會對正規表示法的結果有影響! 此外,正規表示法也需要支援工具程式來輔助才行!所以,我們這裡就先介紹一個最簡單的字串擷取功能的工具程式,那就是 grep . 前一章已經介紹過 grep 的相關選項與參數,本章著重在較進階的 grep 選項說明囉! 介紹完 grep 的功能之後,就進入正規表示法的特殊字符的處理能力了.

- 語系對正規表示法的影響
檔案其實記錄的僅有 0 與 1,我們看到的字元文字與數字都是透過編碼表轉換來的. 由於不同語系的編碼資料並不相同,所以就會造成資料擷取結果的差異了. 舉例來說,在英文大小寫的編碼順序中,zh_TW.big5 及 C 這兩種語系的輸出結果分別如下 :
LANG=C 時 : 0 1 2 3 4 ... A B C D ... Z a b c d ...z
LANG=zh_TW 時 : 0 1 2 3 4 ... a A b B c C d D ... z Z

上面的順序是編碼的順序,我們可以很清楚的發現這兩種語系明顯就是不一樣!如果你想要擷取大寫字元而使用 [A-Z] 時, 會發現 LANG=C 確實可以僅捉到大寫字元 (因為是連續的) ,但是如果LANG=zh_TW.big5 時,就會發現到, 連同小寫的 b-z 也會被擷取出來!因為就編碼的順序來看, big5 語系可以擷取到『 A b B c C ... z Z 』這一堆字元哩! 所以,使用正規表示法時,需要特別留意當時環境的語系為何, 否則可能會發現與別人不相同的擷取結果喔!

由於一般我們在練習正規表示法時,使用的是相容於 POSIX 的標準,因此就使用『 C 』這個語系! 因此,底下的很多練習都是使用『 LANG=C 』這個語系資料來進行的喔! 另外,為了要避免這樣編碼所造成的英文與數字的擷取問題,因此有些特殊的符號我們得要瞭解一下的! 這些符號主要有底下這些意義 :


尤其上表中的 [:alnum:], [:alpha:], [:upper:], [:lower:], [:digit:] 這幾個一定要知道代表什麼意思,因為他要比 a-z 或 A-Z 的用途要確定的很!好了,底下就讓我們開始來玩玩進階版的 grep 吧.

- grep 的一些進階選項
在 第十一章 BASH 裡面的 grep 談論過一些基礎用法, 但其實 grep 還有不少的進階用法喔!底下我們僅列出較進階的 grep 選項與參數給大家參考 :
# grep [-A] [-B] [--color=auto] '搜尋字串' filename
選項與參數:
-A :後面可加數字,為 after 的意思,除了列出該行外,後續的 n 行也列出來;
-B :後面可加數字,為 befer 的意思,除了列出該行外,前面的 n 行也列出來;
--color=auto 可將正確的那個擷取資料列出顏色

範例一:用 dmesg 列出核心訊息,再以 grep 找出內含 eth 那行
$ dmesg | grep 'eth'
[ 1.776204] i2c-core: driver [adp5520] using legacy suspend method
[ 1.776223] i2c-core: driver [adp5520] using legacy resume method
[ 4.174255] pcnet32: eth0: registered as PCnet/PCI II 79C970A
[ 4.175405] pcnet32: eth1: registered as PCnet/PCI II 79C970A
...(略)...
# dmesg 可列出核心產生的訊息!透過 grep 來擷取網路卡相關資訊 (eth). 不過沒有行號, 看看下個範例吧!

範例二:承上題,要將捉到的關鍵字顯色,且加上行號(-n)來表示


範例三:承上題,在關鍵字所在行的前兩行與後三行也一起捉出來顯示
# dmesg | grep -n -A3 -B2 --color=auto 'eth'
245-PCI: setting IRQ 10 as level-triggered
246-ACPI: PCI Interrupt 0000:00:0e.0[A] -> Link ...
247:eth0: RealTek RTL8139 at 0xee846000, 00:90:cc:a6:34:84, IRQ 10
248:eth0: Identified 8139 chip type 'RTL-8139C'
249-input: PC Speaker as /class/input/input2
250-ACPI: PCI Interrupt 0000:00:01.4 -> Link ...
251-hdb: ATAPI 48X DVD-ROM DVD-R-RAM CD-R/RW drive, 2048kB Cache, UDMA(66)
# 如上所示,你會發現關鍵字 247 所在的前兩行及 248 後三行也都被顯示出來!
# 這樣可以讓你將關鍵字前後資料捉出來進行分析啦

如果每次使用 grep 都得要自行加上 --color=auto 又顯的很麻煩~ 此時那個好用的 alias 就得來處理一下啦!你可以在 ~/.bashrc 內加上這行:『alias grep='grep --color=auto'』再以『 source ~/.bashrc 』來立即生效即可喔! 這樣每次執行 grep 他都會自動幫你加上顏色顯示.

- 基礎正規表示法練習
要瞭解正規表示法最簡單的方法就是由實際練習去感受啦!所以在彙整正規表示法特殊符號前, 我們先以底下這個檔案的內容來進行正規表示法的理解吧!先說明一下,底下的練習大前提是 :
* 語系已經使用『 export LANG=C 』的設定值;
* grep 已經使用 alias 設定成為『 grep --color=auto 』

進行練習的檔案內容如下 :
# vi regular_express.txt
"Open Source" is a good mechanism to develop programs.
apple is my favorite food.
Football game is not use feet only.
this dress doesn't fit me.
However, this dress is about $ 3183 dollars.^M
GNU is free air not free beer.^M
Her hair is very beauty.^M
I can't finish the test.^M
Oh! The soup taste good.^M
motorcycle is cheap than car.
This window is clear.
the symbol '*' is represented as start.
Oh! My god!
The gd software is a library for drafting programs.^M
You are the best is mean you are the no. 1.
The world is the same with "glad".
I like dog.
google is the best tools for search keyword.
goooooogle yes!
go! go! Let's go.
# I am VBird

(這檔案共有 22 行,最底下一行為空白行)

* 例題一、搜尋特定字串
假設我們要從剛剛的檔案當中取得 the 這個特定字串,最簡單的方式就是這樣 :


那如果想要『反向選擇』呢?也就是說,當該行沒有 'the' 這個字串時才顯示在螢幕上,那就直接使用 :
# grep -vn 'the' regular_express.txt

如果你想要取得不論大小寫的 the 這個字串,則 :
# grep -in 'the' regular_express.txt

* 例題二、利用中括號 [] 來搜尋集合字元
如果要搜尋 'test' 或 'tast' 這兩個單字時,可以發現到,其實她們有共通的 't?st' 存在. 這個時候,我可以這樣來搜尋 :


其實 [] 裡面不論有幾個字元,他都謹代表某『一個』字元, 所以,上面的例子說明了,我需要的字串是『tast』或『test』兩個字串而已! 而如果想要搜尋到有 oo 的字元時,則使用 :


但是,如果我不想要 oo 前面有 g 的話呢?此時,可以利用在集合字元的反向選擇 [^] 來達成 :


假設我 oo 前面不想要有小寫字元,我可以這樣寫 [^abcd....z]oo , 但是這樣似乎不怎麼方便,由於小寫字元的 ASCII 上編碼的順序是連續的, 因此我們可以將之簡化為底下這樣 :
$ grep -n '[^a-z]oo' regular_express.txt # 此時 LANG=zh_TW.UTF-8, 故 a-z 包含 A-Z!
$ LANG=C # 設定 LANG=C. a-z 只包含小寫 a...z
$ grep -n '[^a-z]oo' regular_express.txt # 再執行一次 grep...
3:Football game is not use feet only. # 此時大寫 'Foo' 的就出現了.

接著我們要取得有數字的那一行 :


考慮到語系對於編碼順序的影響,因此除了連續編碼使用減號『 - 』之外, 你也可以使用如下的方法來取得前面兩個測試的結果 :
$ grep -n '[^[:lower:]]oo' regular_express.txt
$ grep -n '[[:digit:]]' regular_express.txt


* 例題三、行首與行尾字元 ^ $
如果我想要讓 the 只在行首列出現呢? 這個時候就得要使用定位字元了!我們可以這樣做 :
$ grep -n '^the' regular_express.txt
12:the symbol '*' is represented as start.

如果我想要開頭是小寫字元的那一行就列出呢? 可以這樣 :


好!那如果我不想要開頭是英文字母,則可以是這樣 :
$ grep -n '^[^a-zA-Z]' regular_express.txt
1:"Open Source" is a good mechanism to develop programs.
21:# I am VBird
# 指令也可以是: grep -n '^[^[:alpha:]]' regular_express.txt

那個 ^ 符號,在字元集合符號(括號[])之內與之外是不同的! 在 [] 內代表『反向選擇』,在 [] 之外則代表定位在行首的意義!要分清楚喔! 反過來思考,那如果我想要找出來,行尾結束為小數點 (.) 的那一行,該如何處理 :
$ grep -n '\.$' regular_express.txt

因為小數點具有其他意義(底下會介紹),所以必須要使用跳脫字元 (\) 來加以解除其特殊意義!那麼如果我想要找出來,哪一行是『空白行』, 也就是說,該行並沒有輸入任何資料 :
# grep -n '^$' regular_express.txt


* 例題四、任意一個字元 . 與重複字元 *
在 第十一章 bash 當中,我們知道萬用字元 * 可以用來代表任意(0或多個)字元, 但是正規表示法並不是萬用字元,兩者之間是不相同的! 至於正規表示法當中的『 . 』則代表『絕對有一個任意字元』的意思!這兩個符號在正規表示法的意義如下 :
. (小數點):代表『一定有一個任意字元』的意思;
* (星星號):代表『重複前一個字元, 0 到無窮多次』的意思,為組合形態

假設我需要找出 g??d 的字串,亦即共有四個字元, 起頭是 g 而結束是 d ,我可以這樣做 :


因為 * 代表的是『重複 0 個或多個前面的 RE 字符』的意義, 因此,『o*』代表的是:『擁有空字元或一個 o 以上的字元』, 特別注意,因為允許空字元(就是有沒有字元都可以的意思),因此,『 grep -n 'o*' regular_express.txt 』將會把所有的資料都列印出來螢幕上.

那如果是『oo*』呢?則第一個 o 肯定必須要存在,第二個 o 則是可有可無的多個 o , 所以,凡是含有 o, oo, ooo, oooo 等等,都可以被列出來. 同理,當我們需要『至少兩個 o 以上的字串』時,就需要 ooo* ,亦即是 :


如果我想要字串開頭與結尾都是 g,但是兩個 g 之間僅能存在至少一個 o ,亦即是 gog, goog, gooog.... 等等 :
# grep -n 'goo*g' regular_express.txt

* 例題五、限定連續 RE 字符範圍 {}
我們可以利用 . 與 RE 字符及 * 來設定 0 個到無限多個重複字元, 那如果我想要限制一個範圍區間內的重複字元數呢?舉例來說,我想要找出兩個到五個 o 的連續字串,該如何作?這時候就得要使用到限定範圍的字符 {} 了。 但因為 { 與 } 的符號在 shell 是有特殊意義的,因此, 我們必須要使用跳脫字符 \ 來讓他失去特殊意義才行. 至於 {} 的語法是這樣的,假設我要找到兩個 o 的字串,可以是 :


接著我們要找出 g 後面接 2 到 5 個 o ,然後再接一個 g 的字串 :
$ grep -n 'go\{2\}g' regular_express.txt
18:google is the best tools for search keyword.

那麼,如果我想要的是 2 個 o 以上的 goooo....g 呢?
$ grep -n 'go\{2,\}g' regular_express.txt
18:google is the best tools for search keyword.
19:goooooogle yes!

- 基礎正規表示法字符彙整 (characters)
經過了上面的幾個簡單的範例,我們可以將基礎的正規表示法特殊字符彙整如下 :


- sed 工具
在瞭解了一些正規表示法的基礎應用之後,再來有兩個東西可以玩一玩的,那就是 sed 跟底下會介紹的 awk 了! 這兩個傢伙可是相當的有用的啊. 先來談一談 sed 好了, sed 本身也是一個管線命令,可以分析 standard input 的啦! 而且 sed 還可以將資料進行取代、刪除、新增、擷取特定行等等的功能 :
# sed [-nefr] [動作]
選項與參數:
-n :使用安靜(silent)模式。在一般 sed 的用法中,所有來自 STDIN
的資料一般都會被列出到螢幕上。但如果加上 -n 參數後,則只有經過
sed 特殊處理的那一行(或者動作)才會被列出來。
-e :直接在指令列模式上進行 sed 的動作編輯;
-f :直接將 sed 的動作寫在一個檔案內, -f filename 則可以執行 filename 內的
sed 動作;
-r :sed 的動作支援的是延伸型正規表示法的語法。(預設是基礎正規表示法語法)
-i :直接修改讀取的檔案內容,而不是由螢幕輸出。

動作說明: [n1[,n2]]function
n1, n2 :不見得會存在,一般代表『選擇進行動作的行數』,舉例來說,如果我的動作
是需要在 10 到 20 行之間進行的,則『 10,20[動作行為] 』

function 有底下這些咚咚:
a :新增, a 的後面可以接字串,而這些字串會在新的一行出現(目前的下一行)~
c :取代, c 的後面可以接字串,這些字串可以取代 n1,n2 之間的行!
d :刪除,因為是刪除啊,所以 d 後面通常不接任何咚咚;
i :插入, i 的後面可以接字串,而這些字串會在新的一行出現(目前的上一行);
p :列印,亦即將某個選擇的資料印出。通常 p 會與參數 sed -n 一起運作~
s :取代,可以直接進行取代的工作哩!通常這個 s 的動作可以搭配
正規表示法!例如 1,20s/old/new/g 就是啦!

* 以行為單位的新增/刪除功能
sed 光是用看的是看不懂的啦!所以又要來練習了!先來玩玩刪除與新增的功能.
範例一:將 /etc/passwd 的內容列出並且列印行號,同時,請將第 2~5 行刪除!
# nl /etc/passwd | sed '2,5d'
1 root:x:0:0:root:/root:/bin/bash
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
.....(後面省略).....

sed 的動作為 '2,5d' ,那個 d 就是刪除!因為 2-5 行給他刪除了,所以顯示的資料就沒有 2-5 行囉~ 另外,注意一下,原本應該是要下達 sed -e 才對,沒有 -e 也行啦!同時也要注意的是, sed 後面接的動作,請務必以 '' 兩個單引號括住喔. 如果只要刪除第 2 行,可以使用『 nl /etc/passwd | sed '2d' 』來達成, 至於若是要刪除第 3 到最後一行,則是『 nl /etc/passwd | sed '3,$d' 』的啦,那個錢字號『 $ 』代表最後一行.
範例二:承上題,在第二行後(亦即是加在第三行)加上『drink tea?』字樣!
# nl /etc/passwd | sed '2a drink tea'
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
drink tea
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
.....(後面省略).....

在 a 後面加上的字串就已將出現在第二行後面囉!那如果是要在第二行前呢?『 nl /etc/passwd | sed '2i drink tea' 』就對啦!就是將『 a 』變成『 i 』即可。 增加一行很簡單,那如果是要增將兩行以上呢?
範例三:在第二行後面加入兩行字,例如『Drink tea or .....』與『drink beer?』
# nl /etc/passwd | sed '2a Drink tea or ......\
drink beer ?'
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
Drink tea or ......
drink beer ?

3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
.....(後面省略).....

這個範例的重點是『我們可以新增不只一行喔!可以新增好幾行』但是每一行之間都必須要以反斜線『 \ 』來進行新行的增加喔.

* 以行為單位的取代與顯示功能
剛剛是介紹如何新增與刪除,那麼如果要整行取代呢?看看底下的範例吧 :
範例四:我想將第2-5行的內容取代成為『No 2-5 number』呢?
# nl /etc/passwd | sed '2,5c No 2-5 number'
1 root:x:0:0:root:/root:/bin/bash
No 2-5 number
6 sync:x:5:0:sync:/sbin:/bin/sync
.....(後面省略).....

透過這個方法我們就能夠將資料整行取代了!非常容易吧!sed 還有更好用的東東!我們以前想要列出第 11~20 行, 得要透過『head -n 20 | tail -n 10』之類的方法來處理,很麻煩啦~ sed 則可以簡單的直接取出你想要的那幾行!是透過行號來捉的喔!看看底下的範例先 :
範例五:僅列出 /etc/passwd 檔案內的第 5-7 行
# nl /etc/passwd | sed -n '5,7p'
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown

* 部分資料的搜尋並取代的功能
除了整行的處理模式之外, sed 還可以用行為單位進行部分資料的搜尋並取代的功能喔! 基本上 sed 的搜尋與取代的與 vi 相當的類似!他有點像這樣 :
sed 's/要被取代的字串/新的字串/g'

上表中特殊字體的部分為關鍵字,請記下來!至於三個斜線分成兩欄就是新舊字串的替換啦! 接著使用底下這個取得 IP 數據的範例,一段一段的來處理,讓你瞭解一下什麼是咱們所謂的搜尋並取代 :
步驟一:先觀察原始訊息,利用 /sbin/ifconfig 查詢 IP 為何?
# ifconfig eth0
eth0 Link encap:Ethernet HWaddr 00:90:CC:A6:34:84
inet addr:192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
inet6 addr: fe80::290:ccff:fea6:3484/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
.....(以下省略).....
# 因為我們還沒有講到 IP ,這裡你先有個概念即可啊!我們的重點在第二行,
# 也就是 192.168.1.100 那一行而已!先利用關鍵字捉出那一行!


步驟二:利用關鍵字配合 grep 擷取出關鍵的一行資料
# ifconfig eth0 | grep 'inet addr'
inet addr:192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
# 當場僅剩下一行!接下來,我們要將開始到 addr: 通通刪除,就是像底下這樣:
# inet addr:192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
# 上面的刪除關鍵在於『 ^.*inet addr: 』啦!正規表示法出現! ^_^


步驟三:將 IP 前面的部分予以刪除
# ifconfig eth0 | grep 'inet addr' | \
sed 's/^.*addr://g'
192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
# 仔細與上個步驟比較一下,前面的部分不見了!接下來則是刪除後續的部分,亦即:
# 192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
# 此時所需的正規表示法為:『 Bcast.*$ 』就是啦!


步驟四:將 IP 後面的部分予以刪除
# ifconfig eth0 | grep 'inet addr' | \
sed 's/^.*addr://g' | sed 's/Bcast.*$//g'
192.168.1.100

再來繼續研究 sed 與正規表示法的配合練習!假設我只要 MAN 存在的那幾行資料, 但是含有 # 在內的註解與空白行不要!此時該如何處理呢?可以透過這幾個步驟來實作看看 :
步驟一:先使用 grep 將關鍵字 MAN 所在行取出來
# cat /etc/man.config | grep 'MAN'
# when MANPATH contains an empty substring), to find out where the cat
# MANBIN pathname
# MANPATH manpath_element [corresponding_catdir]
# MANPATH_MAP path_element manpath_element
# MANBIN /usr/local/bin/man
# Every automatically generated MANPATH includes these fields
MANPATH /usr/man
....(後面省略)....

步驟二:刪除掉註解之後的資料!
# cat /etc/man.config | grep 'MAN'| sed 's/#.*$//g'

MANPATH /usr/man
....(後面省略)....
# 從上面可以看出來,原本註解的資料都變成空白行啦!所以,接下來要刪除掉空白行

# cat /etc/man.config | grep 'MAN'| sed 's/#.*$//g' | \
sed '/^$/d'
MANPATH /usr/man
MANPATH /usr/share/man
MANPATH /usr/local/man
....(後面省略)....

* 直接修改檔案內容 (危險動作)
sed 可以直接修改檔案的內容呢!而不必使用管線命令或資料流重導向. 不過由於這個動作會直接修改到原始的檔案,所以請你千萬不要隨便拿系統設定檔來測試喔. 底下為幾個說明範例 :
範例六:利用 sed 將 regular_express.txt 內每一行結尾若為 . 則換成 !
# sed -i 's/\.$/\!/g' regular_express.txt
# 上頭的 -i 選項可以讓你的 sed 直接去修改後面接的檔案內容而不是由螢幕輸出喔!
# 這個範例是用在取代!請您自行 cat 該檔案去查閱結果囉!


範例七:利用 sed 直接在 regular_express.txt 最後一行加入『# This is a test』
# sed -i '$a # This is a test' regular_express.txt
# 由於 $ 代表的是最後一行,而 a 的動作是新增,因此該檔案最後新增囉!
This message was edited 37 times. Last update was at 11/12/2011 15:21:38

沒有留言:

張貼留言

網誌存檔

關於我自己

我的相片
Where there is a will, there is a way!