前言 :
字串搜尋演算法即是在一份文件中尋找一段字串。由於文件的內容可能相當龐大或者複雜,因此有效率的字串搜尋演算法經常扮演著重要的角色.
暴力法 :
我們可以定義一個索引i(或指標)用來指向文件中開始比對的起點字元。當比對過程中遇到某個字元不符合時,就移動此索引到下一個字元,並重新比對。這個類似地毯式搜尋的方法稱為暴力搜尋法. 考慮下面範例, 在 i=0 時,只有前三個字元是相符的,所以該次比對結果為失敗。下一次比對就從T[1](i=1)開始。以此類推,當i=13時,我們找到了與P相符的字串{a, b, c, d, a, d}。總共經過34次比對 :
- 複雜度分析
假設字串P的長度為M,文件長度為N。欲找到相符字串其在最壞情形下,可能需要啟動(N-M+1)次搜尋。如果考慮字串P的長度,那麼最多共需要M(N-M+1)次字元比對,才
能確認字串搜尋的結果。一般而言,M會比N小很多,所以暴力字串搜尋法大概需要經過 MN 次字元比對!
隨著字串處理的需求日益增加,暴力搜尋法在實際應用上的表現O(MN) ,顯得差強人意。於是有些更快速的字串搜尋演算法利用字串的前置處理,減少字串比對的次數. 通常這些演算法在實際應用上,可以達到 O(M+N) 的運算複雜度.
Knuth-Morris-Pratt 演算法 : (wiki)
KMP演算法的原理在當字元比對不符時, 我們可以從比對字串 P 中得知某些字元可以略過不需檢查. 如此就不必從文件T的下一個字元重新開始比對 :
- 演算法說明
KMP 演算法的關鍵在於建構一個部分相符表格,好用來計算比對字串位移的大小. 由於我們是在比對失敗時,才參 考這個表格,所以此表格又被稱為失誤函數. 該函數定義一表格next[M],當比對失敗發生在 P[j] 時,可以拿 P[next[j]] 作為下一個重新比對的起點. 以P={a,b, c, d, a, d}為例,next表格的內容為{-1, 0, 0, 0, 0, 1}.
在建構失誤函數時, 當字元比對失敗在P[j],而且 P[j-k]…P[j-1] 正好等於 P[0]…P[k-1] 時,我們可以得到 next[j]=k, 這樣的過程請參考下面說明 :
而對應的代碼我們使用函數 buildKMP() 來建立失誤表格 (next[]), 代碼如下 :
有了失誤表格, 接著我們就可以繼續 KMP 搜尋演算法的說明, 接著我們使用一個 類別 KMPSearchAlg 並將目的字串傳入建構子, 接著便可以呼叫函示 search() 並傳入搜尋的 Pattern 字串 (P[]) 找尋目的字串是否含 Pattern 字串, 如果有則傳回 Pattern 字串在目的字串中出現的第一個位置, 否則傳回 -1. 完整代碼如下 :
執行結果如下 :
- 演算法分析
建構next表格的複雜度為O(M),所以 KMP 演算法的整體效率為 O(M+N)!
在實際應用上,KMP演算法可能不會比暴力法快多少。原因在於很少有文件具備重複的內容,而且字串P的內容也很少有重疊的樣式。KMP法在搜尋存放在硬碟的大型文件時,還是有顯著的好處。因為索引i不會遞減的特性,就可以減少在搜尋字串時,存取硬碟的次數.
This is a blog to track what I had learned and share knowledge with all who can take advantage of them
標籤
- [ 英文學習 ]
- [ 計算機概論 ]
- [ 深入雲計算 ]
- [ 雜七雜八 ]
- [ Algorithm in Java ]
- [ Data Structures with Java ]
- [ IR Class ]
- [ Java 文章收集 ]
- [ Java 代碼範本 ]
- [ Java 套件 ]
- [ JVM 應用 ]
- [ LFD Note ]
- [ MangoDB ]
- [ Math CC ]
- [ MongoDB ]
- [ MySQL 小學堂 ]
- [ Python 考題 ]
- [ Python 常見問題 ]
- [ Python 範例代碼 ]
- [心得扎記]
- [網路教學]
- [C 常見考題]
- [C 範例代碼]
- [C/C++ 範例代碼]
- [Intro Alg]
- [Java 代碼範本]
- [Java 套件]
- [Linux 小技巧]
- [Linux 小學堂]
- [Linux 命令]
- [ML In Action]
- [ML]
- [MLP]
- [Postgres]
- [Python 學習筆記]
- [Quick Python]
- [Software Engineering]
- [The python tutorial]
- 工具收集
- 設計模式
- 資料結構
- ActiveMQ In Action
- AI
- Algorithm
- Android
- Ansible
- AWS
- Big Data 研究
- C/C++
- C++
- CCDH
- CI/CD
- Coursera
- Database
- DB
- Design Pattern
- Device Driver Programming
- Docker
- Docker 工具
- Docker Practice
- Eclipse
- English Writing
- ExtJS 3.x
- FP
- Fraud Prevention
- FreeBSD
- GCC
- Git
- Git Pro
- GNU
- Golang
- Gradle
- Groovy
- Hadoop
- Hadoop. Hadoop Ecosystem
- Java
- Java Framework
- Java UI
- JavaIDE
- JavaScript
- Jenkins
- JFreeChart
- Kaggle
- Kali/Metasploit
- Keras
- KVM
- Learn Spark
- LeetCode
- Linux
- Lucene
- Math
- ML
- ML Udemy
- Mockito
- MPI
- Nachos
- Network
- NLP
- node js
- OO
- OpenCL
- OpenMP
- OSC
- OSGi
- Pandas
- Perl
- PostgreSQL
- Py DS
- Python
- Python 自製工具
- Python Std Library
- Python tools
- QEMU
- R
- Real Python
- RIA
- RTC
- Ruby
- Ruby Packages
- Scala
- ScalaIA
- SQLAlchemy
- TensorFlow
- Tools
- UML
- Unix
- Verilog
- Vmware
- Windows 技巧
- wxPython
訂閱:
張貼留言 (Atom)
[Git 常見問題] error: The following untracked working tree files would be overwritten by merge
Source From Here 方案1: // x -----删除忽略文件已经对 git 来说不识别的文件 // d -----删除未被添加到 git 的路径中的文件 // f -----强制运行 # git clean -d -fx 方案2: 今天在服务器上 gi...
-
前言 : 為什麼程序管理這麼重要呢?這是因為: * 首先,本章一開始就談到的,我們在操作系統時的各項工作其實都是經過某個 PID 來達成的 (包括你的 bash 環境), 因此,能不能進行某項工作,就與該程序的權限有關了。 * 再來,如果您的 Linux 系統是個...
-
屬性 : 系統相關 - 檔案與目錄 語法 : du [參數] [檔案] 參數 | 功能 -a | 顯示目錄中個別檔案的大小 -b | 以bytes為單位顯示 -c | 顯示個別檔案大小與總和 -D | 顯示符號鏈結的來源檔大小 -h | Hum...
-
來源自 這裡 說明 : split 是 Perl 中非常有用的函式之一,它可以將一個字串分割並將之置於陣列中。若無特別的指定,該函式亦使用 RE 與 $_ 變數 語法 : * split /PATTERN/,EXPR,LIMIT * split /...
沒有留言:
張貼留言