跳到主要內容

Linux操作不求人 - 伍章之肆 - 正規表示式(Regular Expression, RE)

     很多直譯式的程式語言皆有支援正規表示式(R.E.,  Regex)(https://en.wikipedia.org/wiki/Regular_expression),如Perl,PHP,Shell Scripting 而 Linux 下的shell 操作環境更是可以利用 sed,grep 加上正規表示式來置換或是找尋想要的資料,表示的範圍可用 / Regrex  / 或 "Regex " 或 ' Regex ' 來給定。正規表示式大概遵從以下幾種規範:
1.  ^ 符號代表比對字串之起頭位置,而 $ 符號代表比對字串結束位置,假設有檔案內容如
圖5-4-1,我們利用指令 grep -n  來搜尋並印出有吻合字串的行數。每一行為算一組字串。



(圖5-4-1)
如圖5-4-1 可知道有6 (行) 組字串,第一個比對 ' se'(空格加上se),找到第一組。接著找起頭含M的,就找到第三組字串。接著找含 t 結尾之字串,便找到了第一,二,四組。最後找由數字結尾的字串,便出現第六組。以上皆為比對有列出的單一字串。

2. 若要比對可能有重複的字串,就需使用重複次數符號,如 * 與 ?,+為重複一次以上,或列舉次數{n}與{n,m},其中n為最少重複次數,m為最多重複次數,如圖5-4-2,此時要用 egrep 指令來操作才能看出,man egrep可查閱 egrep 操作。























(圖5-4-2)

圖5-4-2找出RegEx.txt 內容包含字串 s 的任意重複字數,s?代表s無重複或重複一次該字元的字串為吻合。接著指定找 s 最多出現兩次的字串 s{2},僅找到第三組與第五組,有僅包含 ss。 再來找數字978的任意重複數字,與最少重複一次的結果,才有出現第六組的字串,但當最少重複設定兩次,卻是無吻合,所以亦可將條件設定[0-9]+,表示任意數字的集合重複最多三次。 * 與 ? 等特殊字元,若是為欲搜尋之標的物,請用符號 \ 來保留,如 \*。

3. 除此之外,亦可用 [ ] 內來列舉欲比對的字元,如 [ x | y | z ] 或 [0-9 | a-z | A-Z ]。如圖5-4-3
利用條件 [^0-9]* 來找出不含數字的字串(紅色),或是僅含數字的字串(紅色)。




















(圖5-4-3)

4. 其他特殊字元比對,如
.  符號 "." 為比對除了 \n 外(new line,換行字元) 的所有字元,MS Windows 下可能為 \r\n。
以下 Escape Character不適用 egrep
\s\S ,前者為小寫s 比對空白字元,後者大寫S代表反向的比對非空白字元
\w\W ,前者為小寫w 比對 word,包含 [a-z|A-Z|0-9],後者大寫 W 為反向比對非 word。
\x 比對 16進位碼(hex code)代表之符號
\u 比對 unicode 8 bytes代表之的字元符號


5. 可廣泛應用於搜尋與表單欄位查驗,如 http://formvalidation.io/validators/regexp/,html: https://www.w3schools.com/tags/att_input_pattern.asp,
各種欄位應用
https://www.labnol.org/internet/regular-expressions-forms/28380/
http://www.tutorialspark.com/javascript/JavaScript_Regular_Expression_Form_Validation.php
http://form.guide/snippets/javascript-form-validation-using-regular-expression.html


除這些基本表示方式外,隨各種不同程式語言亦有不同的表示式定義
以下參考資料可以看到正規表示式以圖形方式來看出其邏輯定義:
https://jex.im/regulex
https://regexper.com

最後再分享一個實作的教學網站 https://regexone.com/

從以下參考資料可獲得更多其他程式語言的 Regular Expression 應用:
C: https://www.gnu.org/software/libc/manual/html_node/Regular-Expressions.html
Fortran: http://fortranwiki.org/fortran/show/regex_module
Ruby: https://ruby-doc.org/core-2.1.1/Regexp.html
Perl: https://perldoc.perl.org/perlre.html
PHP: http://php.net/manual/en/function.preg-match.php
ASP.net: https://msdn.microsoft.com/en-us/library/ff650303.aspx
Go: https://golang.org/pkg/regexp/
Python3 : https://docs.python.org/3/library/re.html
Python2 : https://docs.python.org/2/library/re.html
JAVA: https://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html

老話一句,參考各家手冊的規範,多練習撰寫解決問題,漸漸就能熟悉 Regular Expression 的應用法則。所以不斷的嘗試錯誤並排除他,就是進步的不二法門。錯了九十九次可能皆無法成功,但您卻已知道九十九種會失敗的方式了。

這個網誌中的熱門文章

Linux 操作不求人系列 - 貳章之貳 - Shell Script 程式設計(II) - BASH 與 TCSH / CSH

     在上章,我們介紹很多bash shell指令的應用方式,並讓它們變成 script,在這章此節,我們要承襲上節,繼續討論 bash shell script 的其它程式設計概念,與讓程式可重複使用的方法,就是利用函式(function)。      首先,我們來創作一個判斷是否為閏年的函數,script的名稱就取為 check_year.sh ,請自行將其設為可執行。程式碼如圖2-6,為了解說方便,筆者利用指令 nl check_year.sh 將程式碼包含行數印出(圖2-7),其他除顏色外,都與圖2-6同。以下 export 宣告環境變數,自訂變數無需加宣告保留字。(2021.10.07更正export說明,以下自訂變數宣告請直接去除export開頭) (圖2-6) (圖2-7)        圖2-7第2-6行,與之前的範例相似,皆有防堵參數個數輸入錯誤的判斷。第7-11行為接著判斷輸入的年分,是否為真的正整數,也就是大於零的數字。其中第7行可解釋為,利用正規表示式搜尋 $2 字串值得頭至尾部的字元,皆由 0-9 組成,若有,則為真(True)會進入 if 內的陳述執行, 但我們想要的,應該是僅要字串其中一字元為非正整數,便進入if 內的警告並跳出 。故,筆者在判斷式前多加一個 ! ,代表著當字元完全是正整數時,就不要執行  if  內陳述,而直接往第12行執行,但若其中有一個字元為非正整數,則會進入 if 內印出錯誤訊息並跳出 Script 。在此例使用者輸入非正整數等字串(如:12ab、cde、1a1b),便會出現錯誤訊息"Error Value",並跳出 Script 。而第8行的判斷式,效果跟第7行相同,但只能在BASH 3.0才能支援,故筆者故意保留,讓讀者可以學到另一種表示方式。         第12-28行,為宣告一個函式 leapyr () ,在 BASH Script內若要使用含式,必須在使用之前先建立函式的功能,如函式建立在第12-28行,則若要呼叫使用(Call)函式,則必須在第29行之後才能呼叫,並且可重複呼叫。第13行...

Linux操作不求人- 肆章之壹 - 伺服器架設(I) - SSH(SFTP、SCP)、FTP伺服器與遠端連線

@ ssh, sftp      通常安裝好 CentOS6_x64 作業系統後,sshd, ssh daemon 的服務功能是預設開啟的,如筆者的前面篇章所述,預設的 iptables 防火牆設定,亦是開啟讓 ssh 的連線是可通過的,不僅可以連出,也可以被連入。若要確認是否有安裝 sshd 套件以及在啟動時的 runlevel 2 3 5 是否有被載入,可以使用以下指令搜尋: $   rpm  -qa  |   grep  openssh     #  ssh 與 sshd 連線服務皆由 openssh 應用軟體提供。 或使用以下 $   rpm  -qa  |   grep  ssh         #  比用關鍵字 openssh 搜尋更模糊,故符合的條件更多。      如圖4-1可以查詢到有關於 openssh-client 與 openssh-server 的套件, openssh-server 便是提供連入服務的軟體,openssh-client 為提供可以連出的工具。若無以上套件,則使用 yum install openssh ,則可下載安裝。 (圖4-1) 再接著輸入以下指令查詢到 sshd 這個服務,是否有再開機程序內載入,如圖4-2 $ chkconfig | grep ssh   # 查詢 sshd 是否有於 開機 runlevel 啟動 再利用以下指令,來查詢是否防火牆有允許連線 $ iptables  -L  |  grep ssh   # 出現如圖4-2 允許通過之條件 (圖4-2)      接下來,我們要先來調整 sshd 的設定檔,利用 vim  /etc/sshd/sshd_conf ,如圖4-3-1與4-3-2。因為設定...

Linux 操作不求人系列 - 參章之貳 - 系統管理(II) - 新增網路卡與顯示卡

#新增網路卡  @ Driving Ethernet Network Card     現代人若一刻沒網路使用,可能會有焦慮並開始失去人生方向的感覺,故筆者先來說明如何讓CenOS6_x64可以使用網路。開始之前,我們先假設網路為固定式網路,非家用利用PPPoE(https://en.wikipedia.org/wiki/Point-to-point_protocol_over_Ethernet)的ADSL撥接方式,故只要我們 確認網路卡驅動正常 、 設定網路上網參數(如DHCP(https://en.wikipedia.org/wiki/Dynamic_Host_Configuration_Protocol),或是須設定 IP、Netmask、Gateway、DNS ) ,皆符合網路提供者的規定,通常這樣就可以連上網際網路,且網卡為 Intel系列(GT、MT、PT、iXXX等...)的網卡,在驅動程式更是省事,在CentOS6_x64下,通常皆可直接使用驅動成功,但系統預設是不啟動網路。在配合 GNOME 搭配的 NetworkManager 軟體,直接點選Gnome桌面右上 NetworkManager 圖示內的 Connect ( 因筆者的網路已經連線了,故僅顯示Disconnect )即可上網(圖3-14上),若要使用命令列,啟動第一塊網卡路之網路功能,可以輸入指令 ifup eth0 ,若要暫停網路功能,請輸入指令 ifdown eth0 ,其中 eth 為乙太網路硬體代號, 0 為安裝的網路卡硬體裝置順序,如多張網卡,為 eth0、eth1、eth2...  之排序,若想知道網卡對應的排序,可利用指令 dmesg | grep 'eth' ,如圖3-14下,因筆者只有一張虛擬出來的網路卡,故僅為 eth0 。 (圖3-14)       因筆者在 VirtualBox 虛擬裝置執行,故其網路卡裝置已經被虛擬成 Intel PRO MT(圖3-15),所以直接利用DHCP方式即上網,但筆者接著還是要介紹無法順利驅動的網路卡,要如何來驅動,如常見在 PC 主機板上的,RealTek RTL8111B 乙太網路...