跳到主要內容

Linux操作不求人 - 伍章之肆 - 正規表示式(Regular Expression, RE)

     很多直譯式的程式語言皆有支援正規表示式(R.E.,  Regex)(https://en.wikipedia.org/wiki/Regular_expression),如Perl,PHP,Shell Scripting 而 Linux 下的shell 操作環境更是可以利用 sed,grep 加上正規表示式來置換或是找尋想要的資料,表示的範圍可用 / Regrex  / 或 "Regex " 或 ' Regex ' 來給定。正規表示式大概遵從以下幾種規範:
1.  ^ 符號代表比對字串之起頭位置,而 $ 符號代表比對字串結束位置,假設有檔案內容如
圖5-4-1,我們利用指令 grep -n  來搜尋並印出有吻合字串的行數。每一行為算一組字串。



(圖5-4-1)
如圖5-4-1 可知道有6 (行) 組字串,第一個比對 ' se'(空格加上se),找到第一組。接著找起頭含M的,就找到第三組字串。接著找含 t 結尾之字串,便找到了第一,二,四組。最後找由數字結尾的字串,便出現第六組。以上皆為比對有列出的單一字串。

2. 若要比對可能有重複的字串,就需使用重複次數符號,如 * 與 ?,+為重複一次以上,或列舉次數{n}與{n,m},其中n為最少重複次數,m為最多重複次數,如圖5-4-2,此時要用 egrep 指令來操作才能看出,man egrep可查閱 egrep 操作。























(圖5-4-2)

圖5-4-2找出RegEx.txt 內容包含字串 s 的任意重複字數,s?代表s無重複或重複一次該字元的字串為吻合。接著指定找 s 最多出現兩次的字串 s{2},僅找到第三組與第五組,有僅包含 ss。 再來找數字978的任意重複數字,與最少重複一次的結果,才有出現第六組的字串,但當最少重複設定兩次,卻是無吻合,所以亦可將條件設定[0-9]+,表示任意數字的集合重複最多三次。 * 與 ? 等特殊字元,若是為欲搜尋之標的物,請用符號 \ 來保留,如 \*。

3. 除此之外,亦可用 [ ] 內來列舉欲比對的字元,如 [ x | y | z ] 或 [0-9 | a-z | A-Z ]。如圖5-4-3
利用條件 [^0-9]* 來找出不含數字的字串(紅色),或是僅含數字的字串(紅色)。




















(圖5-4-3)

4. 其他特殊字元比對,如
.  符號 "." 為比對除了 \n 外(new line,換行字元) 的所有字元,MS Windows 下可能為 \r\n。
以下 Escape Character不適用 egrep
\s\S ,前者為小寫s 比對空白字元,後者大寫S代表反向的比對非空白字元
\w\W ,前者為小寫w 比對 word,包含 [a-z|A-Z|0-9],後者大寫 W 為反向比對非 word。
\x 比對 16進位碼(hex code)代表之符號
\u 比對 unicode 8 bytes代表之的字元符號


5. 可廣泛應用於搜尋與表單欄位查驗,如 http://formvalidation.io/validators/regexp/,html: https://www.w3schools.com/tags/att_input_pattern.asp,
各種欄位應用
https://www.labnol.org/internet/regular-expressions-forms/28380/
http://www.tutorialspark.com/javascript/JavaScript_Regular_Expression_Form_Validation.php
http://form.guide/snippets/javascript-form-validation-using-regular-expression.html


除這些基本表示方式外,隨各種不同程式語言亦有不同的表示式定義
以下參考資料可以看到正規表示式以圖形方式來看出其邏輯定義:
https://jex.im/regulex
https://regexper.com

最後再分享一個實作的教學網站 https://regexone.com/

從以下參考資料可獲得更多其他程式語言的 Regular Expression 應用:
C: https://www.gnu.org/software/libc/manual/html_node/Regular-Expressions.html
Fortran: http://fortranwiki.org/fortran/show/regex_module
Ruby: https://ruby-doc.org/core-2.1.1/Regexp.html
Perl: https://perldoc.perl.org/perlre.html
PHP: http://php.net/manual/en/function.preg-match.php
ASP.net: https://msdn.microsoft.com/en-us/library/ff650303.aspx
Go: https://golang.org/pkg/regexp/
Python3 : https://docs.python.org/3/library/re.html
Python2 : https://docs.python.org/2/library/re.html
JAVA: https://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html

老話一句,參考各家手冊的規範,多練習撰寫解決問題,漸漸就能熟悉 Regular Expression 的應用法則。所以不斷的嘗試錯誤並排除他,就是進步的不二法門。錯了九十九次可能皆無法成功,但您卻已知道九十九種會失敗的方式了。

這個網誌中的熱門文章

Linux操作不求人- 肆章之壹 - 伺服器架設(I) - SSH(SFTP、SCP)、FTP伺服器與遠端連線

@ ssh, sftp      通常安裝好 CentOS6_x64 作業系統後,sshd, ssh daemon 的服務功能是預設開啟的,如筆者的前面篇章所述,預設的 iptables 防火牆設定,亦是開啟讓 ssh 的連線是可通過的,不僅可以連出,也可以被連入。若要確認是否有安裝 sshd 套件以及在啟動時的 runlevel 2 3 5 是否有被載入,可以使用以下指令搜尋: $   rpm  -qa  |   grep  openssh     #  ssh 與 sshd 連線服務皆由 openssh 應用軟體提供。 或使用以下 $   rpm  -qa  |   grep  ssh         #  比用關鍵字 openssh 搜尋更模糊,故符合的條件更多。      如圖4-1可以查詢到有關於 openssh-client 與 openssh-server 的套件, openssh-server 便是提供連入服務的軟體,openssh-client 為提供可以連出的工具。若無以上套件,則使用 yum install openssh ,則可下載安裝。 (圖4-1) 再接著輸入以下指令查詢到 sshd 這個服務,是否有再開機程序內載入,如圖4-2 $ chkconfig | grep ssh   # 查詢 sshd 是否有於 開機 runlevel 啟動 再利用以下指令,來查詢是否防火牆有允許連線 $ iptables  -L  |  grep ssh   # 出現如圖4-2 允許通過之條件 (圖4-2)      接下來,我們要先來調整 sshd 的設定檔,利用 vim  /etc/sshd/sshd_conf ,如圖4-3-1與4-3-2。因為設定檔參數很多,筆者為方便說明,將 /etc/sshd/sshd_conf 檔案內容分成兩張圖。 (圖4-3-1)

Linux 操作不求人系列 - 貳章之壹 - Shell Script 程式設計(I) - BASH

     本章開始進入Shell Scripts的程式設計,因為Linux Shell的種類相當多,故筆者僅挑選預設的Bash Shell 及 學術界常會使用的 C Shell (/bin/tcsh )來說明與對照,在此先說明。至於 Scripts 的概念,在前章就已經說明過,可視為前壹章的各項指令之組合,在令其在執行檔案裡,依序執行,如前章所看到的 /etc/profile 檔案,在其他軟體上,有點類似巨集(macro)的執行檔,或是MS Windows的批次檔(Batch)。先建立此概念後,我們可以先在Terminal的命令提示字元,使用 for 指令,如圖2-1,在 shell scripts 內為了重複做一件事,而僅修改某些變數值,我們會利用所謂的迴圈(loop)方式來完成,而 bash shell 內常用的是 for 或是 tcsh/csh shell 內的 foreach 。 (圖2-1)      圖 2-1第一個指令輸入 for 的宣告,後面接著 seq 為變數名稱,為了逐次接收  in 後面之陣列值(http://www.gnu.org/software/bash/manual/html_node/Arrays.html)(註:若加了  ; 則 do 便可寫在同一行),接著 > 的提示字元的等待輸入,便是還沒遇到 done 指令來結束 do 的動作,控制此提示字元的環境變數為 PS2 。,此例的 seq 值,依序為第一次讀入 first 字串並存入變數 seq 當其值,接著second、third,從 echo $seq 可以看出,接著設定一個變數 file 其值為 my開頭字串,緊接變數值 $seq(first、second、third),再接固定的 script.sh 字串,接著利用echo指令,印出變數值$file,檢查是不是我們預期的字串值(註:如果想要暫停,讓使用者可以看清楚再繼續,可以加上指令sleep 3,表示畫面停止三秒鐘),接著利用 touch 指令產生 $file 字串值的檔案,再將其利用 chmod 指令, u+x 參數為令僅創立此檔的使用者帳號可執行(若要改為同群組可執行,參數需改為 g+x )。故可看到第二個指令輸入 ls ,便列出自動批次

Linux操作不求人 - 伍章之陸 - Intel PXE 與利用 tftp + anaconda kickstart來自動部署系統

     現代的個人電腦與筆電爲了節能省碳,往往皆省略了光碟機的設置。雖然說 USB隨身碟亦可應用於安裝作業系統,但若遇到機房的大量機器需安裝之問題,亦不適合此種用光碟片或隨身碟逐臺安裝的方式,或是需準備多片光碟或隨身碟。故爲了大量安裝與部屬 Linux作業系統的機器,我們便可透過具有PXE功能之網路卡(https://en.wikipedia.org/wiki/Preboot_Execution_Environment),其所具備的網路開機的能力,來作透過網路方式來安裝與大量部署 CentOS Linux作業系統。其原理 wikipedia  的PXE說明,都解釋得很清楚,筆者不需要再 " 掉書包 ",在開發者大神面前班門弄斧,我們就直接來做做看。      首先,我們一樣透過 yum來安裝所需的 tftp伺服器軟體(http://www.jounin.net/tftpd32.html),利用PXE支援 tftp 透過 udp 埠號 69連線,來提供檔案的能力,給利用 PXE開機後安裝作業系統的機器,圖5-60   (圖5-60) 接著修改 tftp 設定檔 /etc/xinetd.d/tftp,如圖5-61,請記得 disable  要改為 no (圖5-61)      若要修改 server_args 參數為自訂的 tftp root 路徑,記得要變更 SELinux 的權限設定,如要改為/tftpboot,則使用指令 chcon  來調整,如以下: $ mkdir /tftpboot $ chcon  --reference /var/lib/tftpboot  /tftpboot 接著將 xinetd 與 tftp 加入開機啟動,並重啟動 xinetd,如下: $ chkconfig  --level  235  xinetd on $ chkconfig  --level  235  tftp  on $ service xinetd restart 開放防火牆通行 $ iptables -A INPUT -p udp --dport 69 -j ACCEPT $ service iptables re