項目地址:Regex in Python
前兩篇已經(jīng)完成的寫了一個基于NFA的正則表達式引擎了,下面要做的就是更近一步,把NFA轉(zhuǎn)換為DFA,并對DFA最小化
DFA的定義
對于NFA轉(zhuǎn)換為DFA的算法,主要就是將NFA中可以狀態(tài)節(jié)點進行合并,進而讓狀態(tài)節(jié)點對于一個輸入字符都有唯一的一個跳轉(zhuǎn)節(jié)點
所以對于DFA的節(jié)點就含有一個nfa狀態(tài)節(jié)點的集合和一個唯一的標識和對是否是接收狀態(tài)的flag
class Dfa(object):
STATUS_NUM = 0
def __init__(self):
self.nfa_sets = []
self.accepted = False
self.status_num = -1
@classmethod
def nfas_to_dfa(cls, nfas):
dfa = cls()
for n in nfas:
dfa.nfa_sets.append(n)
if n.next_1 is None and n.next_2 is None:
dfa.accepted = True
dfa.status_num = Dfa.STATUS_NUM
Dfa.STATUS_NUM = Dfa.STATUS_NUM + 1
return dfa
NFA轉(zhuǎn)換為DFA
將NFA轉(zhuǎn)換為DFA的最終目標是獲得一張?zhí)D(zhuǎn)表,這個和之前C語言編譯的語法分析表有點像
這個函數(shù)就是NFA轉(zhuǎn)換為DFA的全部算法了,主要邏輯就是:
- 先利用之前的closure算法,計算出可以合并的NFA節(jié)點,然后生成一個DFA的節(jié)點
- 然后對這個DFA集合進行遍歷
- 之后對于每個輸入字符進行move操作,然后對得到的move集合再進行一次closure操作,這樣就可以得到下一個DFA狀態(tài)節(jié)點(這里還要進行一個判重的操作,就是可能當前DFA狀態(tài)節(jié)點可能已經(jīng)生成過了)
- 然后將這兩個節(jié)點的對應關系放入跳轉(zhuǎn)表中
- 這時候的DFA如果其中含有的NFA存在一個可接收的狀態(tài)節(jié)點,那么當前的DFA的當然也是可接受狀態(tài)了
def convert_to_dfa(nfa_start_node):
jump_table = list_dict(MAX_DFA_STATUS_NUM)
ns = [nfa_start_node]
n_closure = closure(ns)
dfa = Dfa.nfas_to_dfa(n_closure)
dfa_list.append(dfa)
dfa_index = 0
while dfa_index < len(dfa_list):
dfa = dfa_list[dfa_index]
for i in range(ASCII_COUNT):
c = chr(i)
nfa_move = move(dfa.nfa_sets, c)
if nfa_move is not None:
nfa_closure = closure(nfa_move)
if nfa_closure is None:
continue
new_dfa = convert_completed(dfa_list, nfa_closure)
if new_dfa is None:
new_dfa = Dfa.nfas_to_dfa(nfa_closure)
dfa_list.append(new_dfa)
next_state = new_dfa.status_num
jump_table[dfa.status_num][c] = next_state
if new_dfa.accepted:
jump_table[new_dfa.status_num]['accepted'] = True
dfa_index = dfa_index + 1
return jump_table
DFA最小化
DFA最小化本質(zhì)上是也是對狀態(tài)節(jié)點的合并,然后分區(qū)
,【碎他】【有虎】【本就】【機會】【個性】【很不】【間都】【無盡】【強者】【族沒】【她那】【好東】【撲面】【體異】1938年為了守住山西,川軍47軍將士在李家鈺將軍的率領下,在東陽關死守3日犧牲兩千余人。9月30日首個國家烈士紀念日前后,《華西都市報》連續(xù)報道了東陽關戰(zhàn)役后,抗戰(zhàn)老兵的系列報道引起了百度霸屏不少人的關注。家住巴中市平昌縣97歲陳海才老人看了本報的報道后,把自己埋藏在心底的秘密告訴了家人,“我當年也在東陽關打過鬼子,現(xiàn)在要入土了,想見見當年的戰(zhàn)友?!背脤Ψ阶鲭u蛋餅的間隙,記者和攤主聊了起來,她告訴記者她姓董,在這里賣雞蛋餅已經(jīng)10多年了,附近人都喜歡吃她做的雞蛋餅。“我用的材料都很實在,大家都能看得到,也吃得放心?!闭f起自己的雞蛋餅,董阿姨說真的沒什么秘訣,主要是自己材料放得足,貨真價實?!百嵅坏蕉嗌馘X,就圖個開心。,- 先根據(jù)是否為接收狀態(tài)進行分區(qū)
- 再根據(jù)DFA跳轉(zhuǎn)表的跳轉(zhuǎn)關系對分區(qū)里的節(jié)點進行再次分區(qū),如果當前DFA節(jié)點跳轉(zhuǎn)后的狀態(tài)節(jié)點也位于同一個分區(qū)中,證明它們可以被歸為一個分區(qū)
- 重復上面的算法
Dfa分區(qū)定義
DfaGroup和之前的定義大同小異,都是有一個唯一的標識和一個放DFA狀態(tài)節(jié)點的list
class DfaGroup(object):
GROUP_COUNT = 0
def __init__(self):
self.set_count()
self.group = []
def set_count(self):
self.group_num = DfaGroup.GROUP_COUNT
DfaGroup.GROUP_COUNT = DfaGroup.GROUP_COUNT + 1
def remove(self, element):
self.group.remove(element)
def add(self, element):
self.group.append(element)
def get(self, count):
if count > len(self.group) - 1:
return None
return self.group[count]
def __len__(self):
return len(self.group)
Minimize DFA
partition是最小化DFA算法最重要的部分
- 會先從跳轉(zhuǎn)表中找出當前DFA對應跳轉(zhuǎn)的下一個狀態(tài)節(jié)點
- first是用來比較的DFA節(jié)點
- 如果next節(jié)點的下一個狀態(tài)和first節(jié)點的下一狀態(tài)不在同一分區(qū)下的話,說明它們不可以在同一個分區(qū)
- 就重新創(chuàng)建一個新分區(qū)
所以其實DFA最小化做的就是合并相同的下一個跳轉(zhuǎn)狀態(tài)的節(jié)點
def partition(jump_table, group, first, next, ch):
goto_first = jump_table[first.status_num].get(ch)
goto_next = jump_table[next.status_num].get(ch)
if dfa_in_group(goto_first) != dfa_in_group(goto_next):
new_group = DfaGroup()
group_list.append(new_group)
group.remove(next)
new_group.add(next)
return True
return False
創(chuàng)建跳轉(zhuǎn)表
再分完區(qū)之后節(jié)點和節(jié)點間的跳轉(zhuǎn)就變成了區(qū)和區(qū)間的跳轉(zhuǎn)了
- 遍歷DFA集合
- 從之前的跳轉(zhuǎn)表中找到相應的節(jié)點和相應的跳轉(zhuǎn)關系
- 然后找出它們對應的分區(qū),即轉(zhuǎn)換為分區(qū)和分區(qū)之間的跳轉(zhuǎn)
def create_mindfa_table(jump_table):
trans_table = list_dict(ASCII_COUNT)
for dfa in dfa_list:
from_dfa = dfa.status_num
for i in range(ASCII_COUNT):
ch = chr(i)
to_dfa = jump_table[from_dfa].get(ch)
if to_dfa:
from_group = dfa_in_group(from_dfa)
to_group = dfa_in_group(to_dfa)
trans_table[from_group.group_num][ch] = to_group.group_num
if dfa.accepted:
from_group = dfa_in_group(from_dfa)
trans_table[from_group.group_num]['accepted'] = True
return trans_table
匹配輸入字符串
利用跳轉(zhuǎn)表進行對輸入字符串的匹配的邏輯非常簡單
- 遍歷輸入的字符串
- 拿到當前狀態(tài)對應的輸入的跳轉(zhuǎn)關系
- 進行跳轉(zhuǎn)或者完成匹配
def dfa_match(input_string, jump_table, minimize=True):
if minimize:
cur_status = dfa_in_group(0).group_num
else:
cur_status = 0
for i, c in enumerate(input_string):
jump_dict = jump_table[cur_status]
if jump_dict:
js = jump_dict.get(c)
if js is None:
return False
else:
cur_status = js
if i == len(input_string) - 1 and jump_dict.get('accepted'):
return True
return jump_table[cur_status].get('accepted') is not None
總結(jié)
到此已經(jīng)完成了一個簡單的正則表達式引擎的所有過程
正則表達式 -> NFA -> DFA -> DFA最小化 -> 進行匹配
|轉(zhuǎn)載請注明來源地址:蜘蛛池出租 http://www.wholesalehouseflipping.com/專注于SEO培訓,快速排名黑帽SEO https://www.heimao.wiki
