收藏 分享(赏)

20200705_古典名著_ga12j.pdf

上传人:黄嘉文 文档编号:2410717 上传时间:2020-07-11 格式:PDF 页数:333 大小:2.17MB
下载 相关 举报
20200705_古典名著_ga12j.pdf_第1页
第1页 / 共333页
20200705_古典名著_ga12j.pdf_第2页
第2页 / 共333页
20200705_古典名著_ga12j.pdf_第3页
第3页 / 共333页
亲,该文档总共333页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、小,而保證SOM的訓練結果可以收斂。 舉例而言,在第+1次的訓練中,對某一節點nc調整的方式如式(2)所示。 )(),(,()() 1( cicwc def c ffnndhff+=+ (2) 式子中,fc()是表示第次的訓練後,節點nc的特徵向量,fi是輸入資料的特徵向量,h(.)是一個訓練 次數與節點和獲勝者之間的距離d(nw, nc)有關的調適函數,為節點nc的特徵向量此次訓練的調適幅度,如 上所述,當訓練次數愈多,或者距離d(nw, nc)愈大,h(.)所得到的值愈小。 SOM的訓練過程如下。首先,根據輸入資料的數量與特徵向量的維度設定節點的個數與特徵向量的 維度,並對每一個節點隨機產

2、生一個特徵向量。在輸入資料後,開始進行多次的訓練。在SOM的每一次 訓練中,首先從輸入的資料中隨機選取一個資料,再從節點中選出與訓練資料的特徵向量最相似者,也 就是獲勝者。接著如式(2)所示,根據調適函數h(.)計算出的調適幅度,調整獲勝者與其鄰近節點的特徵向 量,使其愈加相似於訓練的特徵向量。當SOM訓練完成後,便依據術語特徵向量與節點特徵向量的接近 程度,將術語映射到圖形上。 在利用SOM技術對文字資料進行叢集或視覺化的研究中,可以依據處理的對象分為文件與術語兩 類。在以文件為處理對象的SOM研究,大多將輸入的每一筆文件表示成一個以索引詞(index terms)的出現 次數為基礎的特徵向

3、量11, 12,因此,索引詞的出現情形較為接近的文件可以映射到同一節點或鄰近的 節點上。為了使文件的特徵向量可以表示語意訊息,Wermter與Hung利用WordNet的語意階層關係,計數 具有相近概念術語的出現次數作為向量的特徵值,以SOM技術對Reuters新聞語料進行文件分類(text classification)的研究13。Kohonen等人則先對術語進行SOM的叢集,使得具有相關語意的術語,映射到 同一節點上。再以叢集後的節點作為基礎,計數節點對應的所有術語出現在文件資料中的次數總和作為 向量的特徵值,作為資料縮減的技巧來處理極大量的新聞群組(newsgroups)線上文字資料14

4、。此外,在 文件叢集的應用中,由於以索引詞為基礎的特徵向量維度非常高,一般的二維映射圖較難表示文件資料 間所具有複雜的主題關係,因此,Merkl認為需要表現出主題間的階層關係,可以利用階層式自組織映射 圖(hierarchical self-organizing feature maps),訓練一組多層的映射圖,使得位置在上層的映射圖之節點表 示文件資料中較廣泛的主題,而以下層的映射圖之節點表示較特定概念的主題12。 在利用SOM處理術語的研究上,則有Ritter與Kohonen對於英語術語15和Ma等人對漢語及日語術語 16叢集的研究。在術語特徵向量的設定上,Ritter與Kohonen以術

5、語的出現(occurrences)及前後各一個術 語的上下文關係(contexts)作為特徵15;Ma等人則利用術語的共現次數為基礎作為向量的特徵16。 在目前利用SOM技術所進行文字資料叢集或資訊視覺化的研究,其實驗結果可以看出主題相近的文 件或術語可以被映射到相同或鄰近的節點,在視覺呈現上,符合人們的認知,這些研究可以證明SOM技 術應用於文字資訊視覺化的可行性。然而,從這些研究中卻也可以發現大多數研究在說明實驗結果時, 多半以叢集的結果與主題的相關程度進行討論,在客觀的評估方法上也都以傳統資料分類的檢全/檢準 (recall/precision)為標準16,甚少討論所得到的實驗結果在不同

6、主題間的關係。但在資訊視覺化的研究 中,藉由圖形表示文件或術語之間的分布,是相當重要的目標。在進行這方面的研究時,也應該根據這 方面的要求,設計一套合適的評估方法。 3 研究設計研究設計研究設計研究設計 本研究是應用SOM技術的初步研究,因此除了提出術語進行資訊視覺化處理的方法之外,如何評估 其結果也是重要的研究問題。此外,在現階段的研究中,本論文採用一般的SOM技術作為探討的對象, 先以一般常用的型態與訓練模式做為SOM的應用,來了解這項應用的可行性。更為先進與複雜的技術如 階層式自組織映射圖12,可在後續的研究中進行。以下首先說明以SOM進行術語資訊視覺化的方法, 接著提出評估資訊視覺化成

7、效的方法。 3.1 以以以以SOM進行術語資訊視覺化的方法進行術語資訊視覺化的方法進行術語資訊視覺化的方法進行術語資訊視覺化的方法 在利用SOM進行術語資訊視覺化的方法中,首先進行術語抽取(term extraction),從輸入的論文題 名、摘要與參考文獻的題名等文字資料,抽取出計算語言學領域中重要的中英文術語1。判斷一個出現 在文字資料中的字串是否是與這文字資料主題相關的術語可以從字串的單元完整性(unithood)與主 題代表性(termhood)的兩方面著手17,單元完整性是指做為術語的字串是否為語言結構(linguistic structure)上的完整單位,如詞(words)或詞組

8、(phrases),而主題代表性則是指此一術語能否代表文字資料的 主題並與其他主題區別。在本研究中將以統計訊息為主,配合若干經驗法則(heuristic rules)來達到這兩項 要求。首先將論文資料輸入,建立一個PAT-tree資料結構18,接著從PAT-tree檢取所有出現在論文資料 中的字串,並計算字串在所有論文的出現總次數、字串在論文資料中的平均出現頻次和標準差(standard deviation)以及字串前後接字的複雜度等統計資訊。其中,字串前後接字的複雜度(如式(3a, b),加上停用 詞(stop words)不能出現在字串首尾的經驗法則,用來檢測字串的單元完整性。 )log(

9、 1 S aS a S aS def S F F F F C = (3a) )log( 2 S Sb b S Sb def S F F F F C = (3b) 式(3a)和(3b)中,字串S的前後接字複雜度分別以C1S和C2S表示,a和b則代表字串S在論文資料中任一個 可能的前接字和後接字,FS、FaS和FSb分別是字串S、aS和Sb的出現總次數。當字串的前後接字複雜度較 小時,表示此一字串需與其前面或後面的某一字串共同構成新的字串,才能表示語法和語意上的一個單 元。因此,當前後接字複雜度愈大,愈有可能表示一個完整的術語。而所檢出的高頻字串中,字串首尾 經常是介詞、連詞或定詞等停用詞,因此我

10、們過濾掉首尾為停用詞的字串,使得過濾後的術語句有單元 完整性的要求。但停用詞出現在中間的字串,如 “part of speech”,只要出現次數夠多、頻率夠高仍為重 要的術語。在另一方面,字串在所有論文的出現總次數、平均出現頻次和標準差則用來表示術語的主題 代表性,出現總次數愈大的術語表示這個術語在領域中常被使用而具有重要意義,術語的平均出現頻次 和標準差則可表示這個術語在論文中的使用情形,平均出現頻次愈大的術語,即有可能在許多論文中出 現多次,是這些論文的重要術語;而術語的出現頻次標準差較大則表示此術語在某些特定論文出現較多 次,對這些論文相當重要。所以這三項統計訊息可以作為檢驗術語是否符合

11、主題代表性的依據。因此, 本研究即整合上述的訊息做為判斷字串是否為計算語言學領域中重要術語。 接著,對上述步驟所抽取出來的每一個術語設定一個特徵向量來訓練SOM。為了產生合適的SOM, 相關術語所設定的特徵向量必須相接近。如此一來,當把術語映射到SOM時,相關術語將映射到同一節 點上或鄰近的節點中,所形成圖形便具有相關術語的距離將較非相關術語的距離小的特性。本研究以術 語對每一個術語的共現關係的估算值做為這個術語的特徵向量,如式(4)表示術語ti的特徵向量fi。 T Nikiii ooof, ,1 , KK= (4) 在式(4)中,假定術語抽取步驟中共得到N個術語,因此每一個術語的特徵向量都是

12、一個N維的向量。 在術語ti的特徵向量fi中,第k個元素oik是術語ti與另一術語tk共現關係的估算值。當比較術語ti與tj的相關程 度時,可以比較這兩個術語與其他術語tk之間的共現情形。一旦當ti與tk共同出現在某一些論文資料時,同 時tj也經常出現在這些論文資料時,術語ti與tj可能相關於同一個特定的主題,這兩個術語便可能相關。如 果ti與tj有許多共同的共現術語時,ti與tj的特徵向量便很接近而表示兩個術語間具有較大的相關程度。以 數學的方式來表示上述的說明,當我們以歐幾里德距離作為兩個術語特徵向量之間距離的估算方式時, 當兩個特徵向量具有愈多相近的元素,在特徵向量所在的N維空間的距離愈

13、小,表示兩個術語的相關程 度愈大;反之特徵向量之間相異的元素愈多,距離愈大,兩個術語的相關程度便愈小。 在兩個術語ti與tk的共現關係上,也就是上述特徵向量fi中的元素oik之值,可以利用近來資訊檢索常 使用的隱含語義分析(latent semantic analysis, LSA)技術19來進行估算,使得某些相關術語卻較少共 同出現的問題可以減輕。其估算方法如下,我們首先建立術語-文件矩陣(term-document matrix),以 每一個抽取出來的術語對應到矩陣中的一行(row),矩陣中的每一列(column)則對應到一筆論文資料,在 矩陣中第i行第p列的元素,其值為第i個術語在第p筆

14、論文資料中出現的次數。接著對於術語-文件矩陣 進行奇異值分解(singular value decomposition),求得一組維度較小的新術語向量。比方說新向量的維度為 ,新的術語向量組便是所有維度為的向量組中,內積的估算值與原先術語-文件矩陣的內積誤差最 小的向量組之一,術語間共現關係便以這組向量兩兩之間的向量內積值作為估算值。而且對於缺乏共同 出現的術語,此一共現關係的估算方法具有適當的補償效果,使得相關術語的特徵向量較為接近。因此, 本研究所產生的特徵向量可以作為SOM技術的輸入,所得到的結果將比由術語-文件矩陣所估算的共 現關係為佳。 接下來,便對於每一個術語所產生的特徵向量進行S

15、OM訓練。本研究中所採用的調適函數如式(5) 所示, 1),( 2 ),(,( + = cwn nd cw enndh (5) 在式(5)中,是一個預設的參數值,用來控制訓練次數和獲勝者鄰近範圍中進行調適的節點數量。如 同第二節中所提到的,對於某一節點nc,調適函數h(.)所產生的調適幅度與訓練次數和這個節點與獲勝 者nw之間的距離d(nw, nc)有關。在本研究中採用歐幾里得距離做為d(nw, nc)的計算方式。在式(5)中,可以 發現在每次訓練中,愈接近獲勝者的節點(d(nw, nc)值愈小),獲得的調整幅度愈大,愈遠離則幅度愈 小;而獲勝者是調整幅度最大的節點。而且隨著訓練次數增加,調適

16、的節點數量以及調適幅度都愈 來愈小。因此,可以保證在經過多次的訓練之後,所產生的SOM會收斂。 3.2 資訊視覺化成效的評估資訊視覺化成效的評估資訊視覺化成效的評估資訊視覺化成效的評估 利用SOM技術進行資訊視覺化的目的是希望當資料被映射到圖形上時,它們的關係仍然可以盡量保 持原先在高維特徵向量之間的關係,如此一來,可以從SOM產生的圖形認知原先的資料關係。也就是說, 假設任何兩對術語(t1, t2)和(t3, t4),每一個術語的特徵向量分別是f1、f2、f3和f4,如果在特徵向量上的距離 關係是d(f1, f2)d (f3, f4)。在經過術語資訊視覺化的過程後,我們希望當術語映射到節點n

17、1、n2、n3和n4時, 可以發現n1、n2、n3和n4在圖形的位置上,其歐幾里得距離具有d (n1, n2) d (n3, n4)的關係。 所以,在比較應用SOM進行資訊視覺化的成效時,可以先計算出每一對術語在特徵向量的距離,在 將術語映射到圖形後,再以所映射的節點計算術語在圖形上的距離,最後再計算這兩種距離的相關係數 (correlation coefficients),做為資訊視覺化成效的評估標準,相關係數較小,表示SOM的結果較不理想; 相關係數愈大,則表示SOM所產生的圖形保留愈多原先在高維特徵向量上的關係,可以從圖形上認知術 語的叢集以及分離的關係,進而探索研究主題彼此之間的關係。

18、 4 結果與討論結果與討論結果與討論結果與討論 本論文以第一屆(1988)到第十四屆(2001) ROCLING研討會的235篇論文資料做為分析計算語言學主 題的素材,從這些論文的題名、摘要及參考文獻的題名中,抽取重要的術語,並將術語的關係視覺化。 進行術語抽取時,本論文字串出現總次數的閾值設定為20次,平均頻次和標準差的總和設為2.5,前後接 字的複雜度則設為0.5,結果共得到229個術語。 接著將所抽取出來的229個術語,利用LSA技術估算彼此間的共現關係,建立各個術語的特徵向量。 最後以術語的特徵向量進行SOM訓練,在本研究中,我們以2020個節點進行實驗,測試訓練次數以及 第3節式(4

19、)的參數之影響結果。在實驗中,參數分別設定為250、150、 50和25,每一個不同的值, 進行三次試驗,記錄訓練次數0 (初始)、10、50、100與200等各次的相關係數。取三次試驗中第200次訓 練獲得較佳結果的試驗,也就是=200時相關係數最大者,進行比較。實驗的結果所產生的相關係數,如 表1各欄所示。 表1 以自組織映射圖進行術語資訊視覺化的實驗結果 訓練次數 =250 =150 =50 =25 0 0.07 0.06 0.07 0.08 10 0.54 0.52 0.44 0.24 50 0.36 0.52 0.44 0.34 100 0.30 0.49 0.42 0.32 200

20、 0.29 0.50 0.41 0.32 從表1的結果,我們可以看到幾個現象。(1) 初始的時候,映射圖仍未組織化,術語映射到圖上的各個 節點上,其距離與特徵向量的距離無關,因此,相關係數不高,各欄均在0.06至0.08之間,顯示此時除了 少數的相關術語映射到相同的節點上,大多數的術語的相關程度未能映射到圖形中。(2) 經過幾次訓練 之後,映射圖上節點的特徵向量已經依照某種規則排列,此時的實驗結果獲得較大的相關係數,顯示若 干相關的術語已經被映射到鄰近的節點中,比方說,以=150一組的數據為例,在訓練次數超過10次之 後,相關係數約為0.50。(3) 各欄的資料也表示,訓練次數相當大時,本研究

21、提出的SOM技術可以收斂。 (4) 如第3節中所提到參數可以控制調適的節點數量,值愈大,調適的節點數量愈多。從實驗中,我們 發現值過大,在訓練的過程中較不穩定;但較小的值,卻很容易收斂到較為次佳的結果。在本研究的 實驗中,以值為150所得到的結果,較令人滿意。(5) 然而必須加以說明的是在SOM的訓練模式中,是 以輸入的特徵向量對映射圖進行組織化,並不是對資訊視覺化的評估條件進行最佳化。因此,相關係數 並不會呈現單調遞減的情形。而且,相關係數雖然可以提供客觀的評估標準,然而所得到的結果還需要 進一步呈現來加以詮釋,才能看出SOM技術運用在術語資訊視覺化的成效。 因此,除了以相關係數來衡量資訊視

22、覺化的成效之外,最為重要的仍是經實際產生的映射圖所表達 的訊息,我們將上面實驗中所得到較佳的結果之一,值為150、訓練次數50次所得到的映射圖,呈現在 圖1中。從圖1中,我們可以發現大多數相關的術語都被映射到同一節點或是鄰近的節點上,比方說。在 映射圖下方,所包括的術語大多與語言學研究相關,如最左邊的 “syntax”、“functional”、“syntactic” 、 “semantic” 、“lexical” 、“semantics” 、“lexicon” 以及“verb”。以及較右邊的“剖析”、“名詞”、“結構” 、 “語法” 、“動詞” 、“詞類” 、“語意” 以及“詞彙”。又如在橫

23、軸的16,縱軸10到12的地方可以發現這裡的 術語都與語言模型的研究相關, 如“bigram”、“language model”、“language modeling” 、“language models” 、 “clustering” 、“class based”以及“n gram”。因此,在映射圖上可以發現主題相關的術語會形成叢集,我們 可以依據圖1的相關術語分布情形,將幾個較大主題叢集表示成圖2。 除了相關的術語會映射在相近的節點上,從圖1與圖2也可以顯示在映射圖上距離很接近的主題具有 相關性,比方說, 機器翻譯(machine translation)相當接近於 剖析器與文法規則(pa

24、rser and grammars) 與語法與語意(syntax and semantics)的研究,表示語法、語意、文法規則以及剖析器經常應用在機器 翻譯的研究 。 語音處理 中各個主題 , 包括 語音合成(speech synthesis)、 語音辨認(speech recognition)、 語言模型(language models)等主題,彼此間也很接近。另外,映射圖上方的 斷詞(word segmentation)、 未知詞偵測(unknown word detection)與詞類標示(part-of-speech tagging)等相鄰近的情形,可以推 測這些主題之間有相關性。圖形

25、上資訊檢索(information retrieval)相關的主題,除了斷詞以及語 言模型之外,還有摘要(summarization)。整體的圖形看來,偏左偏下的部份與語言學研究相關,而 右上則是各種的技術應用與系統製作的研究,如資訊檢索和語音處理等各種主題便在圖形的右 方。 然而,由於術語的數目相當龐大,特徵向量的維度也相當高,事實上,也有若干的術語映射結果並 不理想,比方說,的“pat”與“tree”等術語所表示的PAT-tree是資訊檢索中重要而常用的技術18,但在這 個映射圖上並沒有和位於橫軸19,縱軸17處的資訊檢索主題相鄰。此外,整個圖形中最明顯的現象 是中英文同義或相關的術語雖然

26、在圖形上它們的位置已經相當接近,但仍然可以認為是分離。比方說, 圖1中分布在圖形橫軸12到18,縱軸8到10處的三個同義的術語,“語音辨認”、“語音辨識”和“speech recognition”。這個現象表示即便我們利用參考文獻的題名做為輸入資料以及LSA來進行補償,但中英文 的資料仍然有區別,在論文資料中缺乏共現關係,使得中英文同義或相關的術語在圖形上相近但無法映 射到同一節點上。 5 結論結論結論結論 本論文的研究利用自組織映射圖(SOM)技術將計算語言學相關術語對應到二維圖形,使得術語之間 的關係可以在映射圖中加以呈現,提供使用者做為資訊檢索以及了解研究領域的重要主題的輔助工一伀倀嘀刀

27、匀堀儀吀圀唀夀娀嬀尀崀帀开怀愀戀挀搀攀昀最栀椀樀欀氀洀渀漀瀀焀爀猀琀甀瘀眀砀礀稀笀簀紀縀缀耀脀舀茀萀蔀蘀蜀蠀言謀谀踀輀錀鐀阀需頀餀鬀鰀鸀鼀褀销鴀鈀騀退鄀贀一倀伀儀刀匀吀唀嘀圀堀夀娀嬀尀崀帀开怀愀戀挀搀攀昀最栀椀樀欀氀洀渀漀瀀焀爀猀琀甀瘀眀砀礀稀笀簀縀缀耀脀舀茀萀蘀蜀蠀褀言谀踀輀退鄀紀蔀贀謀鈀錀鐀销阀需頀餀騀鬀鰀鴀鸀鼀一儀伀倀刀匀吀唀嘀圀娀夀堀嬀尀崀帀开怀愀戀挀搀攀昀最栀椀樀欀氀洀渀漀瀀焀爀猀琀甀瘀眀砀礀稀笀簀紀縀缀耀脀舀茀萀蔀蘀蜀蠀褀言謀谀贀踀輀退鄀鈀錀鐀销阀需頀餀騀鬀鰀鴀鸀鼀伀一倀儀刀匀吀唀嘀圀堀夀娀嬀尀崀帀开怀愀戀挀搀攀昀最栀椀樀欀氀洀渀漀瀀焀爀猀琀甀瘀眀砀礀稀笀簀紀縀缀耀脀舀茀萀蔀蘀蜀蠀褀言謀谀贀踀輀退鄀鈀錀鐀销阀需頀餀騀鬀鰀鴀鸀鼀

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其他文案

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报