收藏 分享(赏)

20200705_讲聊斋_第12节:细侯.txt

上传人:黄嘉文 文档编号:2410716 上传时间:2020-07-11 格式:TXT 页数:1 大小:4.15KB
下载 相关 举报
20200705_讲聊斋_第12节:细侯.txt_第1页
第1页 / 共1页
亲,该文档总共1页,全部预览完了,如果喜欢就下载吧!
资源描述

1、以自組織映射圖進行計算語言學領域術語視覺化之研究以自組織映射圖進行計算語言學領域術語視覺化之研究以自組織映射圖進行計算語言學領域術語視覺化之研究以自組織映射圖進行計算語言學領域術語視覺化之研究 Visualizing the Terms of Computational Linguistics with Self-Organizing Maps 林頌堅 Sung-Chien Lin 世新大學資訊傳播學系 Department of Information and Communications, Shih-Hsin University sclcc.shu.edu.tw 摘要摘要摘要摘要 本論文

2、的研究利用自組織映射圖(SOM)技術將計算語言學相關術語對應到二維圖形, 使得術語之間的關係可以在映射圖中加以呈現,提供使用者做為資訊檢索以及了解重要研 究主題的輔助工具。在本論文中,我們所探討的問題有(1)發展SOM技術應用到術語資訊視 覺化的方法,(2)評估SOM技術應用到術語資訊視覺化的成效,(3)利用研究結果分析計算語 言學中重要的研究主題與主題之間的關係。在SOM技術的應用中,首先從論文資料中抽取 重要的術語,接著以術語之間的共現關係做為基礎,建立每一個術語的特徵向量。再以術 語特徵向量做為輸入資料,進行SOM訓練以及將術語映射到圖形上。對於這項技術在應用 上的成效評估,由於映射節點

3、的距離關係在視覺上要需要符合術語間的相關性。因此,我 們建議以特徵向量的距離與節點位置的距離之間的相關係數做為成效評估的標準。最後, 對於計算語言學領域的術語所進行的實驗中可以發現大多數相關的術語都可以映射到相鄰 近的節點上,而術語所映射節點的位置也可以大致表現主題之間的關係。 這個結果表示SOM 技術適合應用於術語資訊視覺化。 1 緒論緒論緒論緒論 本論文是一個將計算語言學相關術語(terms)對應到二維圖形的研究,其目的是希望能夠蘊含在術語 之間的資訊加以視覺化(visualization)。從論文所抽取出來的術語可以表示研究問題、方法、理論與技術 等論文相關的主題,若是針對某一研究領域所

4、發表的論文進行術語抽取並加以統計,所得到的高頻術語 便是這個領域的重要主題1。因此,這些從論文抽取出來的術語將有助於了解這個領域所發展的研究課 題或是進行資訊的檢索。為了進一步幫助使用者從大量的文件資料庫中搜尋相關的資訊來解決所面對的 研究問題以及提供他們對於這個領域研究所產生的知識結構(knowledge structure)有完整的認識,可以將 這些術語整理成階層式(hierarchical)組織或網路式(network)組織,來闡明術語之間的關係。在資訊檢索的 技術與應用上,索引典(thesaurus)便是將某一特定領域的相關術語與它們之間的關係整理成一個階層式與 網路形式的組織2。在索

5、引典的結構裡,將每一個術語作為網路中的節點,而以相關術語之間的關係作 為相應節點之間的連結。近來,許多研究提出各種術語組織的自動化方法,這些方法多以統計的叢集 (clustering)技術為組織術語的方法,將關聯性較強的術語放到相同的集合中,並且利用術語在文句中的共 現(co-occurrence)關係作為術語之間的關聯3, 4。利用叢集所形成集合便可以了解術語之間的關聯性,並 且在同一集合中的術語往往經常共同出現在主題相關的論文中,因此這些術語集合可以呈現這個研究領 域的研究主題。然而,除了利用叢集技術所形成的集合來對於術語之間的關聯進行分析之外,若能夠將 術語以及它們之間的關聯呈現在圖形中

6、,提供瀏覽與深入探索,對於檢索相關資訊與分析領域的知識結 構勢必更有幫助。 資訊視覺化 (information visualization)是以二維或三維的圖形來表現一組資料之間的可能關係, 目的是輔助人們認知原本的資料間不易察覺的關係,作為決策判斷或探索新知的依據5。在過去,資訊 視覺化常被應用於高維的數值資料,然而由於電子文件的數量大幅增加,對於組織大量文件以及方便而 有效的全文檢索介面的需求越來越大,已經有許多學者著手進行文字資訊視覺化的探討。文字資訊視覺 化的目標是將每一個文字資料對應到圖形上某一位置上的一點,使得文字資料之間的相關程度(relevance) 可以用圖形上點與點之間的

7、距離加以表示,兩點間的距離愈近便表示所代表的兩筆文字資料愈相關。使 用者便可以直覺地將圖形上表示的距離作為資料間的關聯,進而了解資料的整體分布情形。因此,在文 字資訊視覺化研究中常見的做法是首先設定文字資料的特徵向量(feature vectors), 再以特徵向量來估算資 料兩兩間的相關程度,接著利用映射技術將文字資料對應到圖形上,盡量使圖形上點與點的距離之間的 關係保持術語相關程度間的關係。常使用的映射技術有統計導向與類神經網路導向兩類6。在統計導向 的方法中,將所有資料間的相關程度組合成一個矩陣,每一筆資料對所有資料的相關程度對應到矩陣中 的一行與一列,換言之矩陣上的每一個元素便是兩筆資

8、料間的相關程度。接著便利用統計技術,如 SVD(singular value decomposition)7、PCA (principal component analysis)或是MDS (multidimensional scaling) 6, 8等,找到一組轉換矩陣將原先的矩陣加以分解與轉換,使得重要的距離訊息得以保留在新產 生的矩陣中。而以轉換矩陣作為將資料映射到圖形的依據。 另一方面,自組織映射圖(self-organizing maps, SOM)則是在應用類神經網路導向的方法到文字資訊 視覺化處理中常採用的技術9。顧名思義,SOM是一種以資料驅動(data-driven)的非監督

9、式學習 (unsupervised learning)方法,利用資料的特徵向量作為訓練資料,訓練一組排列成方陣的節點,從反覆的 訓練過程中讓產生的映射圖反應資料之間的關係10。在SOM技術中,每一節點都是一個向量,向量的 維度與資料特徵向量的維度相同。在經過多次的訓練過程後,所有的資料都依照其特徵向量與節點的相 似程度,映射到某一個節點上,而且節點間愈接近者相似程度愈高。因此,相關程度接近的資料會映射 到同一節點或鄰近的節點上,而且所投射節點之間的相對距離可以表示資料的相關程度大小,距離愈大 相關程度愈小。SOM的優點包括了可以將高維資料的距離關係,以自組織的型式保留在二維的映射圖 中,並且M

10、DS等統計導向方法大多需要極大量的運算資源,且在新增資料時,無法利用先前的計算結果, 在實作方面,SOM技術較容易達成。因此,近年來有相當多文字資訊視覺化的研究採用SOM作為映射技 術。 在本論文的研究中,我們嘗試將計算語言學術語的關係視覺化,利用SOM將術語之間的相關程度映 射到圖形上。因此,本論文的研究問題包括:(1) 發展SOM技術應用到術語資訊視覺化的方法,(2)評估 SOM技術應用到術語資訊視覺化的成效, (3)利用研究結果分析計算語言學中重要研究主題之間的關係。 本論文其餘的章節組織如下,第2節中將簡介SOM技術,並回顧利用SOM技術處理文字資訊的研究; 第3節說明本研究如何利用SOM技術,將計算語言學相關術語進行資訊視覺化處理的方法,並提出成效 評估的方法;第4節則是對此一研究相關實驗的結果與說明;最後的第5節是本論文的結論與未來進一步 研究的建議。 2 相關研究相關研究相關研究相關研究 SOM是一種非監督式的類神經網路10,在資料的叢集與視覺化上,應用十分廣泛。SOM的特色包 括了它的類神經網路型態(topology)與訓練模式。在SOM中,由一組反映輸入資料的節點所構成,而這些 節點排列成矩陣的型態,每一個節點與其他四個節點相連接,此一結構便是所謂的特徵映射圖(feature map)。事實上,每一個節點都代表一個特徵向量,向量的維度與

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其他文案

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报