<object id="ms22s"></object>
<acronym id="ms22s"><center id="ms22s"></center></acronym>
<acronym id="ms22s"><center id="ms22s"></center></acronym>
您現在的位置: 首頁» 科學研究» 科研成果
科研成果
中文信息處理技術平臺
更新時間:2017-01-02 點擊數:

   中文信息處理是我國實現國家信息化戰略的基礎性工作,是我國在世界信息技術領域里得天獨厚的優勢所在,也是我國必須始終保持世界領先水平的技術領域之一,是許多應用系統的基礎性支撐平臺。這些應用系統最核心的技術都取決于中文信息處理的基礎研究,這些基礎研究包括:中文分詞、詞性標注、句法分析、語義分析,語句或篇章的自動處理技術,中文信息資源的建設等。 特別是中文分詞技術是中文特有的技術,是其他技術的最基本技術。

   從大規模中文文本中獲取有用的信息,主要依靠中文信息處理技術。中文是我國自己的語言文字,特別是在互聯網時代,中文信息處理技術是智能信息系統的基礎,在智能檢索、自動問答、機器翻譯等系統中有著廣泛的應用前景,是我們必須自行解決的核心技術。中文信息處理技術在歷年的國家863高技術研究計劃中,中文信息處理方面的相關課題一直得到重點資助。

   本項目依托山西大學多年在中文信息處理領域中的優勢,特別是近年對漢語框架語義知識庫的研究成果,開發基于開放網絡環境的中文信息處理技術平臺。中文信息處理技術開放平臺將提供高效的中文語言處理模塊,包括分詞、詞性標注、命名體識別、語塊分析、語義分析等中文信息處理關鍵技術部分,并將基于網絡服務(Web Service)標準接口形式對外提供服務。區別于目前國內外同類平臺的技術,本平臺將特別提供漢語框架語義知識庫的框架語義自動標注工具。內容包括漢語框架的自動識別、框架語義角色自動標注。這是目前我們獨有的技術。

 

3.2 主要內容

   本項目從20132月開始實施,從項目一開始,項目組就明確分工,層層落實,責任到人,每周例會討論項目中遇到的問題,有效推進了項目的進展。

   我們課題研究小組緊跟國際計算語言學研究前言,學習、討論自然語言處理領域國際頂級期刊和頂級國際會議相關論文50多篇,并將相關算法在面向中文文本數據處理中進行實驗,消化和吸收國際前言語言處理技術,逐步建成針對中文文本數據的中文信息處理技術平臺。

   具體工作內容有:首先,在山西大學高性能計算平臺上實現了,條件隨機場模型(CRF)、最大熵模型(ME)、支持向量機(SVM)三種智能分類器軟件。實現了C/Fortran語言并行編譯,實現了大型數據分析軟件R系統的高性能計算;實現了我校最新研究的機器學習特征選擇的OAS算法(基于正交表的特征選擇算法),為大規模數據的機器學習提供一種通用的、基于并行計算的快速特征選擇算法,有效提高了機器學習模型處理大規模中文本文數據分析能力。

其次,在上述基礎上,完成了中文信息處理技術開放平臺的建設,目前平臺提供如下主要技術方法:

1)文本數據整理子系統:文本數據規范錄入、數據整理子系統.

2)分詞、詞性標注、命名體識別子系統:分詞和詞性標注一體分析系統;使用條件隨機場構建的分詞系統;使用深層神經網絡構建的分詞系統.

3)句法分析: 基于規則的漢語基本塊標注系統; 基于條件隨機場的漢語基本塊標注系統; 基于分布表征的漢語基本塊邊界識別;基于條件隨機場的漢語功能塊識別系統.

4)語義分析: 基于條件隨機場的漢語框架語義角色標注; 基于詞分布表征的漢語框架語義角色標注;漢語CFN框架自動識別系統.

5)詞語表示: 提供了三種詞語的分布式表示的向量,分別是C&W詞表征;word2vecter詞表征; GloVe 詞表征.

6)應用系統: 閱讀理解問題回答系統.

7)數據資源: 漢語框架語義知識庫(CFN

8)統計機器學習數據的交叉驗證方法: 1)均衡mx2交叉驗證,針對單點分類問題,其中包含:方差計算,方差估計,切分方式計算等;2)基于均衡3x2交叉驗證的F1值置信區間估計;3)均衡的RLT的語料切分方法;4)特征選擇的OAS算法(基于正交表的特征選擇算法).

  網站: http://nlp.sxu.edu.cn

五分赛车