1樓:網友
中文分詞是中文文字處理的乙個基礎步驟,也是中文人機自然語言互動的基礎模組。不同於英文的是,中文句子中沒有詞的界限,因此在進行中文自然語言處理時,通常需要先進行分詞,分詞效果將直接影響詞性、句法樹等模組的效果。當然分詞只是乙個工具,場景不同,要求也不同。
在人機自然語言互動中,成熟的中文分詞演算法能夠達到更好的自然語言處理效果,幫助計算機理解複雜的中文語言。竹間智慧型在構建中文自然語言對話系統時,結合語言學不斷優化,訓練出了一套具有較好分詞效果的演算法模型,為機器更好地理解中文自然語言奠定了基礎。在此,對於中文分詞方案、當前分詞器存在的問題,以及中文分詞需要考慮的因素及相關資源,竹間智慧型自然語言與深度學習小組做歲銷了些整理和總結。
中文分詞根據實現原理和特點,主要分為以下2個類別:
1、基於詞典分詞演算法也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的「充分大的」詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分跡槐詞演算法分為以下幾種:
正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。基於詞典的分詞演算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字串匹姿雀友配方法進行優化,比如最大長度設定、字串儲存和查詢方式以及對於詞表的組織結構,比如採用trie索引樹、雜湊索引等。
2、基於統計的機器學習演算法這類目前常用的是演算法是hmm、crf、svm、深度學習等演算法,比如stanford、hanlp分詞工具是基於crf演算法。以crf為例,基本思路是對漢字進行標註訓練,不僅考慮了詞語出現的頻率,還考慮上下文,具備較好的學習能力,因此其對歧義詞和未登入詞的識別都具有良好的效果。nianwenxue在其**《combining classifiers for chinese word segmentation》中首次提出對每個字元進行標註,通過機器學習演算法訓練分類器進行分詞,在**《chinese word segmentation as character tagging》中較為詳細地闡述了基於字標註的分詞法。
常見的分詞器都是使用機器學習演算法和詞典相結合,一方面能夠提高分詞準確率,另一方面能夠改善領域適應性。
2樓:猴81107悶牟
1. 好喚碰詞典很重要m不論什麼樣的分詞方法, 優秀的詞典必不可少, 越拿老掉牙的詞典對越新的文字進行分詞, 就越會分成一團糟。 怎樣構猜橘建乙個優秀的詞典, 快速發現新新詞彙。。
2. 演算法跟著需求走,建議根據不同的需求選用不同的演算法, 例如, 類似知乎頭部搜尋的 autocomplete 部分, 講究的是速度快, 興趣相關( 優先找和你賬戶相關, 和可能感興趣的內容 ),分詞演算法反而在其次了。 而像全文搜尋這樣大段大段的長文字。。
我覺得則更注重的是精準, 應該選乙個像crf這樣的演算法。
中文分詞的應用
3樓:悠悠__a嬂
在自然語言處理技術中,中文處理技術比西文處理技術要落後很大一段距離,許多西文的處理方法中文不能直接採用,就是因為中文必需有分詞這道工序。中文分詞是其他中文資訊處理的基礎,搜尋引擎只是中文分詞的乙個應用。其他的比如機器翻譯(mt)、語音合成、自動分類、自動摘要、自動校對等等,都需要用到分詞。
因為中文需要分詞,可能會影響一些研究,但同時也為一些企業帶來機會,因為國外的計算機處理技術要想進入中國市場,首先也是要解決中文分詞問題。
分詞準確性對搜尋引擎來說十分重要,但如果分詞速度太慢,即使準確性再高,對於搜尋引擎來說也是不可用的,因為搜尋引擎需要處理數以億計的網頁,如果分詞耗用的時間過長,會嚴重影響搜尋引擎內容更新的速度。因此對於搜尋引擎來說,分詞的準確性和速度,二者都需要達到很高的要求。研究中文分詞的大多是科研院校,清華、北大、哈工大、中科院、北京語言學院、山西大學、東北大學、ibm研究院、微軟中國研究院等都有自己的研究隊伍,而真正專業研究中文分詞的商業公司除了海量科技以外,幾乎沒有了。
科研院校研究的技術,大部分不能很快產品化,而乙個專業公司的力量畢竟有限,看來中文分詞技術要想更好的服務於更多的產品,還有很長一段路。
中文分詞的介紹
4樓:悠悠__a媍
中文分詞(chinese word segmentation) 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有乙個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要複雜的多、困難的多。
有哪些比較好的關於風水著作有哪些比較好的學習建議?
古代風水文獻 葬書 撼龍經 疑龍經 天玉經 青囊序 青囊奧語 都天寶照經 重校正地理新書 玉髓真經 張子微著 地理鐵案 宋 司馬頭陀著 地理金水兩案 宋 司馬頭陀著 理氣心印 宋 吳景鑾著 撥砂經 楊公開門放水經 玄空祕旨 目講禪師 地理原真 孔聞星 地理五訣 趙九峰 地理辨正 地學仁孝必讀 周梅樑...
上海哪些IT企業比較好,上海有哪些比較好的IT外企?
盛大 九城 聯想 暢想 上海有哪些比較好的it外企?英佩數碼 ea中國 育碧中國 neowiz新遊網路 activision blizzard 動視暴雪 這幾個業界頭頭 都在上海有分部 上海it行業那個地方比較多 it行業還是集中在張江高科和漕河涇開發區 新虹橋商圈北新涇因為攜程京東也挺多企業。陸家...
比較好的翻譯軟體有哪些,有哪些比較好用的翻譯軟體
額.個人抄感覺機翻引擎其實都差不多 bai,主要還是看背後的數du據量支援。通用zhi領域的dao話一般站谷歌,垂直領域的話比如雲譯。推薦之前使用過的一款文件快翻工具qtrans,速度啊質量啊格式啊 啊這些都還可以。最近發現一個特別妙的功能是這樣的 可以自己隨意切換機翻引擎!喜歡哪個就翻哪個牌子。第...