国产日韩精品欧美一区喷,大又大粗又爽又黄少妇毛片男同 ,另类色综合,在线免费不卡视频,国产精品V日韩精品,伊人久综合,在线无码va中文字幕无码,欧美有码在线观看

基于知網義原信息量的詞語相似度的計算方法

時間:2021-08-21 14:01:10 詞語 我要投稿

基于知網義原信息量的詞語相似度的計算方法

  基于知網義原信息量的詞語相似度的計算方法

  摘要:國內利用知網計算中文詞語相似度通常采用基于義原距離的方法,這些方法依賴于公式設計和參數選取。根據信息論中計算兩個事物相似度的思想,利用知網的分類體系來計算詞語所包含的義原信息量,將義原及其角色關系的信息量作為詞語相似度計算的基本單位,通過計算兩個詞語的共有義原及其角色關系的信息量和所有義原及其角色關系的信息量的比值來綜合計算詞語的相似度。實驗結果證明,該方法合理可行。

基于知網義原信息量的詞語相似度的計算方法

  關鍵詞:義原信息量;角色關系;詞語相似度;信息處理

  中圖分類號:TP391

  作者簡介作者簡介:李國佳(1986-),男,山西大同人,碩士,華北水利水電大學軟件學院助教,研究方向為自然語言處理;楊喜亮(1981-),男,河南鄭州人,碩士,華北水利水電大學現代教育技術中心助教,研究方向為智能信息處理。

  0 引言

  本文從整體性角度出發,給出一種基于義原信息量計算中文詞語相似度的方法。基于知網的分類體系(Taxonomy),將義原及其角色關系整體作為詞語相似度計算的基本單位,保留了描述詞語概念的各個義原間的關系,并依據信息論中計算兩個事物相似度的思想[4],用兩個詞語共有義原及其角色關系的信息量和所有義原及其角色關系的信息量來綜合計算詞語的相似度。

  1 知網義原信息量

  1.1 義原信息量

  其中,P(A)表示義原A在某個語料庫樣本空間中出現的概率。計算語料庫樣本空間中某個義原出現的概率很困難。知網作為一個以各類概念及關系為描述對象的知識系統,其分類體系本身可以看作是各個義原出現的一個樣本空間,那么僅依賴知網分類體系本身而不需其它語料庫,作為計算義原出現概率的樣本空間也是合理的。本文給出一種根據知網的分類體系來計算義原信息量的方法。

  由義原組成的知網分類體系是一棵概念分類樹,在每類義原樹狀層次結構(以下簡稱為義原樹)中,根結點義原是分類類別,是最大的分類,其它義原都是根結點義原的子孫。可以認為,分支結點義原包含越多的子孫結點,其信息量越小。葉子結點是最小的分類,所有葉子結點的信息量是相同的。

  在知網的知識詞典中,每個詞語由DEF來描述其概念。將DEF分為兩部分:主類義原和特性描述部分。

  定義1:義原及其角色關系。

  在詞語概念DEF的特性描述部分中,將義原及動態角色與特征(Event Role and Features)[9]的層次結構的組合稱為義原及其角色關系。

  定義2:主類義原。

  在詞語概念DEF中,把描述詞語概念最左邊的第一個義原稱為主類義原,也稱為第0層義原及其角色關系。

  例如詞語“病菌”的一個概念:DEF={bacteria|微生物:domain={medical|醫},modifier={able|能:scope={ResultIn|導致:result={disease|疾病}}}}。在“病菌”的`DEF中,將“bacteria|微生物”稱為主類義原,其它部分是特性描述部分。在特性描述部分中,將“domain={medical|醫}”、“modifier={able|能 }”稱為DEF的第一層義原及其角色關系,其中包含兩個本層義原“medical|醫”和“medical|醫”;把“scope={ResultIn|導致}”稱為第二層義原及其角色關系,包含一個本層義原“ResultIn|導致”,將“result={disease|疾病}”稱為第三層的義原及其角色關系,包含一個本層義原“disease|疾病”,依次類推。

  其中,I(pj)表示r所包含的第j個義原pj的信息量。

  例如在詞語“病菌”的DEF中,每層的義原及其角色關系中包含的本層義原信息量均為3.346,根據式(4)可得“病菌”的義原及其角色關系的總信息量為7.946。

  1.3 共有義原及其角色關系的信息量

  2 實驗結果及分析

  綜合來看,本文方法的結果整體表現更加合理,能夠反映出詞語間語義的相似性和差異,與人的判斷結果比較一致,計算也簡單。

  3 結語

  基于知網義原信息量計算中文詞語相似度的方法根據信息論中計算兩個事物相似度的思想,利用知網的分類體系來計算義原信息量,并根據知網這一關系系統的特性,從保留義原間關系的角度出發,將義原及其角色關系作為計算概念相似度的基本單位,更能全面反映詞語語義的相似性和差異。基于知網通過義原及其角色關系的信息量來綜合計算詞語的相似度,計算量較少,計算結果合理可行。在詞語相似度計算基礎上,進一步研究句子間相似度計算方法,則有待下一步研究。

  參考文獻:

  [2] 劉群,李素建.基于《知網》的詞匯語義相似度的計算[C]. 臺北:第三屆漢語詞匯語義學研討會,2002,7(2):5976.

  [3] 董振東,董強,郝長伶.《知網》的理論發現[J].中文信息學報,2007,21(4):39.

  [6] 夏天.漢語詞語語義相似度計算研究[J].計算機工程,2007, 33(6):191194.

  [8] 王小林,王義.改進的基于知網的詞語相似度算法[J].計算機應用,2011,31(11):7590.

主站蜘蛛池模板: 国内精品一区二区在线观看| 午夜无码一区二区三区| 激情六月丁香婷婷四房播| 野花国产精品入口| 潮喷在线无码白浆| 国产白浆视频| 国产区福利小视频在线观看尤物| 青青青视频蜜桃一区二区| 欧美成人一区午夜福利在线| 国产91精品调教在线播放| 青青操国产| 亚洲水蜜桃久久综合网站| 99激情网| 毛片免费观看视频| 久久精品免费看一| 中文字幕调教一区二区视频| 国产精品久久久久无码网站| 一本色道久久88综合日韩精品| 国产精品99久久久久久董美香| 波多野结衣一区二区三区88| 亚洲一欧洲中文字幕在线| 在线中文字幕日韩| 日韩高清一区 | 国产香蕉97碰碰视频VA碰碰看| 色亚洲激情综合精品无码视频| 四虎精品黑人视频| 综合天天色| 亚洲免费毛片| 91在线播放免费不卡无毒| 久久久精品国产SM调教网站| 91视频区| 奇米精品一区二区三区在线观看| 国产丝袜丝视频在线观看| 亚洲第一色网站| 久久成人国产精品免费软件| 婷婷午夜影院| 国产午夜无码片在线观看网站| 中日韩欧亚无码视频| jizz在线免费播放| 国产一在线观看| 欧美www在线观看| 亚洲成人在线网| 国产成人av一区二区三区| 免费av一区二区三区在线| 97国产成人无码精品久久久| 国产在线视频自拍| 亚洲一区二区日韩欧美gif| 亚洲无码91视频| 55夜色66夜色国产精品视频| 日本一区二区不卡视频| 国产肉感大码AV无码| 亚洲无限乱码一二三四区| 国产香蕉97碰碰视频VA碰碰看| 欧美中文字幕一区| 中文字幕在线永久在线视频2020| 91在线播放国产| 在线一级毛片| 亚洲国产成熟视频在线多多| 亚洲Av综合日韩精品久久久| 欧美一区二区啪啪| 国产欧美网站| 精品人妻AV区| 一级不卡毛片| 亚洲人成影院午夜网站| 亚洲精品黄| 亚洲综合狠狠| 久久永久视频| 午夜人性色福利无码视频在线观看| 中文字幕第1页在线播| 国产老女人精品免费视频| 精品国产香蕉在线播出| 国产二级毛片| 久久久黄色片| 久久无码高潮喷水| 国产性生大片免费观看性欧美| 亚洲综合久久成人AV| 亚洲男人在线天堂| 亚洲欧美成人影院| 激情六月丁香婷婷四房播| 欧美性久久久久| 日韩在线观看网站| 成人午夜福利视频|