您好,欢迎来到帮我找美食网。
搜索
您的当前位置:首页词频统计中文分词技术的研究

词频统计中文分词技术的研究

来源:帮我找美食网
维普资讯 http://www.cqvip.com 经验 仪器仪表用广 证性能或行为的属性。对』 功能性属性的修改只需修改改动基层, 使容错中间件具有对应用环境的自适应能力。 对涉及 能或行为属 的修改.则仅修改 层。反射也提高了可重 刚性, 层对象既町以独立使 叮以和九层对象结合使用具备某 些额外属性,且吲样的厄层对缘.可被重用米为不同的基层对象附 4小结 加同样的性能或行为属一 : 本文在分析传统的容错技术的基础j ,阐述了为分布式应用提 供容错中间件的必要性和实现容错中间件的关键技术。在此基础 3.2基于反射的容错中间件 上。讨论了基于CORBA的三种容错中问件的实现方式,以及在容 基于反射的容错L}J问件是在原有的容错中间件的基础上。增加 错中间件中增加反射机制,使其具有对应用的闩适应性 @ 反射机制,为 错应用提取通用的容错属性,利用反射的可见性, 参考文献 使得这些容错应H=I的容错属性能够动态的配置管理 【1 J周明辉.面向对象的容错中间件的研究与实现:【博士学位论文】. 目前。在CORBA容错系统实现中,没有运用反射时,采用 开发特殊的ORB来处理组通信和容错策略,即将容错功能集成到 长沙:国防科学技术大学,2002. ORB中以满足特定应用的要求,或通过将消息转发给一个组通信 【2J George Coulouris,Jean Dollimore,Tim Kindberg Distributed 系统和其它负责处理复制的组件米实现容错。运用反射方法的,如 Systems:Concepts and Design、Fourth edition[M].北京:机械出 FRIENDS系统,它使刚开放C++编译器来拦截对象的交互动作并 版社.2006. 访问皋层对象的属性以实现容错: 还有dynamicTAO,通过在 I3】周明辉.邓佳,郭长国.基j 中问件的动态嚣配置容错对象管理框 TAO的基础l 实现运行期反射来达剑容钳的目的。 架.计算机学报.2005(9)28:1431—1439. 基J‘反射的容锚中间件采J=fj发布/订阅模型,为各分布式对象 【4】李征,吴俊敏.黄刘生等.基 反射的容错CORBA系统的设计和 提供容铝支持。接结构为在 水的奔错中r司件结构中增加容错属性 实现.计算机工程, 2005(9)、31(17):84-86 的收集和评估模块和 错反射模块。容错属性收集主要收集动态配 【5】张云勇.张智江.刘锦德等,中问件技术原理与应用IMI.清华大学 置用的关键容错属性.同叫根据模块内设置的属性的有效性等属 出版社.2004. 性.提供评f+机制.即匹配收集的属悱和有效的属性.向容错反射 作者简介:费洪晓(1967一).男.中南大学副教授.主要研究方向为网络管理 模块提供相应的评估结粜信息。反射模块根据评估信息,重配置容 和网络安全; 裘方敏(1981一).女.中南大学硕士研究生 主要研究方向为 错属性,使应_L}j环境达到史佳的容错忡能。在系统运行的过程中, 分布式系统和网络安全。 容错中『『IJ件通过卜述方 ,1 断的实脱对容车持属性对动态重配置, 文章编号:1 671—1 041(2007)03—0078-02 ★ 词频统计中文分词技术的研究 朱小娟,陈特放 (中南大学信息科学与工程学院,长沙410075) 摘要:本文详细介绍了一个基于词频统计的中文分词系统的设计和实现。系 实用的中文分词系统面 ,这成为严重制约中文信息处理发展的舰 统选用了三种统计原理分别进行统计:互信息.N元统计模型和t一测试。论 颈之一…。在此背景下,作者研究了基J 词频统计的中文分词技 文还对这三种原理的处理结果进行比较 分析各种统计原理的统计特点、以 术方法及原理,设计并文现了 个基r词频统计的中史分词系统。 及各自所适合应用的地方。 关键词:中文分词:词频统计:互信息:N元统计模型:t・测试 1 词频统计中文分词系统的原理 中图分类号:TP39文献标识码: B 从形式 看.词是稳定的亨的组合.凶此在J 下文中,相邻的 Research about chinese word 字同时出现的次数越多,就越有可能构成一一个词。凶此亨与字相邻 segmentation based on statistic 共现的频率能够较好地反映成词的可信发。这就是词频统计柏摹木 原理,最常用的有以下三种。 ZHU Xiao-juan.CHEN Te-fang 1.1互信息原理 (College of Information Science and Engineering, 在人们用语言进行交际活动时.诳言成分的使 {【I!尔… 定的 规律性,因此可使用统汁方法对其进行研宄统 矗言学采州概率 Central South University,Changsha 41伽I75,china) 论、数理统计以及信息论等数学工具来 究 言成分…现的概牢和 Abstract:The paper int roduces the design of Chinese word segmenta tion system,which is based on statistic the frequency of the word. 频率,从而揭示语言的统 规律I2j。 and realized in detail.The segmentation system selects three kinds 定义1:对有序汉字串AB汉字AB之间的 信息定义为 of statistics principles to count separately:Mutual Information.N I(A,B)=log,(P(A,B)/P(A)P(B)) (1) ・G ram and卜test.The paper still compares the results of the three 互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高 kinds of principles,analyzes the differences of statistics characteristi 于某一个闽值时.便可认为此字组可能构成了一个词。其中,P CS of the three counting p rinciple.and find each suitable situation, (A,B)为汉字串AB联合出现的概率,.P(A)为出现汉字串A的概 Key words:Chinese word segmentation;Statistic the frequency of the 率,P(B)为汉字串B出现的概率.它们在汉字宁符串中出现的次 word;Mutual Information;N-G ram:t-test 数分别 ‘为n(A)、n(B)、n(AB),n足词频总数,则仃: P(A,B)=n(A,B)/n,P(A)=n(A)/n,P(B)=n(B)/n (2) 中文分词就是巾 算机一动 别文木中的词边界的过程,它足 互信息反映了汉字串AB fL 相关的程度。 L}J文信息处理最重要的 处 。然I仃剑 时为l .还没有真正成熟 (1)如果I(A,B)>0,即P(A,B)>P(A)P(B).则AB『}I]足I} 相 关的,随着I(A,B)增加相关度增加.如粜I(A,B)大J。给定的 个 基金项目:国家自然科学基金项目(60674003) 阈值,这时可以认为AB是‘个词: 收稿日期:200昏12-20 (2)如果I(A,B)≈0,即P(A,B)≈P(A)P(B),则AB问足小相 78 EIC Vo1.1 4 2007 No.3 欢迎光临本刊网站http://www.eic.com.CR 维普资讯 http://www.cqvip.com 仪器仪表用户 关的: 经验交流 是由单字}_}{现频率统计和相邻2字出现频率统计两个办面组成。 要计算相邻2字共现的频率,这里实现的方法就是每次从数组 slndex中取出两个相邻的汉字,让它们和后面的亨符进 匹配,来 计算它们共现的次数,而且对每次统计过的汉字进行标记。 (3)如果I(A,B)<O、即P(AB)<P(A)P(B),则AB问是互斥 的,这时AB 基本 会结合成词。 1.2 N元统计模型原理 N—Gram统计计算语言模型的思想是:一个单词的出现与其上 下文环境中出现的 词序列密切相关,第n个词的出现只与前面rl 2.3切分和词典生成模块 这个模块是系统实现的关键,在词频统汁模块中只计算I{l单字 ・1个词相关,而与其它任何词邢不相关,设WlW2…wn是长度 出现和相邻2字共现的频率,根据这些信息只能直接的判断出相邻 为n的亨串,则字串W的似然度刚方程为 2个字是否能组成两字词语。要判断是否II!I成3字.4字等的长 P(w)=九P(WilWi-n+lWi_n+2…Wi。1) (3) 词,则需要进行进…步的判断。 难看 为了预测词Wn的…现概率,必须知道它前面所有 在进行切分判断时,是重复的按照这个判断思想来判断。I 且 词的“I现概率。从计算} 来看,这种方法太复杂了。如果任意一一个 这里设定最长的词语为5宁词语,所以每次分割要这样重复的判断 词Wi的出现概率只同它前面的两个词有关,问题就可以得到极大 5次,才能最终判断它是否II!l成词语。 的简化【3l。这时的语言模型叫做 模型(tri—gram),即 在存储词语时,还需要先将这个词语与词典中的词语进行比 P(W)≈P(Wi)P(W21W1)rIi:3… P(WilWi。2W 1) (4) 较,看它是否已经存在词典中。如果已经有了这个词语,就需要将 符号 ~3. P(WilWi。2wi。1)表示概率的连乘。一般来说,N 它的频率进行累加,否则,只要直接增DuN词典中去就可以了。 元模型就是假设当前词的出现概率只同它前面的N—1个词有关。这 2.4三种原理的比较 些概率参数都足可以通过大规模语料库来计算的,比如三元概率为 互信息一般反映的是字与字间的静态结合,因为它计算的就是 P(WilWi.2wI_1)≈count(Wi.2wj一!Wi)/count(Wi。2w;一1) (5) 相邻字出现的频率,根据这个频率与字单独出现频率进行比较,计 式中count(…)衷,J÷个特定词序列在整个语料库中出现的累 算出互信息来判断是否组成词语。 计次数。 N元统计模型则是有点像天气预报中使j}j的概率办法,用来估 1.3 t测试原理 计概率参数的大规模语料库好比足 个地区 年积累起来ffJ气象记 定义2:对钶序汉 :串xyz,汉亨Y相对J—X及z的t一测试定义 录。I面阁 三元模型来做天气预报.就好比足根据前两天的天气情况 来预测今天的天气。天气预报当然 nJ能百分之自准确,但是我们 tx(Y)z:( p(zly)p・ (ylx)]/ 6 (p(zly))+6 (p(yix)) ()6 大概小会凶此就全盘否定这种实用的概率方法吧。 ,中 p(zly)p(yl,x) ,分别是Y 关j: x,z 关于Y 的条件概率 6 P t测试则能较好的反应亨与字之问的动态结合.它是通过公式 (ylx),6 (p(zly)则代表各自的方差、式(6)中各量可用下式估计: 计算比较这个字与前面字的结合能力以及与后 个字的结合能力来 p(ylx)=p(x,y)/p(x)= x,y)/r(x),p(zly)=p(y,z (y):r(y,z)/r(y) (7) 判断它到底是与哪个宁结合得更紧密。更可能组成…个词语f5j。 (p(yIx)):r(x,y)/r (x), (p(zIy))=r(y。z)/r (y) (8) 从t一测试的定义,可知: 3结束语 (1)t (y)>0时,亨Y有与 继宁Z相连的趋势,值越大,相 互信息,N元统计模型,t测试,这■种统汁原理各仃自己的 连趋辨越强: 优和缺点。但是如果能将互信息和t tl,4试这两个统汁原理相结合. (2)t (y):0时, 反映(-r:f=i趋势: 一定能起到一个互补的效果,因为它们 个反映的是宁与宁之 的 (3)t (y)<O时.亨Y与前趋宁X相连的趋势,值越小,相连 静态结合能力.…个是反映字与字之间的动态结台。所以它们纬台 趋势越强。 互补的可行性较大。而N元统计模型,则比较独立,它在两方面都 做得不错,只是计算要比另两个原理都复杂,如果能在计算L进行 2词频统计中文分词系统的设计与实现 改进,将算法的运行效率提高,也是非常有应用前景的。@ 这个分词系统主要由三部分组成:预处理模块,词频统计模 参考文献 块,切分和词典生成模块。首先预处理阶段,利用显式(空格,分 【1 J Dempster A、Laird N、Rubin D.Maximum—likelihood from 段符等)和隐式的切分标记(标点符号、数字、ASCII字符以及出 incomplete datavia the EM algorithm.Royal Statist.Soc Ser.B.,1 现频率高、构词能 著的 宁词、数词+ 字常用量词模式)将待 977、39:45—48. 分析的文本切分成短的汉字串。然后通过词频统计模块,统讨’出单 【2】胥桂仙,苏筱蔚,陈淑艳.中文史本挖掘中的尢洲典分浏的算 :戌 字出现的频率.以及相邻两亨出现的频牢,并计算出相应的统计信 其应H].吉林 学院学报、2002、23(1):16-18 息。最后根据词频统 模块中得到的统 信息.用切分和词典生成 【31孙茂松.黄吕宁.邹嘉彦.陆力、沈逃 .利川汉宁.儿语法关系 模块对文档进行分割 并将切分j}I『 阋爵存入词典中,而且将词语 解决汉语自动分词中的交集型妓义 计算机研究 0发展.1997、 出现的频;耘仔入词典中。 34(5):332—339. 2.1预处理模块 【4】邹海山.吴勇.吴月珠,陈阵.中文搜索引擎中的中文信息处理技 预处理模块的实现是比较简单的,它的关键问题是汉字的编码 术.计算机应用研究,2000,12:224-227. 和数据结构。在汉亨编码中.每个汉字由两个字节组成,并且将最 【5】周强.黄昌宁.汉语概率上二F文无关语法的自动推荐. ‘算机学 高位置“1”。这样要判断一个字符是否为汉字,就只要进行位运 报.1998,21(5):385.391. 算就可以判断。另外在这个系统中我们要计算某个字符出现的频 率,还要判断它是否能成词.它和其后相邻的字符共现的频率等。 作者简介:陈特放(1957一),男(汉族).湖南涟源人、博士生导师.主要研 2.2词频统计模块 究方向为电力机车与故障诊断,交通信息工程及控制.计算机应用:朱小娟 词频统 模块足这个系统 个 E常关键的模块,它的实现算法 (1982一)、女(汉族),湖南怀化人.硕士,主要研究方向为计算机信息处理 与控制。 欢迎订阅 仪器仪表用户杂志 用户自己的刊物 双月刊 大16开本 国内外发行 正文12O页 介绍国内外最新技术与产品及应用 全国各地邮局均可订阅 邮局订阅代号:1 8—226 全年订价52.8O元 欢迎订阅欢迎撰稿欢迎发布产品广告信息 E JC Vo1.14 2007 N0.3 79 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- banwoyixia.com 版权所有 湘ICP备2023022004号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务