词频统计中文分词技术的研究

来源：帮我找美食网

维普资讯 http://www.cqvip.com 经验　仪器仪表用广　证性能或行为的属性。对』　功能性属性的修改只需修改改动基层，　使容错中间件具有对应用环境的自适应能力。　对涉及　能或行为属　的修改．则仅修改　层。反射也提高了可重　刚性，　层对象既町以独立使　叮以和九层对象结合使用具备某　些额外属性，且吲样的厄层对缘．可被重用米为不同的基层对象附　４小结　加同样的性能或行为属一　：　本文在分析传统的容错技术的基础ｊ　，阐述了为分布式应用提　供容错中间件的必要性和实现容错中间件的关键技术。在此基础　３．２基于反射的容错中间件　上。讨论了基于ＣＯＲＢＡ的三种容错中问件的实现方式，以及在容　基于反射的容错Ｌ｝Ｊ问件是在原有的容错中间件的基础上。增加　错中间件中增加反射机制，使其具有对应用的闩适应性　＠　反射机制，为　错应用提取通用的容错属性，利用反射的可见性，　参考文献　使得这些容错应Ｈ＝Ｉ的容错属性能够动态的配置管理　【１　Ｊ周明辉．面向对象的容错中间件的研究与实现：【博士学位论文】．　目前。在ＣＯＲＢＡ容错系统实现中，没有运用反射时，采用　开发特殊的ＯＲＢ来处理组通信和容错策略，即将容错功能集成到　长沙：国防科学技术大学，２００２．　ＯＲＢ中以满足特定应用的要求，或通过将消息转发给一个组通信　【２Ｊ　Ｇｅｏｒｇｅ　Ｃｏｕｌｏｕｒｉｓ，Ｊｅａｎ　Ｄｏｌｌｉｍｏｒｅ，Ｔｉｍ　Ｋｉｎｄｂｅｒｇ　Ｄｉｓｔｒｉｂｕｔｅｄ　系统和其它负责处理复制的组件米实现容错。运用反射方法的，如　Ｓｙｓｔｅｍｓ：Ｃｏｎｃｅｐｔｓ　ａｎｄ　Ｄｅｓｉｇｎ、Ｆｏｕｒｔｈ　ｅｄｉｔｉｏｎ［Ｍ］．北京：机械出　ＦＲＩＥＮＤＳ系统，它使刚开放Ｃ＋＋编译器来拦截对象的交互动作并　版社．２００６．　访问皋层对象的属性以实现容错：　还有ｄｙｎａｍｉｃＴＡＯ，通过在　Ｉ３】周明辉．邓佳，郭长国．基ｊ　中问件的动态嚣配置容错对象管理框　ＴＡＯ的基础ｌ　实现运行期反射来达剑容钳的目的。　架．计算机学报．２００５（９）２８：１４３１—１４３９．　基Ｊ‘反射的容锚中间件采Ｊ＝ｆｊ发布／订阅模型，为各分布式对象　【４】李征，吴俊敏．黄刘生等．基　反射的容错ＣＯＲＢＡ系统的设计和　提供容铝支持。接结构为在　水的奔错中ｒ司件结构中增加容错属性　实现．计算机工程，　２００５（９）、３１（１７）：８４－８６　的收集和评估模块和　错反射模块。容错属性收集主要收集动态配　【５】张云勇．张智江．刘锦德等，中问件技术原理与应用ＩＭＩ．清华大学　置用的关键容错属性．同叫根据模块内设置的属性的有效性等属　出版社．２００４．　性．提供评ｆ＋机制．即匹配收集的属悱和有效的属性．向容错反射　作者简介：费洪晓（１９６７一）．男．中南大学副教授．主要研究方向为网络管理　模块提供相应的评估结粜信息。反射模块根据评估信息，重配置容　和网络安全；　裘方敏（１９８１一）．女．中南大学硕士研究生　主要研究方向为　错属性，使应＿Ｌ｝ｊ环境达到史佳的容错忡能。在系统运行的过程中，　分布式系统和网络安全。　容错中『『ＩＪ件通过卜述方　，１　断的实脱对容车持属性对动态重配置，　文章编号：１　６７１—１　０４１（２００７）０３—００７８－０２　★　词频统计中文分词技术的研究　朱小娟，陈特放　（中南大学信息科学与工程学院，长沙４１００７５）　摘要：本文详细介绍了一个基于词频统计的中文分词系统的设计和实现。系　实用的中文分词系统面　，这成为严重制约中文信息处理发展的舰　统选用了三种统计原理分别进行统计：互信息．Ｎ元统计模型和ｔ一测试。论　颈之一…。在此背景下，作者研究了基Ｊ　词频统计的中文分词技　文还对这三种原理的处理结果进行比较　分析各种统计原理的统计特点、以　术方法及原理，设计并文现了　个基ｒ词频统计的中史分词系统。　及各自所适合应用的地方。　关键词：中文分词：词频统计：互信息：Ｎ元统计模型：ｔ・测试　１　词频统计中文分词系统的原理　中图分类号：ＴＰ３９文献标识码：　Ｂ　从形式　看．词是稳定的亨的组合．凶此在Ｊ　下文中，相邻的　Ｒｅｓｅａｒｃｈ　ａｂｏｕｔ　ｃｈｉｎｅｓｅ　ｗｏｒｄ　字同时出现的次数越多，就越有可能构成一一个词。凶此亨与字相邻　ｓｅｇｍｅｎｔａｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｓｔａｔｉｓｔｉｃ　共现的频率能够较好地反映成词的可信发。这就是词频统计柏摹木　原理，最常用的有以下三种。　ＺＨＵ　Ｘｉａｏ－ｊｕａｎ．ＣＨＥＮ　Ｔｅ－ｆａｎｇ　１．１互信息原理　（Ｃｏｌｌｅｇｅ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ，　在人们用语言进行交际活动时．诳言成分的使　｛【Ｉ！尔…　定的　规律性，因此可使用统汁方法对其进行研宄统　矗言学采州概率　Ｃｅｎｔｒａｌ　Ｓｏｕｔｈ　Ｕｎｉｖｅｒｓｉｔｙ，Ｃｈａｎｇｓｈａ　４１伽Ｉ７５，ｃｈｉｎａ）　论、数理统计以及信息论等数学工具来　究　言成分…现的概牢和　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｐａｐｅｒ　ｉｎｔ　ｒｏｄｕｃｅｓ　ｔｈｅ　ｄｅｓｉｇｎ　ｏｆ　Ｃｈｉｎｅｓｅ　ｗｏｒｄ　ｓｅｇｍｅｎｔａ　ｔｉｏｎ　ｓｙｓｔｅｍ，ｗｈｉｃｈ　ｉｓ　ｂａｓｅｄ　ｏｎ　ｓｔａｔｉｓｔｉｃ　ｔｈｅ　ｆｒｅｑｕｅｎｃｙ　ｏｆ　ｔｈｅ　ｗｏｒｄ．　频率，从而揭示语言的统　规律Ｉ２ｊ。　ａｎｄ　ｒｅａｌｉｚｅｄ　ｉｎ　ｄｅｔａｉｌ．Ｔｈｅ　ｓｅｇｍｅｎｔａｔｉｏｎ　ｓｙｓｔｅｍ　ｓｅｌｅｃｔｓ　ｔｈｒｅｅ　ｋｉｎｄｓ　定义１：对有序汉字串ＡＢ汉字ＡＢ之间的　信息定义为　ｏｆ　ｓｔａｔｉｓｔｉｃｓ　ｐｒｉｎｃｉｐｌｅｓ　ｔｏ　ｃｏｕｎｔ　ｓｅｐａｒａｔｅｌｙ：Ｍｕｔｕａｌ　Ｉｎｆｏｒｍａｔｉｏｎ．Ｎ　Ｉ（Ａ，Ｂ）＝ｌｏｇ，（Ｐ（Ａ，Ｂ）／Ｐ（Ａ）Ｐ（Ｂ））　（１）　・Ｇ　ｒａｍ　ａｎｄ卜ｔｅｓｔ．Ｔｈｅ　ｐａｐｅｒ　ｓｔｉｌｌ　ｃｏｍｐａｒｅｓ　ｔｈｅ　ｒｅｓｕｌｔｓ　ｏｆ　ｔｈｅ　ｔｈｒｅｅ　互现信息体现了汉字之间结合关系的紧密程度，当紧密程度高　ｋｉｎｄｓ　ｏｆ　ｐｒｉｎｃｉｐｌｅｓ，ａｎａｌｙｚｅｓ　ｔｈｅ　ｄｉｆｆｅｒｅｎｃｅｓ　ｏｆ　ｓｔａｔｉｓｔｉｃｓ　ｃｈａｒａｃｔｅｒｉｓｔｉ　于某一个闽值时．便可认为此字组可能构成了一个词。其中，Ｐ　ＣＳ　ｏｆ　ｔｈｅ　ｔｈｒｅｅ　ｃｏｕｎｔｉｎｇ　ｐ　ｒｉｎｃｉｐｌｅ．ａｎｄ　ｆｉｎｄ　ｅａｃｈ　ｓｕｉｔａｂｌｅ　ｓｉｔｕａｔｉｏｎ，　（Ａ，Ｂ）为汉字串ＡＢ联合出现的概率，．Ｐ（Ａ）为出现汉字串Ａ的概　Ｋｅｙ　ｗｏｒｄｓ：Ｃｈｉｎｅｓｅ　ｗｏｒｄ　ｓｅｇｍｅｎｔａｔｉｏｎ；Ｓｔａｔｉｓｔｉｃ　ｔｈｅ　ｆｒｅｑｕｅｎｃｙ　ｏｆ　ｔｈｅ　率，Ｐ（Ｂ）为汉字串Ｂ出现的概率．它们在汉字宁符串中出现的次　ｗｏｒｄ；Ｍｕｔｕａｌ　Ｉｎｆｏｒｍａｔｉｏｎ；Ｎ－Ｇ　ｒａｍ：ｔ－ｔｅｓｔ　数分别　‘为ｎ（Ａ）、ｎ（Ｂ）、ｎ（ＡＢ），ｎ足词频总数，则仃：　Ｐ（Ａ，Ｂ）＝ｎ（Ａ，Ｂ）／ｎ，Ｐ（Ａ）＝ｎ（Ａ）／ｎ，Ｐ（Ｂ）＝ｎ（Ｂ）／ｎ　（２）　中文分词就是巾　算机一动　别文木中的词边界的过程，它足　互信息反映了汉字串ＡＢ　ｆＬ　相关的程度。　Ｌ｝Ｊ文信息处理最重要的　处　。然Ｉ仃剑　时为ｌ　．还没有真正成熟　（１）如果Ｉ（Ａ，Ｂ）＞０，即Ｐ（Ａ，Ｂ）＞Ｐ（Ａ）Ｐ（Ｂ）．则ＡＢ『｝Ｉ］足Ｉ｝　相　关的，随着Ｉ（Ａ，Ｂ）增加相关度增加．如粜Ｉ（Ａ，Ｂ）大Ｊ。给定的　个　基金项目：国家自然科学基金项目（６０６７４００３）　阈值，这时可以认为ＡＢ是‘个词：　收稿日期：２００昏１２－２０　（２）如果Ｉ（Ａ，Ｂ）≈０，即Ｐ（Ａ，Ｂ）≈Ｐ（Ａ）Ｐ（Ｂ），则ＡＢ问足小相　７８　ＥＩＣ　Ｖｏ１．１　４　２００７　Ｎｏ．３　欢迎光临本刊网站ｈｔｔｐ：／／ｗｗｗ．ｅｉｃ．ｃｏｍ．ＣＲ　维普资讯 http://www.cqvip.com 仪器仪表用户　关的：　经验交流　是由单字｝＿｝｛现频率统计和相邻２字出现频率统计两个办面组成。　要计算相邻２字共现的频率，这里实现的方法就是每次从数组　ｓｌｎｄｅｘ中取出两个相邻的汉字，让它们和后面的亨符进　匹配，来　计算它们共现的次数，而且对每次统计过的汉字进行标记。　（３）如果Ｉ（Ａ，Ｂ）＜Ｏ、即Ｐ（ＡＢ）＜Ｐ（Ａ）Ｐ（Ｂ），则ＡＢ问是互斥　的，这时ＡＢ　基本　会结合成词。　１．２　Ｎ元统计模型原理　Ｎ—Ｇｒａｍ统计计算语言模型的思想是：一个单词的出现与其上　下文环境中出现的　词序列密切相关，第ｎ个词的出现只与前面ｒｌ　２．３切分和词典生成模块　这个模块是系统实现的关键，在词频统汁模块中只计算Ｉ｛ｌ单字　・１个词相关，而与其它任何词邢不相关，设ＷｌＷ２…ｗｎ是长度　出现和相邻２字共现的频率，根据这些信息只能直接的判断出相邻　为ｎ的亨串，则字串Ｗ的似然度刚方程为　２个字是否能组成两字词语。要判断是否ＩＩ！Ｉ成３字．４字等的长　Ｐ（ｗ）＝九Ｐ（ＷｉｌＷｉ－ｎ＋ｌＷｉ＿ｎ＋２…Ｗｉ。１）　（３）　词，则需要进行进…步的判断。　难看　为了预测词Ｗｎ的…现概率，必须知道它前面所有　在进行切分判断时，是重复的按照这个判断思想来判断。Ｉ　且　词的“Ｉ现概率。从计算｝　来看，这种方法太复杂了。如果任意一一个　这里设定最长的词语为５宁词语，所以每次分割要这样重复的判断　词Ｗｉ的出现概率只同它前面的两个词有关，问题就可以得到极大　５次，才能最终判断它是否ＩＩ！ｌ成词语。　的简化【３ｌ。这时的语言模型叫做　模型（ｔｒｉ—ｇｒａｍ），即　在存储词语时，还需要先将这个词语与词典中的词语进行比　Ｐ（Ｗ）≈Ｐ（Ｗｉ）Ｐ（Ｗ２１Ｗ１）ｒＩｉ：３…　Ｐ（ＷｉｌＷｉ。２Ｗ　１）　（４）　较，看它是否已经存在词典中。如果已经有了这个词语，就需要将　符号　～３．　Ｐ（ＷｉｌＷｉ。２ｗｉ。１）表示概率的连乘。一般来说，Ｎ　它的频率进行累加，否则，只要直接增ＤｕＮ词典中去就可以了。　元模型就是假设当前词的出现概率只同它前面的Ｎ—１个词有关。这　２．４三种原理的比较　些概率参数都足可以通过大规模语料库来计算的，比如三元概率为　互信息一般反映的是字与字间的静态结合，因为它计算的就是　Ｐ（ＷｉｌＷｉ．２ｗＩ＿１）≈ｃｏｕｎｔ（Ｗｉ．２ｗｊ一！Ｗｉ）／ｃｏｕｎｔ（Ｗｉ。２ｗ；一１）　（５）　相邻字出现的频率，根据这个频率与字单独出现频率进行比较，计　式中ｃｏｕｎｔ（…）衷，Ｊ÷个特定词序列在整个语料库中出现的累　算出互信息来判断是否组成词语。　计次数。　Ｎ元统计模型则是有点像天气预报中使ｊ｝ｊ的概率办法，用来估　１．３　ｔ测试原理　计概率参数的大规模语料库好比足　个地区　年积累起来ｆｆＪ气象记　定义２：对钶序汉　：串ｘｙｚ，汉亨Ｙ相对Ｊ—Ｘ及ｚ的ｔ一测试定义　录。Ｉ面阁　三元模型来做天气预报．就好比足根据前两天的天气情况　来预测今天的天气。天气预报当然　ｎＪ能百分之自准确，但是我们　ｔｘ（Ｙ）ｚ：（　ｐ（ｚｌｙ）ｐ・　（ｙｌｘ）］／　６　（ｐ（ｚｌｙ））＋６　（ｐ（ｙｉｘ））　（）６　大概小会凶此就全盘否定这种实用的概率方法吧。　，中　ｐ（ｚｌｙ）ｐ（ｙｌ，ｘ）　，分别是Ｙ　关ｊ：　ｘ，ｚ　关于Ｙ　的条件概率　６　Ｐ　ｔ测试则能较好的反应亨与字之问的动态结合．它是通过公式　（ｙｌｘ），６　（ｐ（ｚｌｙ）则代表各自的方差、式（６）中各量可用下式估计：　计算比较这个字与前面字的结合能力以及与后　个字的结合能力来　ｐ（ｙｌｘ）＝ｐ（ｘ，ｙ）／ｐ（ｘ）＝　ｘ，ｙ）／ｒ（ｘ），ｐ（ｚｌｙ）＝ｐ（ｙ，ｚ　（ｙ）：ｒ（ｙ，ｚ）／ｒ（ｙ）　（７）　判断它到底是与哪个宁结合得更紧密。更可能组成…个词语ｆ５ｊ。　（ｐ（ｙＩｘ））：ｒ（ｘ，ｙ）／ｒ　（ｘ），　（ｐ（ｚＩｙ））＝ｒ（ｙ。ｚ）／ｒ　（ｙ）　（８）　从ｔ一测试的定义，可知：　３结束语　（１）ｔ　（ｙ）＞０时，亨Ｙ有与　继宁Ｚ相连的趋势，值越大，相　互信息，Ｎ元统计模型，ｔ测试，这■种统汁原理各仃自己的　连趋辨越强：　优和缺点。但是如果能将互信息和ｔ　ｔｌ，４试这两个统汁原理相结合．　（２）ｔ　（ｙ）：０时，　反映（－ｒ：ｆ＝ｉ趋势：　一定能起到一个互补的效果，因为它们　个反映的是宁与宁之　的　（３）ｔ　（ｙ）＜Ｏ时．亨Ｙ与前趋宁Ｘ相连的趋势，值越小，相连　静态结合能力．…个是反映字与字之间的动态结台。所以它们纬台　趋势越强。　互补的可行性较大。而Ｎ元统计模型，则比较独立，它在两方面都　做得不错，只是计算要比另两个原理都复杂，如果能在计算Ｌ进行　２词频统计中文分词系统的设计与实现　改进，将算法的运行效率提高，也是非常有应用前景的。＠　这个分词系统主要由三部分组成：预处理模块，词频统计模　参考文献　块，切分和词典生成模块。首先预处理阶段，利用显式（空格，分　【１　Ｊ　Ｄｅｍｐｓｔｅｒ　Ａ、Ｌａｉｒｄ　Ｎ、Ｒｕｂｉｎ　Ｄ．Ｍａｘｉｍｕｍ—ｌｉｋｅｌｉｈｏｏｄ　ｆｒｏｍ　段符等）和隐式的切分标记（标点符号、数字、ＡＳＣＩＩ字符以及出　ｉｎｃｏｍｐｌｅｔｅ　ｄａｔａｖｉａ　ｔｈｅ　ＥＭ　ａｌｇｏｒｉｔｈｍ．Ｒｏｙａｌ　Ｓｔａｔｉｓｔ．Ｓｏｃ　Ｓｅｒ．Ｂ．，１　现频率高、构词能　著的　宁词、数词＋　字常用量词模式）将待　９７７、３９：４５—４８．　分析的文本切分成短的汉字串。然后通过词频统计模块，统讨’出单　【２】胥桂仙，苏筱蔚，陈淑艳．中文史本挖掘中的尢洲典分浏的算　：戌　字出现的频率．以及相邻两亨出现的频牢，并计算出相应的统计信　其应Ｈ］．吉林　学院学报、２００２、２３（１）：１６－１８　息。最后根据词频统　模块中得到的统　信息．用切分和词典生成　【３１孙茂松．黄吕宁．邹嘉彦．陆力、沈逃　．利川汉宁．儿语法关系　模块对文档进行分割　并将切分ｊ｝Ｉ『　阋爵存入词典中，而且将词语　解决汉语自动分词中的交集型妓义　计算机研究　０发展．１９９７、　出现的频；耘仔入词典中。　３４（５）：３３２—３３９．　２．１预处理模块　【４】邹海山．吴勇．吴月珠，陈阵．中文搜索引擎中的中文信息处理技　预处理模块的实现是比较简单的，它的关键问题是汉字的编码　术．计算机应用研究，２０００，１２：２２４－２２７．　和数据结构。在汉亨编码中．每个汉字由两个字节组成，并且将最　【５】周强．黄昌宁．汉语概率上二Ｆ文无关语法的自动推荐．　‘算机学　高位置“１”。这样要判断一个字符是否为汉字，就只要进行位运　报．１９９８，２１（５）：３８５．３９１．　算就可以判断。另外在这个系统中我们要计算某个字符出现的频　率，还要判断它是否能成词．它和其后相邻的字符共现的频率等。　作者简介：陈特放（１９５７一），男（汉族）．湖南涟源人、博士生导师．主要研　２．２词频统计模块　究方向为电力机车与故障诊断，交通信息工程及控制．计算机应用：朱小娟　词频统　模块足这个系统　个　Ｅ常关键的模块，它的实现算法　（１９８２一）、女（汉族），湖南怀化人．硕士，主要研究方向为计算机信息处理　与控制。　欢迎订阅　仪器仪表用户杂志　用户自己的刊物　双月刊　大１６开本　国内外发行　正文１２Ｏ页　介绍国内外最新技术与产品及应用　全国各地邮局均可订阅　邮局订阅代号：１　８—２２６　全年订价５２．８Ｏ元　欢迎订阅欢迎撰稿欢迎发布产品广告信息　Ｅ　ＪＣ　Ｖｏ１．１４　２００７　Ｎ０．３　７９　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文