常用中文分词ITeye - 超凡娱乐

常用中文分词ITeye

2019-01-14 05:07:48 | 作者: 运浩 | 标签: 分词,中文,运用 | 浏览: 695

常用中文分词

1. 厨子解牛分词包,适用于与Lucene整合。http://www.oschina.net/p/paoding
    厨子中文分词库是一个运用Java开发的,可结合到Lucene运用中的,为互联网、企业内部网运用的中文查找引擎分词组件。
    Paoding填补了国内中文分词方面开源组件的空白,努力于此并希望成为互联网网站首选的中文分词开源组件。 Paoding中文分词寻求分词的高效率和用户杰出体会。
    Paodings Knives 中文分词具有极 高效率 和 高扩展性 。引进隐喻,选用彻底的面向对象规划,构思先进。
    高效率:在PIII 1G内存个人机器上,1秒 可精确分词 100万 汉字。
    选用依据 不约束个数 的词典文件对文章进行有用切分,使能够将对词汇分类界说。
    能够对不知道的词汇进行合理解析

2. LingPipe,开源自然言语处理的Java开源工具包。http:/alias-i.com/lingpipe/
    功用十分强壮,最重要的是文档超级具体,每个模型甚至连参阅论文都列出来了,不只运用方便,也十分合适模型的学习。
    主题分类(Top Classification)、命名实体辨认(Named Entity Recognition)、词性标示(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写查看(Query Spell Checking)、爱好短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符言语建模(Character Language Modeling)、医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)、数据库文本发掘(Database Text Mining)、中文分词(Chinese Word Segmentation)、情感剖析(Sentiment Analysis)、言语区分(Language Identification)等

3. JE分词包
4. LibMMSeg http://www.oschina.net/p/libmmseg
    选用C++开发,一起支撑Linux渠道和Windows渠道,切分速度大约在300K/s(PM-1.2G),到当时版别(0.7.1)。
    LibMMSeg没有为速度细心优化过,进一步的提高切分速度应仍有空间。
5. IKAnalyzer http://www.oschina.net/p/ikanalyzer
    IKAnalyzer依据lucene2.0版别API开发,完成了以词典分词为根底的正反向全切分算法,是LuceneAnalyzer接口的完成。
    该算法合适与互联网用户的查找习气和企业常识库检索,用户能够用语句中包含的中文词汇查找,如用"公民"查找含"公民币"的文章,这是大部分用户的查找思想;
    不合适用于常识发掘和网络爬虫技能,全切分法简单形成常识歧义,因为在语义学上"公民"和"公民币"是彻底搭不上联系的。
6. PHPCWS http://www.oschina.net/p/phpcws
    PHPCWS 是一款开源的PHP中文分词扩展,现在仅支撑Linux/Unix体系。

    PHPCWS 先运用“ICTCLAS 3.0 共享版中文分词算法”的API进行初度分词处理,再运用自行编写的“逆向最大匹配算法”对分词和进行词语兼并处理,并添加标点符号过滤功用,得出分词成果。

    ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院核算技能研究地点多年研究工作堆集的根底上,依据多层隐马模型研制出的汉语词法剖析体系,主要功用包含中文分词;词性标示;命 名实体辨认;新词辨认;一起支撑用户词典。ICTCLAS通过五年精心打造,内核晋级6次,现在现已晋级到了ICTCLAS3.0,分词精度 98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组安排的评测中活动获得了第一名,在第一届世界中文处理研究机构SigHan 安排的评测中都获得了多项第一名,是当时世界上最好的汉语词法剖析器。

    ICTCLAS 3.0 商业版是收费的,而免费供给的 ICTCLAS 3.0 共享版不开源,词库是依据公民日报一个月的语料得出的,许多词语不存在。所以自己对ICTCLAS分词后的成果,再选用逆向最大匹配算法,依据自己弥补的 一个9万条词语的自界说词库(与ICTCLAS词库中的词语不重复),对ICTCLAS分词成果进行兼并处理,输出终究分词成果。

    因为 ICTCLAS 3.0 共享版只支撑GBK编码,因而,如果是UTF-8编码的字符串,能够先用PHP的iconv函数转换成GBK编码,再用phpcws_split函数进行分词处理,最终转换回UTF-8编码。

版权声明
本文来源于网络,版权归原作者所有,其内容与观点不代表超凡娱乐立场。转载文章仅为传播更有价值的信息,如采编人员采编有误或者版权原因,请与我们联系,我们核实后立即修改或删除。

猜您喜欢的文章

阅读排行

  • 1

    PHP多态ITeye

    多态,目标,不同
  • 2
  • 3
  • 4

    调用体系程序(转)ITeye

    进程,咱们,程序
  • 5
  • 6

    puttyITeye

    保存,用户名,暗码
  • 7

    1001ITeye

    小数点,个数,位数
  • 8
  • 9
  • 10

    vim装备ITeye

    文件,设置,状况