中文分词

以下是我收集到的中文分词,有的提供算法,有的提供在线分词,还有源代码下载。

猎兔中文分词
可以在线分词,效果还不错
http://lietu.com/demo/KeyWords.jsp  

卢亮的中文分词
根据他设计的词典进行中文分词,可惜现在网站上不能测试效果了。
http://www.wespoke.com/archives/000898.html

Zbno工作室
该站提供JAVA源代码和词库,他们运用该技术进行论坛搜索。
http://www.zbno.com/seg.jsp

闪人互动
可以在线进行分词,效果还不错。
http://www.flashman.com.cn/blog/showlog.asp?cat_id=36&log_id=694

雨痕 C#开发的.net 中文分词组件
http://www.rainsts.net/article.asp?id=48,组件和演示程序都可下载

海量分词研究版
http://www.hylanda.com/cgi-bin/download/download.asp?id=8

vipcn上看到的文章,没有具体作者信息
简单分词算法
分词程序的设计思想
http://www.vipcn.com/InfoView/Article_80378.html

天堂的阶梯
一个比较独特的论文级别的分词算法,主要针对医药专业只有算法,没有代码
http://xiecc.itpub.net/post/1476/52479

Google黑板报上的中文分词 简单介绍了google使用的分词数学模型
http://googlechinablog.com/2006/04/blog-post_10.html

微软关于中文分词应用的文章,微软的中文分词系统WB2000, 它作为Office2000中文版中的一个基本模块被许多中文功能所运用。举例说明微软中文分词的应用。
http://www.microsoft.com/china/rdcenter/info/result/chinese.asp

对中文分词有兴趣的朋友,可以阅读以下文献:

1. 梁南元
书面汉语自动分词系统
http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf

2. 郭进
统计语言模型和汉语音字转换的一些新结果
http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf

3. 郭进
Critical Tokenization and its Properties
http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf

4. 孙茂松
Chinese word segmentation without using lexicon and hand-crafted training data
http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775

5.《汉语信息处理词汇01部分;基本术语(GB12200.1-90)》,中国标准出版社,1991

6 . 朱德熙《语法讲义》,商务印书馆,1982

7 . GB/T13715-92《信息处理用现代汉语分词规范》,中国标准出版社,1993。

del.icio.us Digg it Earthlink Furl Netscape RawSugar Spurl Yahoo MyWeb

1条评论 »

  1. shunshun said,

    二月 29, 2008 @ 11:45 am

    对这个“Zbno工作室
    该站提供JAVA源代码和词库,他们运用该技术进行论坛搜索。
    http://www.zbno.com/seg.jsp”非常感兴趣,可是好像打不开,不知道可不可以发给我呢?谢谢

RSS feed for comments on this post · TrackBack URI

Leave a Comment

Geo Visitors Map