中文分词 Google VS Baidu
中文分词Google确实比百度不理想,可能是google对中文词组的分词方法上与百度不同。
比如我们分别在百度,google中输入网站推广, 百度当作一个词,google是分成 网站+ 推广,如果其中一个词的搜索结果PR值高就取高的排前。百度没有这个现象,在100名之后还是把4个字当作一个词来对待。同理,网络推广,google也是分成2个词。如果你已经有一个词在Google搜索结果中有比较好的排名,那么由这个词派生出来的词也相应会有不错的排名位置。这不知道算不算作弊。百度这招是否可行还有待检验。
百度制作的调侃Google的视频广告 “我知道你不知道我知道你不知道“
中文分词不比英文,英文有空格可直接分词,还有词组都成字典库了,中文的词汇组合多变,要想分好真不容易。我知道海量有个商业化的产品,用过的请评论下。
del.icio.us Digg it Earthlink Furl Netscape RawSugar Spurl Yahoo MyWeb