网健天下 -> 医疗营销文章列表 -> 百度分词算法的误区

百度分词算法的误区

www.qqyy.cc2011-02-22网健天下网络科技

众多医院网站推广人员对SEO的认识还停留在关键词优化的阶段,但关键词的理解也有很多人并不是很明白。例如百度分词算法。

对于百度来说不存在关键词的概念,精确来说是索引词,因为对于一些关键词来说并不符合百度的计算规则,百度需要对语料进行处理,整理出索引词并映射到相关文档。

分词对某些SEO人员来说并不陌生,但对有些初入行的朋友来说可能是一个全新的概念,那这里就大致的解释一下。

所谓分词呢,针对中文来说相对英语来说要复杂一些,因为英文单词间有空格作为明显的界限,而且词语间的构句形式是一定的。中文则不同,中文一句话的每个汉字间并无明显的记号区分,而且大部分有意义的词是由两个或多个以上的单字构成的,并且多个词构成句子的形式繁杂多变,无固定模式,这就给分词带来了相当大的难度。

现在采用的分词法一般是机械分词法,也即依赖词典的分词方法。这种方法解决了中文分词的难点,但也有一定局限性,即计算的时间和空间复杂度高,而且对新词不敏感,当然,也无法从语义上对检索结果进行拓展,如检索中国和中华人民共和国得到的结果就完全不同。

以上简单的说下了分词的原理,所以这里告诉那些刚入行的SEOER们,不要抓着关键词不放。要对关键词进行分词处理。

对于某些SEOER来说,懂得了分词却又走进了分词的误区,他们往往按照人脑的思想去对自己操作的关键词。举个简单的例子:某站长要做一个北京天翔钥匙扣的网站(随便举的一个例子),选北京天翔钥匙扣做关键词,于是他觉得百度分词应该是北京/天翔/钥匙扣。懂搜索引擎的人一眼就能看出他这种分词完全是基于自己头脑中的一套分词理论,而不是百度实际的情况。按照这种方法去操作关键词也肯定收不到很好的效果。

而且分词中还涉及到一个词干的问题,对于一个关键词分出的词权重也是不同的,这个涉及到香农的信息论,比如还是拿上面的这个例子来说:“北京”这个词的信息熵过低。

所以,做网站推广的人员应该熟悉百度分词算法,才能游刃有余的对网站关键词排名进行操作。