网健天下 -> 医疗营销文章列表 -> 培训录音:搜索引擎工作原理之二:预处理

培训录音:搜索引擎工作原理之二:预处理

www.qqyy.cc2011-02-22网健天下网络科技

2 预处理(提取文字–>;中文分词–>;去除停止词–>;消噪–>;去重–>;正向索引–>;倒排索引–>;链接关系–>;特殊文件处理)

“预处理”简称为“索引”,索引是预处理最主要的步骤。

1.提取文字

搜索引擎预处理第一步:从HTML文件中去除标签、程序,提取页面文字。

提取特殊处理特殊代码(Meta标签、图片alt、Flash(fla—swf)、链接a)

2.中文分词

中文分词方法:词典匹配、基于统计。

正向匹配和逆向匹配。最大匹配和最小匹配。正向最大匹配、逆向最大匹配等不同方法。逆向匹配例子:搜索词“引起不射 精的原因有哪些”

3.去除停止词

出现频率高,对内容没任何影响的词被称为停止词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。

4.消噪

绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等,这些区块都属于噪声,对页面主题只能起到分散作用。

5.去重

搜索引擎还需要对页面进行去重处理。

6.正向索引

每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。这样的数据结构就称为正向索引。

7.倒排索引

倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。

8.链接关系计算

链接关系计算也是预处理中很重要的一部分。Google PR值就是这种链接关系的最主要体现之一。

9.特殊文件处理

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。

录音下载地址:

http://u.115.com/file/f186de351c