网健天下 -> 医疗营销文章列表 -> 数学在搜索引擎计算模型中的应用

数学在搜索引擎计算模型中的应用

www.qqyy.cc2011-02-22网健天下网络科技

搜索引擎计算模型主要是数学公式的运用,如向量空间模型、矩阵、次线性字符串的匹配计算以及链接权重的递归计算等等,搜索引擎是将我们所看到的文档数据化,根据一系列的公式对不同来源的数据进行处理,最后排数值大小排序而给出我们所见到的排序结果。

其实这些计算公式并不如我们想象中的复杂,有一些是高中数学的一些内容,如在搜索引擎计算模型中起分类聚类及相似性比对的向量空间模型。下面为大家简单的介绍下向量空间模型如何在比对文档相似性计算中运用的。

我们现在熟知的搜索引擎是基于第二代搜索引擎的概念,即基于关键词的索引,大家知道百度正是运用这一原则,将一篇文档先分割成词的集合,再对不同的词根据对语义贡献值的大小标注一个权重,定义一个阀值,将权重小于阀值的词剔出,选取权重最大的N个词代表整个文档。

因此,每一篇文档都可以用几个权重较高的词予以表示,同样,用户提交的检索语句也能经过分词处理成权重不同的词的集合,根据向量空间原理,将每一个有权重的词依据一定的规则映射到向量空间中,这样每篇文档都能构成一个特有的向量空间位图,于是比较两篇文档的相似性就转变成了数学计算。

若两篇文档很相似,则这两篇文档构成的向量空间模型相似度就很高,反之相似度就低。于是通过这一方法能有效的对一篇新抓取的文档进行分类,也能根据用户提交的检索词计算出文档与检索词相关性的高低并进行排序。

当然,这里只简单的考虑了文档相似性对排序的影响,事实上,还要参考许多其他因素,比如时效性,实际用户点击量等,但这些也都是一些数学计算模型,如果网站推广人员能对这些计算模型有一定了解,对网站优化能起到极为有效的作用。