网页权威性是搜索引擎对结果进行排序的一个重要参考因素。
计算网页权威性时,将参与计算的所有网页作为一个集合,并通过集合内网页之间的链接关系迭代计算网页的权威性。
但是随着互联网的发展,互联网上的网页越来越多,如果将互联网上所有网页都作为参与权威性计算的网页,则对计算系统的架构要求非常高,因此通常仅挑选各网站与外部网站存在链接关系的网页作为参与权威性计算的网页,但是现有技术的这种方式,会导致各网站内部的一些优秀网页无法得到权威性值,此外,也会影响参与计算的网页得到的权威性值的准确性。
为了改善上述问题,现有技术有一种做法,是将网站内与外部网站存在链接关系的网页,以及网站内的一些重要网页一起提取出来,作为参与网页权威性计算的网页。
在现有技术中,是通过网站中网页的站内反链数量来确定网页的重要性的,例如将网站中站内反链数量大于设定阈值的网页提取出来,如果这些网页所指向网页的站内反链数量也大于设定阈值,则将这些网页及所指网页作为重点网页。但是这种现有技术的方法,召回率较低,准确性也较差。
新算法权威度调整
1.网页中的所有链接提取出来
2.对网站所有链接进行拆分重组排列(源代码里最近的链接组成)3.从各个链接(内链)中进行匹配出现值最高的链接 例:多次A链接B,或不同ABC链接D4.有一个预定的阀值,如果不超过阀值那么将归类于普通页面,如没有任何重点页面(入口页)则仅留下首页为重点页面.
5.重点链接是有数量上限,取决于链接对最多的页面权威性,页面权威性越高,重点页面的数量就越高,比例通常在10-30%浮动,也就是一万个页面,可以出现1000-3000的参与排名的页面。
6.百度训练模型将对链接对进行一次匹配分类,区分重要程度。
7.百度训练模型的对链接进行重要链接比对和非重要链接比对8.对重要链接进行分类特征对比,以确定重要链接的参数范围和特征范围。
9.百度会对链接先进行参数范围和特征范围匹配,然后在进行重要程序分级。
10.内链和反链的出面度是根据数量来决定,如果一个页面有3个内链,那么他的出面度就是311.对重要页面的深度进行说明,从首页跳转到对应页面的最短次数,这个次数被定义为深度,重要页面的深度会一定程度的影响页面属性。
12.内链指向重要页面的锚文本总数,是根据切词组成,也就是例如抽动症治疗页面指向给了抽动症,那么抽动症这个页面的锚文本总数就是3个,抽动症治疗,抽动症,治疗。3个锚文本。
13.根据重点页面相互连接生成网站骨架,以定义网站的类型总结:页面的权威度由页面的深度,被指向内链的深度对比,锚文本词频、页面出度、两个页面深度之间的差值来综合评比页面权威度。
总结:页面的权威度由页面的深度,被指向内链的深度对比,锚文本词频、页面出度、两个页面深度之间的差值来综合评比页面权威度。