|
HITS算法是Web构造挖掘中最具有权威性和使用最广泛的算法。其基本思想是应用页面之间的援用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法通过两个评价权值内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所援用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,援用越多高质量页面的网页,其链接权威度越高。HITS算法以为对每一个网页应该将其内容权威度和链接权威度分开来思索,在对网页内容权威度做出评价的根底上再对页面的链接权威度进行评价,然后给出该页面的综合评价。
然而HITS算法也有其清楚的缺乏。首先,它完全将网页的内容或文本扫除在外,仅思索网页之间的链接构造来剖析页面的权威性,这与理想网络中的权威页面相比,其不科学性显而易见。
因为权威页面必须针对某一主题或关键词而言。某一页面对一确定主题的具有较大权威性的页面并不意味在其他与其无关的主题方面同样具有权威性。其次一个页面对另一页面的援用有多种情况,其中包括了一页面对另一页面的认可,但除此之外也有其他目的链接,如为了导航或为了付费广告。而HITS算法在实现过程中均没有思索以下情况.招致了结果与目标的差距。就HITS算法的思想与实现过程做了细致的研究与概括。
针对前面第一种缺乏,就有相关的学者提出了一种应用超链文字及其周围文字与关键字相匹配而计算超链权值的方法,并引入系数对周围文字和超链文字进行权值的绝对控制,很好地将页面文本信息引入到HITS算法,提高了算法的可靠性,并在理想中取得了很好的效果。对HITS算法的第二个缺乏,即非正常目的的援用.在HITS算法看来,也误以为是正常援用,招致实践结果与目标的出入。
后来,经过不时的改进。HITS算法又引入了时间参数,即应用对一链接援用的时问长短来评价是否为正常援用。因为非正常链接其援用时问肯定不会很长(如交换链接、广告链接),相反,假如一页面对另一页面的链接时间较长,则肯定反映此页面就是用户的寻找页面。即目标页面或至少是正常援用。
假如设定时间阀值,则可以将非正常援用的链接在HITS算法的实现过程中挑选出来。如设定拜访时间少于1分钟者为非正常援用。另外可构造时间拜访函数,控制权威页面的绝对大小。如随拜访时间的增大而其权威性也逐渐非线性增大.这样可为HITS算法的权威页面提供更合理、更科学的解释。
链接波动性,在外部链接的建设中,占据十分重要的位置。思亿欧在SEO链接的波动性 URL:seo/seo-stability.html一文中,就强调过链接越波动,对排名的帮助就越大。
文章由 ychycbw.com 卡富亚家具 整理,收集辛苦,希望能保留出处,谢谢斑竹大哥。 |
|