百度搜索引擎基于指纹算法(MD5)判断文章是否原创

已有 1684 人阅读此文 | 2016-03-05 08:23 | 来源: 刘传鹏博客 | 作者: 刘传鹏

百度搜索引擎使用指纹算法(MD5)来判断不同网页的内容是否相同

搜索引擎优化(SEO)是网络营销中最重要方法之一,网站索引量就成为关键指标之一。需知道提高索引量,网页上内容就不能有较大的重叠。

百度蜘蛛怎么知道不同网页中的内容是否相同呢?

当百度蜘蛛在收录网页的时候,会根据收录的网页计算出该网页的信息指纹。通过文章的信息指纹来判断不同网页之间的内容是否相同。下面让我们具体了解下,百度蜘蛛如何计算网页的信息指纹的。

关于算法的基本问题

1、什么是信息指纹?

信息指纹就是把网页里面正文信息使用中文分词技术提取为关键字、词、句子或者段落及其在网页上对应的权重等,然后进行加密,如MD5加密,从而形成的一个字符串。

2、网页上所有的内容都进行解析吗?

不是,搜索引擎会对网页上的内容,先去停止词、去噪声等过程之后剩下的文本。

关键词计算文档指纹的基本流程

文档指纹提取

 

基于关键词的计算信息指纹的算法

其实计算信息指纹主要使用MD5算法。MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法)。将数据(如汉字)运算为另一固定长度值,是杂凑算法的基础原理,MD5的前身有MD2、MD3和MD4。MD5的作用是让大容量信息在用数字签名软件签署私人密钥前被”压缩”成一种保密的格式(就是把一个任意长度的字节串变换成一定长的十六进制数字串)。

百度蜘蛛先使用中文分词技术计算出网页上的关键词以及对应的频率,然后提取最常用的关键词(一般10个就足够了),根据提取的关键词计算出该网页的信息指纹。

下面我们用伪代码来描述这个过程,为了方便理解算法约定几个变量:

Pi表示第i个网页;

Ti={t1…tn}表示Pi中频率最高的n个关键词;

Wi={w1…wn}表示Ti中对应的关键词出线的频率;

Des(Pi)表示Pi上的摘要信息;

Con(Ti)表示Ti中关键词拼成的字符串;

Sort(Ti)表示Ti中关键词排序后组成的字符串

基于关键词的相似度判断方法有以下5中:

1、先对信息指纹变量Ti ,Wi,Des(Pi),Con(Ti),Sort(Ti)5个变量使用MD5算法加密

2、判断信息指纹是否相同:

If( MD5(Des(Pi)) = MD5(Des(Pj)) ) {Pi和Pj内容相同;}

If( MD5(Con(Ti)) = MD5(Con(Tj)) ) { Pi和Pj内容相同;}

If( MD5(Sort(Ti))=MD5(Sort(Tj))) { Pi和Pj内容相同;}

If( MD5(Con(Ti))=MD5(Con(Tj)) ?&& (Wi-Wj)?/(Wi2+Wj2)<阙值a) { Pi和Pj内容相同;}

If( MD5(Sort(Ti))=MD5(Sort(Tj)) ?&& (Wi-Wj)?/(Wi2+Wj2)<阙值a) { Pi和Pj内容相同;}

第4和第5的阙值a,搜索引擎会根据网页权重进行调节;

以上只是简单的介绍了指纹算法,实际情况基本相同,知道了搜索引擎是如何做内容相同判断的,那么伪原创就比较简单了。祝大家网站秒收!

本文地址: http://liuchuanpeng.com/wangluoyingxiao/165.html

已有 0 人评论 网友评论

必填

选填

选填

刘传鹏博客|专注分享互联网商业模式和网站运营推广策略的博客