WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码

企业采购 个人使用

搜索引擎反作弊的三个思路@rude

时间:2015-06-02 13:06:37

前篇文章，提到了内容农场与链接农场，这些都是相对较为传统的作弊方式。至于其他，后面有时间我们再一一罗列。既然有作弊，为了维持良好的展现结果，搜索引擎也会有反作弊。

那么，搜索引擎会通过怎样的方式进行反作弊处理呢？

总的来说，会有以下三种思路：

1、信任传播模型

前段时间同事A跟我说了一件事儿，他的姐姐B在国外留学，然后B在qq上跟A说洗衣服把手机，银行卡什么的全部洗了，让A给B的老妈打电话寄点钱来，A立刻执行，B的老妈也深信不疑，在即将打出的那一刻，B的一个电话，挽救了即将发生的损失。

细思恐极。

其实，这也是一个信任传播模型，直接在QQ上跟B的妈妈说，B的妈妈必然不会完全相信，但是经由A的口一传，立刻不一般。因为，A在B的妈妈的信任名单中。

OK，由此而来，是一种反作弊的思路。

在海量的网页数据中，通过技术或人工的手段，获取值得完全值得信任的网页设置为白名单。白名单中网页的信任值由链接顺着向外扩散而递减或者衰减。然后，设定一个值，高于此值，是OK的网页，低于此值，不好意思，你作弊了。

2、不信任传播模型

这个，其实跟种思路是及其类似的，找到一群作弊的网页，然后通过链接关系分析不信任分值。

一点需要注意的是，信任分值，是通过链接正向传递的，不信任分值是通过链接反向传递的。举个例子：

A为垃圾页面，则指向A的链接B是垃圾页面的概率比A指向的链接C的概率要大的多。

3、异常发现模型

所谓异常，可以是作弊页面的特征，也可以是正常页面的特征。

集合了这些特征，再由此来判定一个页面是否作弊或者是否正常，也是蛮OK的一件事情。

来个简单的识别链接农场的小例子：

链接农场中的链接关系，是由设计者精心布置的，由此一来，必然会有些违背自然的特征，诸如：

1）、出链与入链的统计分布规律：正常的页面出链与入链满足Power-law分布，作弊的链接违反该分布；

2）、作弊的链接的Url网址往往过长，包含较多的点画线及数字等；

3）、诸如入链及出链的增长率等，正常网页和作弊网页在这些变化模式上是不同的。