如何防止搜索引擎spam
点击次数:29 次 发布日期:2008-11-23 19:23:17 作者:源代码网
|
源代码网推荐 源代码网推荐参加讨论的有好几个相当专业的朋友,我的抛砖引玉总算没有白费,下面整理一些上次讨论的记录。 源代码网推荐 源代码网推荐1. 什么是spam,seo? 源代码网推荐 源代码网推荐2. spam 和 seo 的差别和关系。 源代码网推荐 源代码网推荐3. spam 的种类 源代码网推荐a. 内容型(内容欺骗型与非欺骗型) b. 联结型 c. 复合型 源代码网推荐 源代码网推荐4. 搜索引擎如何判断spam 源代码网推荐a. 联结分析:网站(域名,IP)之间的联结,网页之间的联结的数目,应该限制在一定的数目内,并且要考虑分布的状况。 源代码网推荐b. 页面单一词汇的分析:页面单一词汇与页面全部词汇的比例和分布,当页面单一词汇集中在少数关键词上,有spam的嫌疑。 源代码网推荐c. 页面stopwords的分析:stopwords的比例和位置是一个高斯分布和均匀的。 源代码网推荐d. 页面连接页面的相似性分析:相互连接的页面几乎完全相似则有spam的嫌疑。 源代码网推荐e. 内容的贝叶斯分析:关键词之间的相关性可以从训练spam样本和非spam样本得到。例如页面里出现:免费,或者铃声下载都不能判断为spam,但是同时出现“免费”,“铃声下载”就极有可能是spam 源代码网推荐f. 相关分析:白名单,黑名单 源代码网推荐g. 留言陷阱:例如建立多个blog系统,开放一些文章的留言,内容上说明是专门针对spam留言。这样当一些自动留言程序进行留言后联结就被记录下来,成为一个“陷阱”。 源代码网推荐h. 非联结内容与正文的比例。就是正文里非联结的文字的比例,这一点我有所担心,因为现在的page rank采用两种page rank,一种是联结型网页,一种是内容型网页,如此判断很容易将联结型网页当做spam,例如 hao123.com 。 源代码网推荐 源代码网推荐5. 锅炉现象 源代码网推荐最难判断的是一种我们定义为“锅炉现象”的spam,这个我前一段时间曾经跟车东讨论过: 源代码网推荐武大郎对锅炉说。。。 源代码网推荐在众多的spam里,一种以替换文章中特殊词汇并加以联结的新类型spam难以从上述方法进行剔除。例如将水浒传里所有的武松替换成锅炉,并将锅炉进行联结到目标网站。 源代码网推荐 源代码网推荐讨论完毕后第二天一位朋友建议从上下文紧挨的上一个字和下一个字来进行分析,这个方法尚在探讨中。 源代码网推荐 源代码网推荐总结:spam已经严重影响了搜索引擎的质量,能否准确消除spam是提升搜索引擎质量的一个关键要素。 源代码网推荐 源代码网推荐这里挂一漏万,如有更多的方法和建议请告知。 源代码网推荐 源代码网推荐另外,推荐阅读:SVMs for the Blogosphere: Blog Identification and Splog Detection, P Kolari, T Finin, A Joshi - ebiquity.umbc.edu 源代码网推荐 源代码网推荐Posted at February 3, 2006 12:15 PM by Liang 源代码网推荐 源代码网推荐
源代码网推荐 源代码网推荐comments: 源代码网推荐 源代码网推荐不要重复同样的关键字超过6次,为了安全起见建议3次,否则搜索引擎会忽略你的网页或者 源代码网推荐得到惩罚。 不要罗列重复的相连的关键字,这很容易看出你在spam,比如,如果你有3个 源代码网推荐关键字,不应该如此排列: search,search,search,engine, ... 源代码网推荐 源代码网推荐seo地球人都知道。spam就是作弊的意思吧。 上一页12 下一页 源代码网供稿. |
