搜索引擎如何判断核心内容的思考
|
源代码网整理以下搜索引擎蜘蛛把页面代码送回搜索引擎服务器后,SE是如何判断页面中最核心的内容呢? 源代码网整理以下先说下Kyw认为的搜索引擎运作过程的前几个步骤: 源代码网整理以下1. 蜘蛛下载A页面,送回服务器; 源代码网整理以下2. 服务器寻找A页面的核心内容位置,然后去除HTML代码; 源代码网整理以下3. 寻找网页核心内容;…… 源代码网整理以下我不确定GOOGLE、百度、YAHOO!是否真的有“判断核心内容”这个步骤,但我相信一定有类似的运算机制,因为如果没这个步骤,搜索引擎将耗费大量资源做重复运算。当然KYW不是搜索引擎工程师,下面只是对搜索引擎的一些思考。 源代码网整理以下SE面对一整页HTML代码,如何判断核心内容在哪里呢? 源代码网整理以下第二步:去掉有大量链接的部分。经过这步,“相关文章”“推荐文章”等都被去掉了,剩下一些包含文字内容的代码。 源代码网整理以下第三步:在剩余的代码中判断哪段标签(可能是DIV、TABLE、P或其它标签)中的文字内容最多,因为一般核心内容的文字量会比较多。 源代码网整理以下每个页面经过上面3个步骤,应该就能顺利的判断出核心内容所在的位置。经过这样的思考,我们也许可以这样总结: 源代码网整理以下1. 同目录下的页面,最好模板一样。 源代码网整理以下2. 核心内容文字量不能太少,特别是企业站和B2C网站,只放价格和包含大量说明文字的图片是很不好的。 源代码网整理以下3. HTML代码中如果错误很多,可能会影响排名,因为搜索引擎可能在判断核心内容的时候出差错。 源代码网整理以下4. 期待你的补充 ^_^ 源代码网整理以下Kyw把SEO的主要工作理解成帮助搜索引擎更高效的理解网站及页面的内容,所以建议大家有事没事琢磨琢磨搜索引擎,问题想透的越多,SEO的手法也就更加随机应变了。当然也没必要钻牛角尖,有想不通的问题就到我这留言吧。 源代码网整理以下原文:http://www.seotest.cn/blog/se-panduan-hexin.html 源代码网供稿. |
