网站数据的采集及实践
|
源代码网整理以下 大家好,今天是传统的中国情人节2007年的七夕,祝大家节日快乐,特别要祝是守候在群的一线的光棍们有情人可度,有梦想可求。今天讲一下网站数据的采集及实践。 谁都知道,以前建个站都是辛辛苦苦地一个代码一个代码敲出来的, 那时的站长真是苦工中的苦工,后来就出来的许多的网站模板, 再后来出现了CMS即content manager system(内容管理系统),如动易、DEDE、phmcms等等,这种大大方便了网站的制作和内容的录入。 无疑一个网站的内容丰富性和趣味性是吸引用户的地方,所以图片站总是很火,特别是美女图片,如果想做一个站,复制粘贴肯定是不行的 一夜之间拥有几万张图片几万篇文章才是我们的梦想。那么实现的方式就是数据采集。 今天仅说下数据采集的一些基础东西,高手飘过,菜鸟认真的学,权当入门。 网上世界千奇百怪,各个站长都千方百计地研究如何吸引眼珠。这做站如同做文章,不可能把所有的东西都收罗进来,要懂得取舍 再好的内容与你的网站主题也要符合,即使垃圾站(即无原创内容大部分是采集他人内容的站)初期阶段可能不予计较,但时间长了,垃圾站的目标仍是把垃圾做成精品,否则就死定了。 源代码网整理以下如何选择好的内容,我认为要做好以下几个方面: 源代码网整理以下比如做轴承站的可以采集轴承新闻、轴承技术什么的,也可以大一点采集机械制造方面的,但不要太偏离了,就不要选择美女图片这样的内容,虽然这类内容吸引人,但一方面给人造成的感觉不专业,另一方面也容易被百度K。 如果你觉得非采这个不可。可以搞个二级域名的方式专门建个相对独立的站,如pic.xxx.com,和主站相对脱节。 字串7 源代码网整理以下②采集的内容的格式尽量统一。 源代码网整理以下采集工具不下几十种,如何选择适当的工具要看各位的爱好,其实学好一二种采集工具就可以了。 有cms系统自带的如帝国cms自带的采集, 有专门的采集的软件如火车头、小蜜蜂、贴探小黑、守望、三人行、ET等等,下面简单介绍一下: 字串9 源代码网整理以下①火车头采集软件,这个是最早的采集的软件,也是大名鼎鼎的采集软件, 软件安装有点麻烦,软件采用.net 架构,不过也容易搞定。 字串8 软件的优点很多,规则制订也相对简单,可以制订整个站的规则,也可以本地入库同步发布到网站。 缺点是发布模块不容易找,而且难于开发,对新手来说很难发布成功。 因为作者近半年都没更新,bug比较多,最新的V3.2快出来了,还是值得期待的。 源代码网整理以下④三人行 这个软件还是下了很多功夫的,界面有些粗糙,感觉不到位,有些作弊功能很不错,比如论坛同时在线、批量发贴等等 呵呵,平时很少用。由于作者的功利因素有很多不同名字的软件版本,功能基本一样,有些混乱。 源代码网整理以下⑤守望。这也是php的平台开发的,可直接安装在网站服务器上,直接采集到服务器上,这个比较好,免除了数据上传时间。 源代码网整理以下⑥ET。这个可谓后起之秀,比较好用,制订规则也简单灵活,但有的地方还不成熟。支持的系统还不多,不过潜力很大,新出的模拟提交,基本上绝大部分类型的采集都可做了。 源代码网整理以下采集用到的工具还包括抓包分析工具,如sniffer,wsockexpert等, 源代码网整理以下ASP的采集器。。。。 源代码网整理以下源代码分析工具,对于地址隐藏的网页用遨游自带的viewpage也挺好, 好象火车头3.2附带的新的源代码分析工具放出来了,对一些难采集的网站可以试试。 源代码网整理以下更深一步的还要学习破解ajax,就里就不介绍了。 第三个方面我讲采集数据的加工。数据采集来固然可以直接发布到网上去,但经过加工效果会更好。 数据的加工包括去掉别人的广告,换上自己的广告,过滤掉一些外站的链接 源代码网整理以下数据格式的简繁转换及编码转换 源代码网整理以下网站优化SEO处理等等 这里要注意的问题是别人广告一定要过滤干净,否则自己得不到广告费,别人的GG帐户也不安全,反而也害了别人。 还有SEO处理不要过份,适可而止,否则只会起反作用。 更高层次的采集是把采集内容变成自己的原创,这个需要高手自编程序对数据进行处理 源代码网整理以下目前为止还没见过这样的工具,不过有《疯狂作文》这样的软件出来,相信也不是做不到。 源代码网整理以下这个后续维护也可以翻陈出新,把已采集的数据进行再加工,添加新的关键字,新瓶也可以装旧酒。 源代码网整理以下通过我对几十个客户的采集教程,谈下我的体会。 采集内容要关注一定热度的内容, 字串7 源代码网整理以下比如QQ空间、QQ表情这些流量是很猛的, 源代码网整理以下还有私服发布站、游戏类型的网站, 有针对性群体的网站也比较好做。我一个客户一个月前采集的女性论坛站,数据有4万,现在基本在线在150人左右,日发新贴140篇 源代码网整理以下还有一个台湾客户2个月前采集的verycd电影站,现在日增新注册用户50左右,可见垃圾站还是有做头的。 源代码网整理以下大体内容就讲这些了,有什么需要了解的请朋友们提出来 源代码网供稿. |
