如何采集需要验证码登录的网站
点击次数:34 次 发布日期:2008-11-16 09:50:47 作者:源代码网
|
源代码网整理以下 今天在用迅雷下载资源的时候突然想到一个问题,就是采集需要验证码登录的网站的问题,普通的采集方式都不能获得cookies,所以对于此类网站普通采集方法都无效了。但是迅雷可以获取cookies,于是一个新的采集需要验证码登录的网站的方法出来了。 源代码网整理以下 首先注册登录你所需要采集的网站,比如http://www.xxxx.com/ ,然后用迅雷的批量下载需要采集的页面,批量规则为 http://www.xxxx.com/(*)a1a1.html ,然后把登录后的网页全部都下载下来,放到一个目录里面,然后把它们上传到你的网站的根目录,最后用你的采集系统来采集自己网站的这个目录里面的有规则的html文件即可。 源代码网整理以下 本方法操作起来没有一键采集那么方便就是,欢迎大家拍砖! 源代码网供稿. |
