写一个简单的爬虫
<div id="cnblogs_post_body">清除浏览器保存的 cookiechrome 是这个地址:chrome://chrome/settings/cookies,搜索如163,然后remove all
firefox 是 Edit -> Preferences -> Privacy -> remove individual cookies
(或许还需要关闭已经登录的网页)
查看完整的登录过程
chrome 的 Developer Tools 由于会随着 url 的跳转发生改变,不能查看到完整的登录过程
firefox 的 httpfox 插件可以捕捉到完整的登录过程
以163的登录过程为例:
chrome 捕捉到的依次为:next.jsp, main.jsp, master.css等
http://pic002.cnblogs.com/images/2012/429451/2012110417321751.png
firefox 捕捉到的依次为:logins.jsp, next.jsp, main.jsp, master.css等
http://pic002.cnblogs.com/images/2012/429451/2012110417040591.png
chrome 的 Developer Tools 漏掉了一个最关键的 login.jsp
因此模拟网站的登录过程,以 firefox 为主,完整捕捉登录过程;用chrome 辅助查看分析,可以很方便地看到整体的情况,也很方便复制。
tips:如果看到Request Headers里带有Cookie,说明前面还有一步获取Cookie的过程。
分析登录过程
第一步的 https://reg.163.com/logins.jsp,post 的数据有三个,其中有username, password,都是明文的。
试试在 url 后面加上 post 的数据看看会发生什么,https://reg.163.com/logins.jsp?username=abcdefg@163.com&password=1234567,将username, password 换为自己的,登录成功。
http://pic002.cnblogs.com/images/2012/429451/2012110417152062.png
1、可以用post方法带上post的数据访问url;
2、也可以用get方法直接访问加了post数据的url;
3、还可以直接复制 chrome 的 Developer Tools 中最终跳转的页面的 headers,带那个headers访问该页面,如:
http://pic002.cnblogs.com/images/2012/429451/2012110417353517.png
登录成功后,保存返回的cookie,后续操作带着该cookie访问即可。
原文:http://www.cnblogs.com/congbo/archive/2012/11/04/2753961.html
页:
[1]