IT学习站-137zw.com

作者: 胡37
查看: 127|回复: 0

more +资源更新Forums

more +随机图赏Gallery

微专业 - Java高级开发工程师(完整版)微专业 - Java高级开发工程师(完整版)
价值348元 RabbitMQ消息中间件技术精讲2018视频教程 百度云价值348元 RabbitMQ消息中间件技术精讲2018视频教程 百度云
画画教程 SAI零基础合集(11套)202G  完整版课程分享画画教程 SAI零基础合集(11套)202G 完整版课程分享
喜马拉雅付费专辑 华语辩论冠军的思辩表达课 分享下载喜马拉雅付费专辑 华语辩论冠军的思辩表达课 分享下载
价值1169元 建设项目目标成本编制与投资收益测算 课程价值1169元 建设项目目标成本编制与投资收益测算 课程
医学生必备图谱及教材 蓝色生死恋全集奈特图谱十二本+黄...医学生必备图谱及教材 蓝色生死恋全集奈特图谱十二本+黄...

爬虫——cookie模拟登陆

爬虫——cookie模拟登陆

[复制链接]
胡37 | 显示全部楼层 发表于: 2019-11-14 08:35:00
胡37 发表于: 2019-11-14 08:35:00 | 显示全部楼层 |阅读模式
查看: 127|回复: 0

你还没有注册,无法下载本站所有资源,请立即注册!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
cookie适用于抓取需要登录才能访问的页面网站
cookie和session机制

http协议为无连接协议,cookie: 存放在客户端浏览器,session: 存放在Web服务器

人人网登录案例

方法一:登录网站手动抓取Cookie

1、先登录成功1次,获取到携带登陆信息的Cookie
   登录成功 - 个人主页(http://www.renren.com/971989504/profile) - F12抓包 - 刷新个人主页 - 找到主页的包(home)
  一般cookie都在all--> home 数据包中,
2、携带着cookie发请求方法二:requests模块处理Cookie

requests模块提供了session类,来实现客户端和服务端的会话保持​
1、实例化session对象
   session = requests.session()
2、让session对象发送get或者post请求
   res = session.post(url=url,data=data,headers=headers)
   res = session.get(url=url,headers=headers)​

3. 思路梳理
浏览器原理: 访问需要登录的页面会带着之前登录过的cookie
程序原理: 同样带着之前登录的cookie去访问 - 由session对象完成
1、实例化session对象
2、登录网站: session对象发送请求,登录对应网站,把cookie保存在session对象中
3、访问页面: session对象请求需要登录才能访问的页面,session能够自动携带之前的这个cookie,进行请求
具体步骤
1、寻找登录时POST的地址
  在登陆界面查看网页源码,查看form表单,找action对应的地址: http://www.renren.com/PLogin.do
2、发送用户名和密码信息到POST的地址
   * 用户名和密码信息以字典的方式发送
     键 :标签中name的值(email,password)
     值 :真实的用户名和密码
     post_data = {'email':'','password':''}
程序实现
1、先POST: 把用户名和密码信息POST到某个地址中
2、再GET: 正常请求去获取页面信息方法三

1、把抓取到的cookie处理为字典
2、使用requests.get()中的参数:cookies


来源:http://www.137zw.com
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
137zw.com IT学习站致力于免费提供精品的java技术教程和python技术教程,CCNA书籍/资料/CCNP书籍/资料教程/CCIE书籍/资料/H3C学习/认证/一级建造师考试/微软学习/认证/包括基础教程和高级实战教程,同时也提供分享网站源码下载和互联网相关一系列的技术教程,我们想做的就是让知识分享更有价值!(IT学习站官方唯一域名地址:www.137zw.com 请谨防假冒网站!)本站所有资源全部收集于互联网或网友自行分享,分享目的仅供大家学习与参考,如无意中侵犯您的合法权益,请联系本站管理员进行删除处理!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

浙ICP备19022368号-1|Archiver|手机版|IT学习站-137zw.com

GMT+8, 2020-7-4 10:49 , Processed in 0.250818 second(s), 32 queries .

快速回复 返回顶部 返回列表