IT学习站-137zw.com

作者: 馥琳
查看: 96|回复: 0

more +资源更新Forums

more +随机图赏Gallery

老周网络学院的 中级网络工程师视频教程老周网络学院的 中级网络工程师视频教程
微淼商学院的进阶视频课 全套微淼商学院的进阶视频课 全套
【网易云课堂2019】微专业 - Java高级开发工程师(完整版)【网易云课堂2019】微专业 - Java高级开发工程师(完整版)
筑龙建筑工程至尊套餐 相当强大的课程 完美筑龙建筑工程至尊套餐 相当强大的课程 完美
老鹰讲AE全套视频,市场价值232的AE全套完整版课程老鹰讲AE全套视频,市场价值232的AE全套完整版课程
Spring Boot编程思想核心篇+Spring 5核心原理与30个类手写实战pdfSpring Boot编程思想核心篇+Spring 5核心原理与30个类手写实战pdf

Python爬虫(学习准备)

Python爬虫(学习准备)

[复制链接]
馥琳 | 显示全部楼层 发表于: 2019-11-13 01:00:21
馥琳 发表于: 2019-11-13 01:00:21 | 显示全部楼层 |阅读模式
查看: 96|回复: 0

你还没有注册,无法下载本站所有资源,请立即注册!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
编码格式的认识:

  • 字符:各种文字和符号的统称
  • 字符集:多个字符的集合
  • 字符集包括:ASCII字符集,GB2312字符集,GB18030,Unicode字符集等
  • 1个字符ASCII编码占1个字节,用Unicode编码占2个字节
  • UTF-8是Unicode的实习方式之一,是一种变长的编码方式,可以是1,2,3个字节等

Python中字符串分为两种类型:

  • bytes:二进制,互联网上数据都是以二进制传输
  • str:unicode的呈现方式

str与bytes的转换:
encode()  #str->bytes
decode()  #bytes->str
Http和Https:
Http

  • 超文本传输协议
  • 默认端口号:80
Https

  • Http + ssl(安全套接字层)
  • 默认端口号:443
Https比http更安全,但是性能更低(耗时更长)

Url的形式:
Python爬虫(学习准备)  技术博客 1850558-20191112095919714-1273116243


http请求格式:
Python爬虫(学习准备)  技术博客 1850558-20191112100438063-1359709056


http常见请求头:
Python爬虫(学习准备)  技术博客 1850558-20191112102105131-2114070809


常见响应状态码:

  • 200:成功
  • 302:转移至新的url
  • 307:转移至新的url
  • 404:not found
  • 500:服务器内部错误

爬虫的分类:

  • 通用爬虫:通常指搜索引擎的爬虫
  • 聚焦爬虫:针对特定网站的爬虫

通用爬虫与聚焦爬虫的流程:
Python爬虫(学习准备)  技术博客 1850558-20191112103256159-1482472417


Robots协议:
网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取

浏览器发送Http请求的过程:
Python爬虫(学习准备)  技术博客 1850558-20191112120025644-211295067

浏览器渲染出来的页面与爬虫请求的页面不一样



来源:https://www.cnblogs.com/hhs1998/p/11841021.html
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
137zw.com IT学习站致力于免费提供精品的java技术教程和python技术教程,CCNA书籍/资料/CCNP书籍/资料教程/CCIE书籍/资料/H3C学习/认证/一级建造师考试/微软学习/认证/包括基础教程和高级实战教程,同时也提供分享网站源码下载和互联网相关一系列的技术教程,我们想做的就是让知识分享更有价值!(IT学习站官方唯一域名地址:www.137zw.com 请谨防假冒网站!)本站所有资源全部收集于互联网或网友自行分享,分享目的仅供大家学习与参考,如无意中侵犯您的合法权益,请联系本站管理员进行删除处理!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

浙ICP备19022368号-1|Archiver|手机版|IT学习站-137zw.com

GMT+8, 2020-4-4 22:50 , Processed in 6.231943 second(s), 52 queries .

快速回复 返回顶部 返回列表