网页爬虫
请求(request)
请求方式
GET:请求信息包含在url中,可以直接通过输入对应url请求网页源代码 POST:请求信息包含在一个html的form中,需要构造一个表单发送请求才能获得对应网页源代码
URL 统一资源定位符
一个网页文档,一个图片都可以用以一个URL定义
请求头
浏览器信息
请求体
POST请求的具体form信息
响应(response)
响应状态(status_code)
. 200:成功 . 301:跳转 . 403:拒绝 . 404:找不到页面
响应头(headers)
内容类型,内容长度,cookies,服务器信息等
响应体(body)
最主要部分,包含请求资源的内容,网页源代码,图片等