Scrapy

Posted by Liang's Blog on March 11, 2020

网页爬虫

请求(request)

请求方式

GET:请求信息包含在url中,可以直接通过输入对应url请求网页源代码 POST:请求信息包含在一个html的form中,需要构造一个表单发送请求才能获得对应网页源代码

URL 统一资源定位符

一个网页文档,一个图片都可以用以一个URL定义

请求头

浏览器信息

请求体

POST请求的具体form信息

响应(response)

响应状态(status_code)

. 200:成功 . 301:跳转 . 403:拒绝 . 404:找不到页面

响应头(headers)

内容类型,内容长度,cookies,服务器信息等

响应体(body)

最主要部分,包含请求资源的内容,网页源代码,图片等