文章目录
- 专栏导读
- 1、POST请求
- 2、响应
- 3、Cookie设置
专栏导读
✍ 作者简介:i阿极,CSDN 数据分析领域优质创作者,专注于分享python数据分析领域知识。
✍ 本文录入于《python网络爬虫实战教学》,本专栏针对大学生、初级数据分析工程师精心打造,对python基础知识点逐一击破,不断学习,提升自我。
✍ 订阅后,可以阅读《python网络爬虫实战教学》中全部文章内容,包含python基础语法、数据结构和文件操作,科学计算,实现文件内容操作,实现数据可视化等等。
✍ 其他专栏:《数据分析案例》 ,《机器学习案例》😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍
1、POST请求
我们了解了最基本的GET请求,另外一种比较常见的请求方式是POST。
使用requests库实现POST请求同样非常简单。
实例如下:
import requests
data = {'name':'germey','age':'25'}
r=requests.post("https://www.baidu.com/",data)
print(r.text)
结果如下:
2、响应
请求发送后,自然会得到响应。在上面的实例中,我们使用text和content获取了响应的内容。此外,还有很多属性和方法可以用来获取其他信息,例如状态码、响应头、Cookie等。实例如下:
import requests
r=requests.get('https://ssr1.scrape.center/')
print(type(r.status_code),r.status_code)
print(type(r.headers),r.headers)
print(type(r.cookies),r.cookies)
print(type(r.url),r.url)
print(type(r.history),r.history)
运行结果如下:
这里通过status_code属性得到状态码、通过headers属性得到响应头、通过cookies属性得到Cookie、通过url属性得到URL、通过history属性得到请求历史。
可以看到,headers和cookies这两个属性得到的结果分别是CaseInsensitiveDict和Requests-CookieJar对象。
3、Cookie设置
前面我们使用urllib库处理过Cookie,写法比较复杂,有了requests库以后,获取和设置Cookie只需一步即可完成。
我们先用一个实例看一下获取Cookie的过程:
import requests
r=requests.get('https://www.baidu.com')
print(r.cookies)
for key,value in r.cookies.items():
print(key+'m'+value)
运行结果如下:
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZm27315
这里我们首先调用cookies属性,成功得到Cookie,可以发现它属于RequestCookielar类型。然后调用items方法将Cookie转化为由元组组成的列表,遍历输出每一个Cookie条目的名称和值,实现对Cookie的遍历解析。
当然,我们也可以直接用Cookie来维持登录状态。
请求头中的Cookie内容,可以将这部分内容替换成你自己的Cookie,将其设置到请求头里面,然后发送请求,实例如下:
import requests
headers ={
"Cookie":"_octo=GH1,1.1849343058.1576602081;Ba=GA1,2.90460451.1576602111;Host-user session same site-nbOv62kHNJjp4NSKyQNYZ208waeqsngxFnFC88tnV7gTYOM_;device_id=a7ca73beOe8f1a81dle2ebb5349f9075;user_session-nbOv62kNjp4N5KyQNYZ20BwaeqsmNgxFnFC8BrnV7gTYQw_;logged_in-yes;dotcon user-Germey;tz-Asia%2FShanghal;has_recent_activity=1;gat=1;gh_sess-your_Session_info",
"User-Agent":'Mozilla/5.0(Macintosh;Intel Mac OS X i0_11_4) Applewebkit/537.36(KHTML,like Cecko)Chrome/53.0.2785.116 Safari/537.36',
}
r=requests.get('https://github.com/',headers-headers)
print(r.text)
可以发现,结果中包含了登录后才能包含的结果,其中有我的GitHub用户名信息,你如果尝试一下,同样可以得到你的用户信息。
得到这样类似的结果,说明用Cookie成功模拟了登录状态,这样就能爬取登录之后才能看到的页面了。
📢文章下方有交流学习区!一起学习进步!💪💪💪
📢首发CSDN博客,创作不易,如果觉得文章不错,可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗