时间:2020-10-06来源:www.pcxitongcheng.com作者:电脑系统城
对于请求一些网站,我们需要加上请求头才可以完成网页的抓取,不然会得到一些错误,无法返回抓取的网页。下面,介绍两种添加请求头的方法。
方法一:借助build_opener和addheaders完成
?1 2 3 4 5 6 7 8 9 |
import urllib.request url = "http://www.meizitu.com" #注意:在urllib 中headers是元组 headers = ( "User-Agent" , "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE" ) opener = urllib.request.build_opener() opener.addheaders = [headers] data = opener. open (url) print (data.read()) |
注意:此处的headers要写为一个元组类型才可以。写为字典类型的话会报错!
方法二、创建一个Request实例对象
?1 2 3 4 5 6 7 8 9 10 |
# 案例1 import urllib.request url = "http://www.meizitu.com" #注意:在urllib 中这种的headers 是需要是字典的 headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE" } req = urllib.request.Request(url = url,headers = headers) file = urllib.request.urlopen(req) #出现有些解码错误的话,加上“ignore”就可以啦 print ( file .read().decode( "utf-8" , 'ignore' )) |
注意:此处的headers要写为一个字典类型才可以。
创建一个Reques对象,把需要的headers,url,proxy 都放进去,或者在post 请求中还可以把编码过后的data 值放进去,再用urlopen 打开,就比较方便了。
另外,这种方法还可以用add_headers()来添加headers,代码如下:
?1 2 3 4 5 6 7 8 9 10 11 |
import urllib.request try : url = "http://www.meizitu.com" req = urllib.request.Request(url = url) req.add_header( "User-Agent" , "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE" ) file = urllib.request.urlopen(req,timeout = 10.1 ) print ( file .read().decode( "utf-8" , 'ignore' )) except Exception as e: print ( "时间超时" , str (e)) |
总结:通过以上两种方法,可以完成请求头的相关参数设置,但是得注意headers是用字典类型来传入还是元组类型。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。
2023-03-17
python flask项目打包成docker镜像发布的过程2023-03-17
python调试模块ipdb详解2023-03-17
python使用openai生成图像的超详细教程python cron定时任务触发接口自动化巡检 apscheduler报错:Run time of job …… next run at: ……)” was missed by misfire_grace_time参数 找到任务超时的根本原因...
2023-03-15