Python----Urllib的学习

测试积点老人 · 发表于 2019-1-10 16:28:15

Urllib库

Urllib库的定义：Urllib库是Python提供来操作URL的模块。

1.Python2.X 和 Python3.X的区别：Python2.X中包括Urllib库、Urllib2库，而在Python3.X中，将Urllib2合并到Urllib中。

Python2.x到Python3.X之间的变化：

1. 爬取百度网页并保存在本地

复制代码

注意：

read()、readlines()、readline()三者的区别：

read(): 读取网页的所有的内容，并且将读取的内容返回一个字符串。

readlines(): 也是读取网页全部内容，不同的是它会将读取对的内容赋值给一个列表

readline(): 它是读取网页每一行的内容。

2. 对url中含有中文的字符，我们需要对其进行编码和解码

复制代码

3.模拟浏览器访问网页

# 方式1 通过build_opener()修改报头
url = "http://www.baidu.com"
header = ('Uesr-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36')
opener = urllib.request.build_opener()
opener.addheaders = [header]
data = opener.open(url).read()
print(data)
# 方式2 通过urlib.request.Request()来添加报头
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36')
data = urllib.request.urlopen(req).read()
print(data)

复制代码

4. 超时设置

复制代码

5.请求方式的使用：post、get、put等

post请求的实例

url = "http://www.iqianyue.com/mypost/"
# 1.构建post请求参数
postdata = {"name":"ceo@iqianyue.com","pass":"aA123456"}
# 2.采用urllib.parse.urlencode()来编码数据，然后设置成utf-8来编码
encode_postdata = urllib.parse.urlencode(postdata).encode('utf-8')
# 3.用post参数来构建request的请求
req = urllib.request.Request(url,encode_postdata)
# 4.模拟浏览器访问，给request请求添加报头
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36')
# 5.通过urllib.request.urlopen()来发送请求，得到响应结果.
data = urllib.request.urlopen(req).read()
# 6.将数据保存在本地
os_handle = open("D:/python/file/5.html","wb")
os_handle.write(data)
# 7.关闭流
os_handle.close()

复制代码

get请求需要注意的是，如果请求的url中含有中文字符或者特需字符，需要进行转码在发送请求。

6.代理请求的设置

def user_proxy(proxy_address, url):
# 1.代理的设置(包括端口号，用户名，密码，ip地址等)，采用什么样的来设置代理(http、ftp、https)
proxy = urllib.request.ProxyHandler({'http': proxy_address})
# 2.通过 build_opener()来设置代理(HTTPHandler、HTTPSHandler、FTPHandler)
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
# 3.模拟浏览器访问网页
headers = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
opener.addheaders = [('User-Agent', headers)]
# 4. 创建全局的opener
urllib.request.install_opener(opener)
# 5.使用全局的opener来发送请求
data = urllib.request.urlopen(url).read()
return data
self_url = "https://www.baidu.com"
proxy_ip = '144.48.4.214:8989'
data = user_proxy(proxy_ip, self_url)
print(len(data))

复制代码

7. DebugLog的实战

复制代码

8.异常的处理: 分为两种 HTTPError 和 URLError

HTTPError主要是http协议中状态码的错误

URLError主要是请求url中发生的错误

复制代码

区别在于：HTTPError只能处理状态码的错误，不能处理URL不存在，服务器出现异常等，而URLError是都能处理的。

总结：

我们在使用urllib模块时，应该注意哪些细节。

Urllib是我们操作URL中的一个模块，我们在爬虫过程汇总经常会使用到这个模块
一般来说，标准的URL只允许一部分ASCII字符，比如字母、数字、部分符号等，如果我们在使用不标准的URL做请求就会出现错误，我们经常会在URL中遇到的中文、":" 、"&"等字符，我们需要将其编码，然后在使用编码过后的url发送请求。
我们在爬虫过程中经常会遇到403的错误，这是别人网页采取了反爬虫设置，此时我们需要通过其他方式来做。比如模拟浏览器来访问、或者设置代理来做请求，在或者保存cookie等
就是异常的处理，我们在爬虫过冲中必须捕获异常，防止在爬虫过程中中断。

Miss_love · 发表于 2021-1-5 13:37:59

支持分享

		自动登录	找回密码
密码			(注-册)加入51Testing

站长推荐 /1