leftso 3151 0 2019-12-13 23:36:31

文章位置:左搜> 编程技术> Python教程> 正文


Python httplib2 简介

学习使用Python httplib2模块。的超文本传输协议(HTTP)是用于分布式,协作,超媒体信息系统的应用协议。HTTP是万维网数据通信的基础。
Python httplib2模块提供了用于通过HTTP访问Web资源的方法。它支持许多功能,例如HTTP和HTTPS,身份验证,缓存,重定向和压缩。

 

检查httplib2库版本

第一个程序打印库的版本,其版权和文档字符串。

import httplib2
 
print(httplib2.__version__)
print(httplib2.__copyright__)
print(httplib2.__doc__)
httplib2.__version__给出的版本httplib2库中,httplib2.__copyright__给出了其版权,以及httplib2.__doc__它的文档字符串。
执行上方的代码可能遇到模块未找到错误,如下图:
执行错误

如果出现上方问题,我们进行安装该模块即可,以下为Python 3.x版本的安装命令
pip3 install httplib2 --upgrade 
安装过程如下:
httplib2 安装
httplib2 安装
安装完成后我们再次执行版本检查的代码:
httplib2信息查看
httplib2信息查看
 

使用httplib2读取网页

在下面的示例中,我们展示了如何从名为http://www.baidu.com的网站获取HTML内容。
import httplib2
 
http = httplib2.Http()
content = http.request("http://www.baidu.com")[1]
 
print(content.decode())
使用创建一个HTTP客户端httplib2.HTTP()。使用该request()方法创建一个新的HTTP请求。默认情况下,它是一个GET请求。返回值是响应和内容的元组。
响应部分内容展示:
百度相应部分内容展示
 

剥离HTML标签

以下程序获取一个小型网页,并剥离其HTML标签。
import httplib2
import re
 
http = httplib2.Http()
content = http.request("http://www.baidu.com")[1]
 
stripped = re.sub('<[^<]+?>', '', content.decode())
print(stripped)
一个简单的正则表达式用于剥离HTML标记。请注意,我们正在剥离数据,我们没有对其进行清理。(这是两总不同的情况。)

检查响应状态

响应对象包含一个status给出响应状态代码的属性。
import httplib2
 
http = httplib2.Http()
 
resp = http.request("http://www.baidu.com")[0]
print(resp.status)
 
resp = http.request("http://www.leftso.com/blog/0.html")[0]
print(resp.status)
我们使用request()方法执行两个HTTP请求,并检查返回的状态。
http代码
200是成功HTTP请求的标准响应,而404则表明找不到所请求的资源。
 

发送HTTP HEAD请求

HTTP HEAD方法检索文档标题。标头由字段组成,包括日期,服务器,内容类型或上次修改时间。
import httplib2

http = httplib2.Http()
 
resp = http.request("http://www.leftso.com/assist/images/carousel/855892C7F4734F3CB0721835573BAD07.jpg", "HEAD")[0]
 
print("Server: " + resp['server'])
print("Last modified: " + resp['last-modified'])
print("Content type: " + resp['content-type'])
print("Content length: " + resp['content-length'])

这是程序的输出。从输出中,我们可以看到该网页是由FreeBSD托管的Apache Web服务器交付的。该文档的最后修改时间是1999年。网页是HTML文档,其长度为72个字节。

发送HTTP GET请求

HTTP GET方法请求指定资源的表示形式。对于此示例,我们还将使用greet.php脚本:
<?php
 
echo "Hello " . htmlspecialchars($_GET['name']);
 
?>
/usr/share/nginx/html/目录中,我们有此greet.php文件。该脚本返回name变量的值,该值是从客户端检索到的。
htmlspecialchars()函数将特殊字符转换为HTML实体;例如&到&amp.。
import httplib2
 
http = httplib2.Http()
content = http.request("http://localhost/greet.php?name=Peter", 
                       method="GET")[1]
 
print(content.decode())
该脚本将带有值的变量发送到服务器上的PHP脚本。该变量直接在URL中指定。
Hello Peter
这是示例的输出。
127.0.0.1 - - [21/Aug/2016:17:32:31 +0200] "GET /greet.php?name=Peter HTTP/1.1" 200 42 "-"
"Python-httplib2/0.8 (gzip)"
我们检查了nginx访问日志。
 

发送HTTP POST请求

POST请求方法请求Web服务器接受并存储请求消息正文中包含的数据。上载文件或提交完整的Web表单时经常使用它。
<?php
 
echo "Hello " . htmlspecialchars($_POST['name']);
 
?>
在本地Web服务器上,我们有此target.php文件。它只是将过帐的值打印回客户。
import httplib2
import urllib
 
http = httplib2.Http()
 
body = {'name': 'Peter'}
 
content = http.request("http://localhost/target.php", 
                       method="POST", 
                       headers={'Content-type': 'application/x-www-form-urlencoded'},
                       body=urllib.parse.urlencode(body) )[1]
 
print(content.decode())
脚本发送name带有Peter值的键的请求。数据使用urllib.parse.urlencode()方法进行编码,并在请求的正文中发送。
Hello Peter
这是mpost.py脚本的输出。
 
127.0.0.1 - - [23/Aug/2016:12:21:07 +0200] "POST /target.php HTTP/1.1"
    200 37 "-" "Python-httplib2/0.8 (gzip)"
使用POST方法时,不会在请求URL中发送该值。
 

发送用户代理信息

在本节中,我们指定用户代理的名称。
<?php 
 
echo $_SERVER['HTTP_USER_AGENT'];
 
?>
在nginx文档根目录下,我们有agent.php文件。它返回用户代理的名称。
import httplib2
 
http = httplib2.Http()
content = http.request("http://localhost/agent.php", method="GET", 
                  headers={'user-agent': 'Python script'})[1]
 
print(content.decode())
该脚本向脚本创建一个简单的GET请求agent.php。在headers字典中,我们指定用户代理。这可以通过PHP脚本读取,并返回给客户端。
Python script
服务器使用我们随请求发送的代理名称进行了响应。

将用户名/密码添加到请求

客户端的add_credentials()方法设置用于领域的名称和密码。安全领域是一种用于保护Web应用程序资源的机制。
$ sudo apt-get install apache2-utils
$ sudo htpasswd -c /etc/nginx/.htpasswd user7
New password: 
Re-type new password: 
Adding password for user user7
我们使用该htpasswd工具创建用于基本HTTP身份验证的用户名和密码。
location /secure {
 
        auth_basic "Restricted Area";
        auth_basic_user_file /etc/nginx/.htpasswd;
}
在nginx /etc/nginx/sites-available/default配置文件中,我们创建一个安全页面。领域的名称是“禁区”。
<!DOCTYPE html>
<html lang="en">
<head>
<title>Secure page</title>
</head>
 
<body>
 
<p>
This is a secure page.
</p>
 
</body>
 
</html>
/usr/share/nginx/html/secure目录中,我们有上面的HTML文件。
import httplib2
 
user = 'user7'
passwd = '7user'
 
http = httplib2.Http()
http.add_credentials(user, passwd)
content = http.request("http://localhost/secure/")[1]
 
print(content.decode())
该脚本连接到安全网页;它提供访问该页面所需的用户名和密码。
<!DOCTYPE html>
<html lang="en">
<head>
<title>Secure page</title>
</head>
 
<body>
 
<p>
This is a secure page.
</p>
</body>
 
</html>
使用正确的凭据,脚本将返回受保护的页面。
在本教程中,我们探索了Python httplib2模块。

评论区域

暂无评论,快来抢首发吧!!!