📜  python 从 url 获取 html - Html (1)

📅  最后修改于: 2023-12-03 14:46:11.994000             🧑  作者: Mango

Python从URL获取HTML - Html

在Python中,我们可以使用requests模块轻松从URL中获取HTML。requests模块是一个HTTP库,我们可以使用它来发送HTTP请求,其中包括从Web服务器中获取HTML。

安装requests模块

在Python 3中,requests模块已经预安装,如果你的Python安装是在Python 2版本中,你需要在控制台中安装requests模块。

!pip install requests
从URL获取HTML

要从URL中获取HTML,我们需要使用requests.get()方法向URL发送GET请求。

import requests

url = "https://example.com"

response = requests.get(url)

print(response.text)

response对象包含我们从URL获取的所有内容。 在上面的示例中,我们使用response.text属性来获取HTML。 response.text返回的内容是str类型。

状态码检查

在我们使用requests模块从URL中获取HTML时,我们可能会遇到一些错误。要检查请求是否成功,请检查返回的状态码。 HTTP状态码是一个三位数,其中第一位指示请求成功的程度。

  • 1xx(信息): 服务器已收到请求,但需要更多信息来完成请求。
  • 2xx(成功) – 请求成功完成,例如200 OK。
  • 3xx(重定向) – 由于需要执行某些操作,因此需要将请求重定向到另一个位置。
  • 4xx(客户端错误) – 请求包含错误或无法执行请求。
  • 5xx(服务器错误) – 服务器遇到错误,无法完成请求。

在我们获取HTML时,我们通常只需要检查2xx状态码。如果状态码不是2xx,则表示请求失败。

import requests

url = "https://example.com"

response = requests.get(url)

if response.status_code == 200:
    print("请求成功")
else:
    print("请求失败")
结论

现在你已经知道如何利用requests模块从URL中获取HTML了。在获取HTML时,你需要注意请求的状态码,以确保请求成功。

以上是Python从URL获取HTML的介绍。希望这篇文章能够帮助到你。