📜  python selenium 获取 html 内容 - Html (1)

📅  最后修改于: 2023-12-03 15:04:08.483000             🧑  作者: Mango

Python Selenium 获取 HTML 内容

在 Web 自动化测试过程中,通常需要获取页面的 HTML 代码来进行数据分析、页面元素定位等操作。Python 的 Selenium 库提供了方便的 API 来获取页面 HTML 内容。

安装 Selenium

在使用 Selenium 之前,需要先安装 Selenium 库和 Chrome 或 Firefox 浏览器驱动。可以使用以下命令安装:

pip install selenium

同时,需要下载对应浏览器的驱动,Chrome 可以在 官网 下载,Firefox 可以在 官网 下载。

创建 Selenium 对象

在 Python 中,使用 Selenium 获取 HTML 代码需要创建一个 WebDriver 对象,代码如下:

from selenium import webdriver

# 创建浏览器驱动对象
driver = webdriver.Chrome()

其中,可以使用 webdriver.Chrome() 创建 Chrome 浏览器的驱动对象,也可以使用 webdriver.Firefox() 创建 Firefox 浏览器的驱动对象。

获取页面 HTML 内容

使用 driver.get(url) 方法可以打开指定的页面。获取页面 HTML 内容有两种方法:

方法一:使用 driver.page_source 属性

可以直接使用 driver.page_source 属性获取当前页面的 HTML 代码,代码如下:

from selenium import webdriver

# 创建浏览器驱动对象
driver = webdriver.Chrome()

# 打开指定页面
driver.get('http://www.baidu.com')

# 获取页面 HTML 代码
html = driver.page_source
print(html)

# 关闭浏览器
driver.quit()
方法二:使用 driver.execute_script() 方法

driver.execute_script() 方法可以在当前页面中执行 JavaScript 脚本,并返回执行结果。利用这个方法可以获取当前页面的 HTML 代码,代码如下:

from selenium import webdriver

# 创建浏览器驱动对象
driver = webdriver.Chrome()

# 打开指定页面
driver.get('http://www.baidu.com')

# 获取页面 HTML 代码
html = driver.execute_script("return document.documentElement.outerHTML;")
print(html)

# 关闭浏览器
driver.quit()
结束会话

获取完页面 HTML 内容之后,需要结束会话,调用 driver.quit() 方法即可关闭浏览器。

以上就是使用 Python Selenium 获取页面 HTML 内容的简单介绍。使用 Selenium 获取页面 HTML 内容的方法非常简单易用,可以快速地实现自动化测试场景中的数据分析和元素定位等操作。