📅  最后修改于: 2023-12-03 15:04:22.623000             🧑  作者: Mango
page_source
是Selenium库中的一个方法,它可以用于获取当前页面的源代码。在爬取网页的时候,我们通常需要获取网页的源代码,以便进行后续处理,如解析、提取信息等。
下面是使用page_source
方法的示例:
from selenium import webdriver
# 创建一个chrome浏览器实例
browser = webdriver.Chrome()
# 访问豆瓣网站
browser.get('https://www.douban.com/')
# 获取网页源代码
page_source = browser.page_source
# 打印网页源代码
print(page_source)
# 关闭浏览器
browser.quit()
需要注意的是,在使用page_source
方法之前,需要先创建浏览器实例,并访问页面。
获取网页源代码后,可以使用Python中的各种库来解析网页。常见的解析库包括:
以下是使用BeautifulSoup
库来解析网页源代码的示例:
from bs4 import BeautifulSoup
from selenium import webdriver
# 创建一个chrome浏览器实例
browser = webdriver.Chrome()
# 访问豆瓣网站
browser.get('https://www.douban.com/')
# 获取网页源代码
page_source = browser.page_source
# 解析网页源代码
soup = BeautifulSoup(page_source, 'html.parser')
# 获取豆瓣首页的标题
title = soup.title.string
# 打印网页标题
print(title)
# 关闭浏览器
browser.quit()
需要注意的是,在使用库来解析网页源代码之前,需要先安装对应的库。
page_source
方法可以很方便地获取当前页面的源代码,并且可以使用各种解析库来解析网页。在爬取网页的时候,我们可以利用这个方法来获取网页源代码,并进一步提取需要的信息。