BeautifulSoup – 从 HTML 中抓取段落
在本文中,我们将讨论如何使用 Beautiful Soup 从 HTML 中删除段落
方法一:使用bs4和urllib。
所需模块:
- bs4: Beautiful Soup(bs4) 是一个Python库,用于从 HTML 和 XML 文件中提取数据。用于安装模块-
pip install bs4.
- urllib: urllib 是一个包,它收集了几个用于处理 URL 的模块。它也可以以相同的方式安装,它大部分是内置在环境本身中的。
pip install urllib
下面是实现:
Python3
# importing modules
import urllib.request
from bs4 import BeautifulSoup
# providing url
url = "https://www.geeksforgeeks.org/how-to-automate-an-excel-sheet-in-python/?ref=feed"
# opening the url for reading
html = urllib.request.urlopen(url)
# parsing the html file
htmlParse = BeautifulSoup(html, 'html.parser')
# getting all the paragraphs
for para in htmlParse.find_all("p"):
print(para.get_text())
Python3
# import module
import requests
import pandas as pd
from bs4 import BeautifulSoup
# link for extract html data
def getdata(url):
r = requests.get(url)
return r.text
htmldata = getdata("https://www.geeksforgeeks.org/how-to-automate-an-excel-sheet-in-python/?ref=feed")
soup = BeautifulSoup(htmldata, 'html.parser')
data = ''
for data in soup.find_all("p"):
print(data.get_text())
输出:
方法二:使用requests和bs4
所需模块:
- bs4: Beautiful Soup(bs4) 是一个Python库,用于从 HTML 和 XML 文件中提取数据。这个模块没有内置于Python中。要安装此类型,请在终端中输入以下命令。
pip install bs4
- 请求:请求允许您非常轻松地发送 HTTP/1.1 请求。这个模块也没有内置于Python中。要安装此类型,请在终端中输入以下命令。
pip install requests
方法:
- 导入模块
- 创建一个 HTML 文档并在代码中指定 '
' 标签
- 将 HTML 文档传递给 Beautifulsoup()函数
- 使用“P”标签从 Beautifulsoup 对象中提取段落
- 使用 get_text() 从 HTML 文档中获取文本。
代码:
蟒蛇3
# import module
import requests
import pandas as pd
from bs4 import BeautifulSoup
# link for extract html data
def getdata(url):
r = requests.get(url)
return r.text
htmldata = getdata("https://www.geeksforgeeks.org/how-to-automate-an-excel-sheet-in-python/?ref=feed")
soup = BeautifulSoup(htmldata, 'html.parser')
data = ''
for data in soup.find_all("p"):
print(data.get_text())
输出: