📌  相关文章
📜  使用 BeautifulSoup 在标签内显示文本

📅  最后修改于: 2022-05-13 01:54:48.610000             🧑  作者: Mango

使用 BeautifulSoup 在标签内显示文本

先决条件:

  • 要求
  • 美汤

在本文中,我们将学习如何使用 BeautifulSoup 从 HTML 标签中获取文本。这里我们将使用请求 和Python的BeautifulSoup模块。

requests库是Python不可或缺的一部分,用于向指定的 URL 发出 HTTP 请求。无论是 REST API 还是 Web Scrapping,都必须学习请求才能进一步使用这些技术。当一个人向一个 URI 发出请求时,它会返回一个响应。 Python请求提供了用于管理请求和响应的内置功能。

pip install requests

Beautiful Soup是一个Python库,专为快速周转项目(如屏幕抓取)而设计。

pip install beautifulsoup4

方法一:我们可以使用text属性。它只会打印标签中的文本。



Python3
# Import Required Module
import requests 
from bs4 import BeautifulSoup
  
# Web URL
Web_url = "https://www.geeksforgeeks.org/"
  
# Get URL Content
r = requests.get(Web_url) 
  
# Parse HTML Code
soup = BeautifulSoup(r.content, 'html.parser')
  
tag = soup.find("p")
  
print(tag.text)


Python3
# Import Required Module
import requests 
from bs4 import BeautifulSoup
  
# Web URL
Web_url = "https://www.geeksforgeeks.org/"
  
# Get URL Content
r = requests.get(Web_url) 
  
# Parse HTML Code
soup = BeautifulSoup(r.content, 'html.parser')
  
tag = soup.find("p")
  
print(tag.get_text())


Python3
# Import Required Module
import requests 
from bs4 import BeautifulSoup
  
# Web URL
Web_url = "https://www.geeksforgeeks.org/"
  
# Get URL Content
r = requests.get(Web_url) 
  
# Parse HTML Code
soup = BeautifulSoup(r.content, 'html.parser')
  
tag = soup.find("p")
  
print(tag.string)


输出:

Skip to content

方法二:我们也可以使用get_text()方法。此方法用于打印网页的整个文本

蟒蛇3

# Import Required Module
import requests 
from bs4 import BeautifulSoup
  
# Web URL
Web_url = "https://www.geeksforgeeks.org/"
  
# Get URL Content
r = requests.get(Web_url) 
  
# Parse HTML Code
soup = BeautifulSoup(r.content, 'html.parser')
  
tag = soup.find("p")
  
print(tag.get_text())

输出:

February 1, 2021

方法 3:如果标签内只有一个字符串,那么我们可以使用字符串属性。

蟒蛇3

# Import Required Module
import requests 
from bs4 import BeautifulSoup
  
# Web URL
Web_url = "https://www.geeksforgeeks.org/"
  
# Get URL Content
r = requests.get(Web_url) 
  
# Parse HTML Code
soup = BeautifulSoup(r.content, 'html.parser')
  
tag = soup.find("p")
  
print(tag.string)

输出:

February 1, 2021