📅  最后修改于: 2023-12-03 15:41:29.158000             🧑  作者: Mango
获取正文是网络爬虫中常用的一项技术,可以用来从网页中提取出正文内容,去掉广告、导航、页脚等无用信息,返回有用的内容。这一技术在搜索引擎、数据挖掘、信息聚合等领域都有着广泛的应用。
下面是一个Python示例,展示如何使用BeautifulSoup库从网页中提取正文内容:
import requests
from bs4 import BeautifulSoup
def get_text(url):
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')
# 去除头部和尾部
for script in soup(["script", "style"]):
script.extract()
# 去除标签类名
for tag in soup.find_all(True):
tag.attrs = {}
return soup.get_text()
url = 'https://www.example.com'
text = get_text(url)
print(text)
这个程序首先使用requests库获取网页的HTML源码,然后用BeautifulSoup库解析出HTML结构。接下来,通过对HTML源码的解析,首先去除头部和尾部的无用信息,然后去除所有的标签类名,最后提取正文内容并返回。使用这个程序可以方便地获取一个网页的正文内容。
**返回的markdown格式如下:**
# 获取正文
获取正文是网络爬虫中常用的一项技术,可以用来从网页中提取出正文内容,去掉广告、导航、页脚等无用信息,返回有用的内容。这一技术在搜索引擎、数据挖掘、信息聚合等领域都有着广泛的应用。
## Python示例
下面是一个Python示例,展示如何使用BeautifulSoup库从网页中提取正文内容:
import requests from bs4 import BeautifulSoup
def get_text(url): html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') # 去除头部和尾部 for script in soup(["script", "style"]): script.extract() # 去除标签类名 for tag in soup.find_all(True): tag.attrs = {} return soup.get_text()
url = 'https://www.example.com' text = get_text(url) print(text)
这个程序首先使用requests库获取网页的HTML源码,然后用BeautifulSoup库解析出HTML结构。接下来,通过对HTML源码的解析,首先去除头部和尾部的无用信息,然后去除所有的标签类名,最后提取正文内容并返回。使用这个程序可以方便地获取一个网页的正文内容。