📅  最后修改于: 2023-12-03 14:57:15.352000             🧑  作者: Mango
在Python中,将文本数据存储在数据框中非常常见。有时我们需要从数据帧中提取子字符串以进行分析。本文将介绍如何使用Python Pandas提取数据框中每个元素的子字符串。
首先,我们需要导入Pandas库。
import pandas as pd
接下来,我们需要创建一个包含文本数据的数据帧。在本文中,我们将使用下面的数据帧。
df = pd.DataFrame({'name': ['John', 'Jane', 'Mary'],
'city': ['New York', 'Toronto', 'Los Angeles'],
'age': [25, 30, 35]})
现在我们已经有了一个包含文本数据的数据帧。
假设我们要从“city”列中提取每个城市的前三个字符。我们可以使用Pandas的“str”属性和“slice()”函数来提取子字符串。
df['city'].str.slice(stop=3)
这将返回一个包含每个城市的前三个字符的序列。
0 New
1 Tor
2 Los
Name: city, dtype: object
如果我们想要提取每个城市的第四个到第六个字符,我们可以使用“start”和“stop”参数来指定起始位置和终止位置。
df['city'].str.slice(start=3, stop=6)
这将返回一个包含每个城市的第四个到第六个字符的序列。
0 Yor
1 ont
2 Ang
Name: city, dtype: object
我们还可以使用“split()”函数来基于特定的分隔符提取子字符串。假设我们想从“city”列中提取每个城市的州的缩写,我们可以使用“split()”函数和字符串切片来实现。
df['city'].str.split().str.get(-1).str.slice(stop=2)
这将返回一个包含每个城市的州的缩写的序列。
0 NY
1 to
2 An
Name: city, dtype: object
本文介绍了如何使用Python Pandas提取数据框中每个元素的子字符串。我们了解了如何使用“slice()”函数和“split()”函数来实现这一目标。这些技术可以应用于各种文本分析应用程序。