获取数据框中每个元素的子字符串 - Python (1)

📌 相关文章

📜 获取数据框中每个元素的子字符串 - Python (1)

📅 最后修改于: 2023-12-03 14:57:15.352000 🧑 作者: Mango

获取数据框中每个元素的子字符串 - Python

在Python中，将文本数据存储在数据框中非常常见。有时我们需要从数据帧中提取子字符串以进行分析。本文将介绍如何使用Python Pandas提取数据框中每个元素的子字符串。

准备工作

首先，我们需要导入Pandas库。

import pandas as pd

接下来，我们需要创建一个包含文本数据的数据帧。在本文中，我们将使用下面的数据帧。

df = pd.DataFrame({'name': ['John', 'Jane', 'Mary'],
                   'city': ['New York', 'Toronto', 'Los Angeles'],
                   'age': [25, 30, 35]})

现在我们已经有了一个包含文本数据的数据帧。

提取子字符串

假设我们要从“city”列中提取每个城市的前三个字符。我们可以使用Pandas的“str”属性和“slice()”函数来提取子字符串。

df['city'].str.slice(stop=3)

这将返回一个包含每个城市的前三个字符的序列。

0    New
1    Tor
2    Los
Name: city, dtype: object

如果我们想要提取每个城市的第四个到第六个字符，我们可以使用“start”和“stop”参数来指定起始位置和终止位置。

df['city'].str.slice(start=3, stop=6)

这将返回一个包含每个城市的第四个到第六个字符的序列。

0    Yor
1    ont
2    Ang
Name: city, dtype: object

我们还可以使用“split()”函数来基于特定的分隔符提取子字符串。假设我们想从“city”列中提取每个城市的州的缩写，我们可以使用“split()”函数和字符串切片来实现。

df['city'].str.split().str.get(-1).str.slice(stop=2)

这将返回一个包含每个城市的州的缩写的序列。

0    NY
1    to
2    An
Name: city, dtype: object

结论

本文介绍了如何使用Python Pandas提取数据框中每个元素的子字符串。我们了解了如何使用“slice()”函数和“split()”函数来实现这一目标。这些技术可以应用于各种文本分析应用程序。