📅  最后修改于: 2023-12-03 15:21:53.399000             🧑  作者: Mango
在处理文本数据时,有时需要从一个包含多个单词的字符向量或数据框中提取唯一的单词。 在Python中,使用pandas包可以轻松实现这一目标。
以下是从pandas数据框中提取唯一单词的代码片段:
import pandas as pd
import re
# 创建数据框
df = pd.DataFrame({
'text': ['I like apples', 'I hate oranges', 'I love pineapples', 'Apples are red']
})
# 使用正则表达式提取单词
words = df['text'].apply(lambda x: re.findall('\w+', x.lower()))
# 将单词转换为集合并获取唯一单词
unique_words = set([word for words_list in words for word in words_list])
print(unique_words)
上述代码将输出数据框中所有唯一的单词,结果如下:
{'i', 'hate', 'are', 'pineapples', 'oranges', 'like', 'red', 'love', 'apples'}
在以上代码中,首先创建了一个数据框,其中包含了一些文本数据。然后使用正则表达式将数据框中的每个字符串转换为单词列表。最后,将所有单词转换为集合并返回唯一单词。
值得注意的是,使用正则表达式提取单词时,我们将所有文本转换为小写字母,以确保大小写不敏感。否则,将可能导致某些单词被重复计算。
希望这段代码对您在Python中提取唯一单词有所帮助。