📜  如何从字符串创建一组单词? (1)

📅  最后修改于: 2023-12-03 15:23:48.185000             🧑  作者: Mango

如何从字符串创建一组单词?

有时候我们需要从一个字符串中提取出其中的单词,可能是为了做单词出现次数的统计,或者是做文本分类等任务。在本文中,我们将介绍如何从一个字符串中创建一组单词的方法。

步骤
  1. 首先,我们需要将字符串中的所有非字母字符(比如空格、标点符号等)替换成空格,这样我们才能按照空格来分割字符串,得到一个单词列表。
import re

string = "Hello, World!"
string = re.sub(r'[^\w\s]', ' ', string)
words = string.split()
print(words) # ['Hello', 'World']

这里使用了Python的re模块,通过正则表达式替换所有非字母字符为一个空格。接着,调用字符串的split()方法来分割字符串,得到一个单词列表。

  1. 然后,我们可以对单词进行大小写转换,把所有单词都转换为小写(或大写),方便后续处理。
words = [word.lower() for word in words]
print(words) # ['hello', 'world']

这里使用了Python的列表解析方式,快速地对单词列表进行大小写转换。

  1. 最后,我们可以去除单词列表中的重复单词,得到一个去重后的单词集合。
unique_words = set(words)
print(unique_words) # {'hello', 'world'}

这里使用了Python的set()方法,将单词列表转换为一个集合,并自动去除其中的重复单词。

小结

通过以上步骤,我们可以从一个字符串中创建一组单词,并对其进行大小写转换和去重。这个过程涉及到正则表达式、列表解析和集合等常用Python技巧,是Python程序员必须掌握的基本技能之一。