📅  最后修改于: 2023-12-03 15:23:48.185000             🧑  作者: Mango
有时候我们需要从一个字符串中提取出其中的单词,可能是为了做单词出现次数的统计,或者是做文本分类等任务。在本文中,我们将介绍如何从一个字符串中创建一组单词的方法。
import re
string = "Hello, World!"
string = re.sub(r'[^\w\s]', ' ', string)
words = string.split()
print(words) # ['Hello', 'World']
这里使用了Python的re模块,通过正则表达式替换所有非字母字符为一个空格。接着,调用字符串的split()方法来分割字符串,得到一个单词列表。
words = [word.lower() for word in words]
print(words) # ['hello', 'world']
这里使用了Python的列表解析方式,快速地对单词列表进行大小写转换。
unique_words = set(words)
print(unique_words) # {'hello', 'world'}
这里使用了Python的set()方法,将单词列表转换为一个集合,并自动去除其中的重复单词。
通过以上步骤,我们可以从一个字符串中创建一组单词,并对其进行大小写转换和去重。这个过程涉及到正则表达式、列表解析和集合等常用Python技巧,是Python程序员必须掌握的基本技能之一。