计算字符串中单词的出现次数 |设置 2(使用正则表达式)(1)

📌 相关文章

📜 计算字符串中单词的出现次数 |设置 2(使用正则表达式)(1)

📅 最后修改于: 2023-12-03 14:57:29.368000 🧑 作者: Mango

计算字符串中单词的出现次数 | 设置 2(使用正则表达式)

在开发中，我们通常需要统计字符串中单词的出现次数，这在文本挖掘、自然语言处理等方面都会涉及。本次介绍使用正则表达式计算字符串中单词的出现次数。

正则表达式

正则表达式是一种用来匹配字符串的表达式，它使用一些元字符和普通字符来描述一个字符串的模式。在计算单词出现次数的时候，我们可以用正则表达式匹配单词，然后统计匹配单词的数量即可。

import re

def count_words(s):
    pattern = r'\b\w+\b'  # 匹配所有的单词
    words = re.findall(pattern, s)
    return len(words)

以上代码中，我们定义了一个函数 count_words(s)，该函数使用了 re 模块的 findall() 方法来匹配字符串中的所有单词。pattern 匹配所有的单词，其中 \b 表示单词的边界。

使用示例

我们可以使用以下代码测试 count_words() 函数的功能：

text = "Python is a programming language that lets you work more quickly and integrate your systems more effectively."
count = count_words(text)
print(count)  # Output: 17

上述代码中，我们传入了一个包含 17 个单词的字符串，count_words() 函数返回的结果是 17。

结论

本文介绍了使用正则表达式计算字符串中单词的出现次数的方法，该方法可以灵活地应用在各种文本处理的场景中。