📜  Python – 使用 Enchant 分块文本

📅  最后修改于: 2022-05-13 01:55:33.629000             🧑  作者: Mango

Python – 使用 Enchant 分块文本

Enchant是Python中的一个模块,用于检查单词的拼写,给出正确单词的建议。此外,给出单词的反义词和同义词。它检查字典中是否存在单词。

Enchant还提供了enchant.tokenize模块来标记文本。标记化涉及从文本正文中拆分单词。但有时并非所有单词都需要标记化。假设我们有一个 HTML 文件,在标记化时,所有标签也将被包含在内。通常 HTML 标签对文章的内容没有贡献,因此需要标记化排除它们。

目前唯一实现的分块器是 HTMLChunker。 LaTeX 文档的分块器正在开发中。

# import the required modules
from enchant.tokenize import get_tokenizer
from enchant.tokenize import HTMLChunker
  
# the text to be tokenized
text = "

Geeks for Geeks


"    # getting tokenizer class tokenizer = get_tokenizer("en_US")    # printing tokens without chunking print("Printing tokens without chunking:") token_list = [] for words in tokenizer(text):     token_list.append(words) print(token_list)       # getting tokenizer class with chunk tokenizer_chunk = get_tokenizer("en_US", chunkers = (HTMLChunker, ))    # printing tokens after chunking print("\nPrinting tokens after chunking:") token_list_chunk = [] for words in tokenizer_chunk(text):     token_list_chunk.append(words) print(token_list_chunk)

输出 :