Python – 使用 Enchant 分块文本
Enchant
是Python中的一个模块,用于检查单词的拼写,给出正确单词的建议。此外,给出单词的反义词和同义词。它检查字典中是否存在单词。
Enchant
还提供了enchant.tokenize
模块来标记文本。标记化涉及从文本正文中拆分单词。但有时并非所有单词都需要标记化。假设我们有一个 HTML 文件,在标记化时,所有标签也将被包含在内。通常 HTML 标签对文章的内容没有贡献,因此需要标记化排除它们。
目前唯一实现的分块器是 HTMLChunker。 LaTeX 文档的分块器正在开发中。
# import the required modules
from enchant.tokenize import get_tokenizer
from enchant.tokenize import HTMLChunker
# the text to be tokenized
text = " Geeks for Geeks
"
# getting tokenizer class
tokenizer = get_tokenizer("en_US")
# printing tokens without chunking
print("Printing tokens without chunking:")
token_list = []
for words in tokenizer(text):
token_list.append(words)
print(token_list)
# getting tokenizer class with chunk
tokenizer_chunk = get_tokenizer("en_US", chunkers = (HTMLChunker, ))
# printing tokens after chunking
print("\nPrinting tokens after chunking:")
token_list_chunk = []
for words in tokenizer_chunk(text):
token_list_chunk.append(words)
print(token_list_chunk)
输出 :
Printing tokens without chunking:
[(‘div’, 1), (‘h’, 7), (‘Geeks’, 11), (‘for’, 17), (‘Geeks’, 21), (‘h’, 29), (‘br’, 34), (‘div’, 40)]
Printing tokens after chunking:
[(‘Geeks’, 11), (‘for’, 17), (‘Geeks’, 21)]
在评论中写代码?请使用 ide.geeksforgeeks.org,生成链接并在此处分享链接。