📅  最后修改于: 2023-12-03 15:14:52.465000             🧑  作者: Mango
en_core_web_sm
是Spacy的一款英文模型,可以用于标记英文文本中的词性和实体。它包含小型的词汇表和句法规则,适用于处理数量较小的英文文本。
import spacy
# 加载'en_core_web_sm'模型
nlp = spacy.load('en_core_web_sm')
# 处理文本
doc = nlp('This is a sample text.')
# 打印每个单词及其词性
for token in doc:
print(token.text, token.pos_)
输出结果为:
This DET
is AUX
a DET
sample NOUN
text NOUN
. PUNCT
可以看到,en_core_web_sm
成功地标记了文本中每个单词的词性。
此外,还可以使用en_core_web_sm
模型来识别实体。下面是一个使用en_core_web_sm
模型识别实体的示例:
# 处理文本
doc = nlp('Apple is looking at buying U.K. startup for $1 billion')
# 打印每个单词及其实体类别
for ent in doc.ents:
print(ent.text, ent.label_)
输出结果为:
Apple ORG
U.K. GPE
$1 billion MONEY
可以看到,en_core_web_sm
成功地识别了文本中的组织(ORG)、地点(GPE)和货币(MONEY)等实体。
因此,如果需要对英文文本进行词性标注或实体识别等任务,可以考虑使用en_core_web_sm
模型。