要运行以下Python程序,必须在系统中安装(NLTK)自然语言工具包。
NLTK模块是一个庞大的工具包,旨在帮助您使用整个自然语言处理(NLP)方法。
为了安装NLTK,请在终端中运行以下命令。
- sudo pip安装nltk
- 然后,只需键入Python ,即可在终端中输入Python shell
- 输入import nltk
- nltk.download(’全部’)
由于大量的令牌生成器,分块器,其他算法以及所有要下载的语料库,因此上述安装将花费相当长的时间。
- 一些经常使用的术语是:
- 语料库–文本主体,单数。语料库是其中的复数形式。
- 词汇–单词及其含义。
- 令牌–每个“实体”都是根据规则拆分的内容的一部分。例如,当将一个句子“标记”为单词时,每个单词都是一个标记。如果您将段落中的句子标记化,则每个句子也可以是标记。
因此,基本上标记化涉及从文本主体中拆分句子和单词。
# import the existing word and sentence tokenizing # libraries from nltk.tokenize import sent_tokenize, word_tokenize text = "Natural language processing (NLP) is a field " + \ "of computer science, artificial intelligence " + \ "and computational linguistics concerned with " + \ "the interactions between computers and human " + \ "(natural) languages, and, in particular, " + \ "concerned with programming computers to " + \ "fruitfully process large natural language " + \ "corpora. Challenges in natural language " + \ "processing frequently involve natural " + \ "language understanding, natural language" + \ "generation frequently from formal, machine" + \ "-readable logical forms), connecting language " + \ "and machine perception, managing human-" + \ "computer dialog systems, or some combination " + \ "thereof." print(sent_tokenize(text)) print(word_tokenize(text))`
输出
[‘自然语言处理(NLP)是计算机科学,人工智能和计算语言学的一个领域,它与计算机和人类(自然)语言之间的相互作用有关,尤其是与对计算机编程以有效地处理大型自然语言语料库有关。 ‘,’自然语言处理中的挑战通常涉及自然语言理解,自然语言生成(通常来自正式的机器可读逻辑形式),连接语言和机器感知,管理人机对话系统或它们的某种组合。”
[“自然”,“语言”,“处理”,“(”,“ NLP”,“)”,“是”,“一个”,“字段”,“的”,“计算机”,“科学”,“ ”,“人工”,“智能”,“与”,“计算”,“语言学”,“有关”,“有”,“该”,“交互”,“之间”,“计算机”,“和” ,“人类”,“(”,“自然”,“)”,“语言”,“,”,“和”,“,”,“中”,“特定”,“,”,“有关”,“与”,“编程”,“计算机”,“到”,“富有成效”,“过程”,“大型”,“自然”,“语言”,“语料库”,“。”,“挑战”,“输入” ,“自然”,“语言”,“处理”,“频繁”,“参与”,“自然”,“语言”,“理解”,“,”,“自然”,“语言”,“生成”,“ (’,’经常’,’从’,’形式’,’,’,’机器可读’,’逻辑’,’形式’,’)’,’,’,’连接’,’语言’,’和”,“机器”,“感知”,“,”,“管理”,“人机”,“对话”,“系统”,“,”,“或”,“某些”,“组合”,“其中”,“。”]因此,在这里,我们创建了令牌,这些令牌最初是句子,之后是单词。