📜  Python文本处理简介

📅  最后修改于: 2020-11-06 06:11:41             🧑  作者: Mango


文本处理直接应用于自然语言处理,也称为NLP。 NLP旨在处理人类彼此交流时说或写的语言。这不同于计算机与人之间的通信,在通信中,该通信使人编写的计算机程序或人的某些手势(如在某个位置单击鼠标)无效。 NLP试图理解人类所说的自然语言并将其分类,并在需要时对它进行分析。 Python具有丰富的库集,可满足NLP的需求。自然语言工具套件(NLTK)是此类库的套件,可提供NLP所需的功能。

以下是一些使用NLP和间接使用python的NLTK的应用程序。

总结

很多时候,我们需要获取新闻报道,电影情节或重要故事的摘要。它们都是用人类语言编写的,没有NLP,我们就不得不依靠另一个人对这种摘要的解释和介绍。但是在NLP的帮助下,我们可以编写程序以使用NLTK并使用各种参数来总结长文本,例如我们要在最终输出中使用的文本百分比是多少,选择要进行总结的正负词等。在线新闻源依赖总结技术来展示新闻见解。

语音工具

苹果Siri或Amazon Alexa等基于语音的工具依靠NLP来了解与人类的疯狂互动。他们拥有庞大的单词,句子和语法训练数据集,以解释并处理来自人类的问题或命令。尽管它是关于语音的,但它也间接地被翻译成文本,并且语音的结果文本通过NLP系统获取以产生结果。

信息提取

Web抓取是使用Python代码从网页提取数据的常见示例。在这里,它可能并非严格基于NLP,但确实涉及文本处理。例如,如果我们只需要提取html页面中的标头,则可以在页面结构中查找h1标签,并找到一种仅提取这些标签之间的文本的方法。这需要Python的文本处理程序。

垃圾邮件过滤

通过分析主题行中以及邮件内容中的文本,可以识别和消除电子邮件中的垃圾邮件。由于垃圾邮件通常是批量发送给许多收件人的,即使它们的主题和内容几乎没有变化,也可以对其进行匹配和标记以将其标记为垃圾邮件,再次需要使用NLTK库。

语言翻译

计算机语言翻译在很大程度上依赖于NLP。随着在线平台中使用越来越多的语言,从一种人类语言到另一种人类语言的自动翻译成为必要。这将涉及编程以处理翻译所涉及语言的词汇,语法和上下文标记。同样,NLTK用于处理此类要求。

情绪分析

要了解对电影表演的总体反应,我们可能必须阅读观众的数千篇反馈文章。但这也可以通过单词和句子分析使用正面和负面反馈的分类来实现自动化。然后测量正面和负面评论的频率,以找到观众的整体情感。显然,这需要分析观众编写的人类语言,NLTK在这里大量用于处理文本。