📜  自然语言处理-简介

📅  最后修改于: 2020-11-23 04:36:45             🧑  作者: Mango


语言是一种交流的方法,我们可以说,读和写。例如,我们认为,我们以自然语言来制定决策,计划以及更多。确切地讲。但是,在这个AI时代,我们面临的一个大问题是我们能否以类似的方式与计算机进行通信。换句话说,人类可以用自然语言与计算机进行通信吗?开发NLP应用程序对我们来说是一个挑战,因为计算机需要结构化的数据,但是人类的语音却是非结构化的,而且本质上常常是模棱两可的。

从这个意义上讲,我们可以说自然语言处理(NLP)是计算机科学特别是人工智能(AI)的子领域,它关注使计算机能够理解和处理人类语言。从技术上讲,NLP的主要任务是对计算机进行编程,以分析和处理大量自然语言数据。

NLP的历史

我们将NLP的历史分为四个阶段。这些阶段具有独特的关注点和样式。

第一阶段(机器翻译阶段)-1940年代末至1960年代末

在此阶段完成的工作主要集中在机器翻译(MT)上。这个阶段是一个充满热情和乐观的时期。

现在,让我们看看第一阶段的所有内容-

  • 在Booth&Richens进行调查并于1949年Weaver编写了机器翻译备忘录之后,对NLP的研究始于1950年代初。

  • 1954年是Georgetown-IBM实验中进行的有限的从俄语到英语自动翻译的实验。

  • 同年,开始出版MT(机器翻译)杂志。

  • 第一次国际机器翻译(MT)会议于1952年举行,第二次于1956年举行。

  • 1961年,在泰丁顿国际语言机器翻译和应用语言分析国际会议上发表的论文是这一阶段的重点。

第二阶段(AI影响阶段)– 1960年代末至1970年代末

在这一阶段,完成的工作主要与世界知识及其在意义表示的构建和操纵中的作用有关。因此,该阶段也称为AI调味阶段。

该阶段包含以下内容-

  • 1961年初,工作开始于解决和构建数据库或知识库的问题。这项工作受到AI的影响。

  • 同年,还开发了BASEBALL问答系统。该系统的输入受到限制,涉及的语言处理非常简单。

  • Minsky(1968)描述了一种非常先进的系统。与BASEBALL问答系统相比,该系统已得到认可,并提供了在解释和响应语言输入时需要推断知识库的需求。

第三阶段(语法阶段)– 1970年代末至1980年代末

此阶段可以描述为语法逻辑阶段。由于最后阶段的实践系统构建失败,研究人员转向使用逻辑进行人工智能中的知识表示和推理。

第三阶段包含以下内容-

  • 到十年末,语法逻辑方法帮助我们使用了功能强大的通用句子处理程序,例如SRI的核心语言引擎和语篇表征理论,它们提供了解决更广泛语篇的手段。

  • 在这一阶段,我们获得了一些实用的资源和工具,例如解析器(例如Alvey Natural Language Tools)以及更多的运营和商业系统(例如用于数据库查询)。

  • 1980年代有关词典的工作也指出了语法逻辑方法的方向。

第四阶段(词汇和语料库阶段)– 1990年代

我们可以将其描述为词汇和语料库阶段。这个阶段采用词法化的语法方法,这种方法出现在1980年代后期,并且影响力越来越大。在过去的十年中,随着用于语言处理的机器学习算法的引入,自然语言处理发生了一场革命。

人类语言研究

语言是人类生活的重要组成部分,也是我们行为的最基本方面。我们可以主要通过两种形式来体验它-书面和口语。以书面形式,这是一种将我们的知识从一代传给下一代的方法。以口头形式,它是人类在日常行为中相互协调的主要媒介。语言在各种学科中都有研究。每个学科都有自己的问题集和解决这些问题的解决方案。

考虑下表了解此-

Discipline Problems Tools

Linguists

How phrases and sentences can be formed with words?

What curbs the possible meaning for a sentence?

Intuitions about well-formedness and meaning.

Mathematical model of structure. For example, model theoretic semantics, formal language theory.

Psycholinguists

How human beings can identify the structure of sentences?

How the meaning of words can be identified?

When does understanding take place?

Experimental techniques mainly for measuring the performance of human beings.

Statistical analysis of observations.

Philosophers

How do words and sentences acquire the meaning?

How the objects are identified by the words?

What is meaning?

Natural language argumentation by using intuition.

Mathematical models like logic and model theory.

Computational Linguists

How can we identify the structure of a sentence

How knowledge and reasoning can be modeled?

How we can use language to accomplish specific tasks?

Algorithms

Data structures

Formal models of representation and reasoning.

AI techniques like search & representation methods.

语言的歧义和不确定性

通常在自然语言处理中使用的歧义可以被称为以一种以上方式理解的能力。简单来说,我们可以说模棱两可是一种以多种方式理解的能力。自然语言非常模棱两可。 NLP具有以下类型的歧义-

词汇歧义

单个单词的歧义称为词汇歧义。例如,将单词silver作为名词,形容词或动词对待。

句法歧义

当以不同的方式解析句子时,会发生这种歧义。例如,句子“男人用望远镜看见了女孩”。这个男人是看见女孩拿着望远镜还是通过望远镜看到女孩,这是模棱两可的。

语义歧义

当单词本身的含义可能被误解时,就会发生这种歧义。换句话说,当句子包含歧义词或短语时,就会发生语义歧义。例如,句子“汽车在行驶中撞到了杆子”具有语义上的歧义,因为解释可以是“汽车在行驶中撞到了杆子”和“汽车在行驶中撞到了杆子”。

照应歧义

这种歧义是由于话语中使用了回指实体而引起的。例如,那匹马跑上山了。非常陡峭。很快就累了。这里,在两种情况下“ it”的照应性引用引起歧义。

语用歧义

这种歧义是指短语的上下文对其进行多种解释的情况。用简单的话来说,我们可以说,当陈述不具体时,就会产生语用歧义。例如,句子“我也喜欢你”可以有多种解释,例如我喜欢你(就像你喜欢我),我喜欢你(就像别人一样)。

NLP阶段

下图显示了自然语言处理的阶段或逻辑步骤-

阶段或逻辑步骤

形态加工

这是自然语言处理的第一阶段。此阶段的目的是将语言输入的大块分解为与段落,句子和单词相对应的标记集。例如,像“不舒服”这样的单词可以分为两个子单词标记为“不舒服

语法分析

这是自然语言处理的第二阶段。该阶段的目的有两个方面:检查一个句子是否格式正确,并将其分解为一个结构,以显示不同单词之间的句法关系。例如,语法分析器或解析器将拒绝诸如“学校去那个男孩”的句子。

语义分析

这是自然语言处理的第三阶段。此阶段的目的是绘制确切含义,或者您可以从文本中说出字典含义。检查文本是否有意义。例如,语义分析器将拒绝“热冰淇淋”之类的句子。

语用分析

这是自然语言处理的第四阶段。语用分析简单地将实际对象/事件与给定上下文中存在的对象/事件进行匹配,最后一个阶段(语义分析)会获得对象引用。例如,句子“将香蕉放在架子上的篮子里”可以有两种语义解释,而语用分析器会在这两种可能性之间进行选择。