📜  理解 BERT – NLP(1)

📅  最后修改于: 2023-12-03 15:11:12.775000             🧑  作者: Mango

理解 BERT - NLP

BERT是一种基于神经网络架构的自然语言处理(NLP)模型,由Google公司在2018年发布。BERT全称为Bidirectional Encoder Representations from Transformers。

BERT的名字中"Bidirectional"对应的是这个模型的双向性:它在处理输入数据时,既会考虑前面的词语,也会考虑后面的词语;"Transformer"则对应的是这个模型中的自注意力机制。该机制让模型能够针对不同位置的输入,分别计算出不同的"合 /权重"值。

BERT在处理自然语言任务时,通常有两个阶段。第一个阶段是训练阶段,在此阶段,模型会提前读取大量文本并构建出词向量等的参数;第二个阶段是应用阶段,该阶段在具体任务中,传入目标数据,得到对应的预测输出。

在BERT的训练中,有几个重要的概念需要理解:

  • Tokenization(分词)
  • Masking(遮挡)
  • Sentence embeddings

具体来说,BERT在分词过程中,使用了WordPiece的方法,即将单词切割成多个片段,每个片段都可以表示成独立的词,从而更好地学习到单词内部的结构和含义。而在模型预测时,则需要对输入文本进行Masking,即随机选取一些词汇并将其替换为“[MASK]”,从而让模型更好地捕捉上下文语境中的信息。最后,BERT还将每个句子映射到一个向量上,作为模型输出的一部分。

当然,BERT并不是唯一的NLP模型,还有很多其他的模型,例如GPT、ELMo等。每种模型都有其优势和劣势,具体选择要根据不同的任务和数据集进行抉择。

对于程序员来说,理解NLP模型是建立自然语言处理系统的必要前提,因此建议花些时间研究和学习有关NLP的知识。

# 理解 BERT - NLP

BERT是一种基于神经网络架构的自然语言处理(NLP)模型,由Google公司在2018年发布。

BERT的名字中"Bidirectional"对应的是这个模型的双向性:它在处理输入数据时,既会考虑前面的词语,也会考虑后面的词语;"Transformer"则对应的是这个模型中的自注意力机制。该机制让模型能够针对不同位置的输入,分别计算出不同的"合 /权重"值。

BERT在处理自然语言任务时,通常有两个阶段。第一个阶段是训练阶段,在此阶段,模型会提前读取大量文本并构建出词向量等的参数;第二个阶段是应用阶段,该阶段在具体任务中,传入目标数据,得到对应的预测输出。

在BERT的训练中,有几个重要的概念需要理解:

- Tokenization(分词)
- Masking(遮挡)
- Sentence embeddings

具体来说,BERT在分词过程中,使用了WordPiece的方法,即将单词切割成多个片段,每个片段都可以表示成独立的词,从而更好地学习到单词内部的结构和含义。

而在模型预测时,则需要对输入文本进行Masking,即随机选取一些词汇并将其替换为“[MASK]”,从而让模型更好地捕捉上下文语境中的信息。

最后,BERT还将每个句子映射到一个向量上,作为模型输出的一部分。

当然,BERT并不是唯一的NLP模型,还有很多其他的模型,例如GPT、ELMo等。每种模型都有其优势和劣势,具体选择要根据不同的任务和数据集进行抉择。

对于程序员来说,理解NLP模型是建立自然语言处理系统的必要前提,因此建议花些时间研究和学习有关NLP的知识。