📜  Sparse Transformer:Stride 和 Fixed Factorized Attention(1)

📅  最后修改于: 2023-12-03 15:05:14.981000             🧑  作者: Mango

稀疏Transformer:步长和固定分解注意力

Sparse Transformer

随着Transformer模型被证明是自然语言处理任务中的最佳模型之一,人们开始更深入地研究该模型并提出改进方法。其中一个改进是稀疏Transformer(Sparse Transformer),它通过引入步长和固定分解注意力来提高模型的效率和可扩展性。

步长(Stride)注意力

通常,在Transformer中,注意力头的数目是固定的,这会在计算量上增加一定的负担。因此,研究人员开始探索减少计算量的方法。其中一个方法是步长注意力。这种新型注意力机制根据固定的间隔跳过注意力头,这就导致了最终输出中的某些位置完全没有被计算。

步长选择是可预测的,并且可以在训练前确定。这种方法的优点是,在处理长序列时计算量的大幅度降低。

固定分解注意力

另一种改进方法是固定分解注意力机制。传统Transformer的注意力机制需要计算两个向量之间的点积,其计算量为 $O(d)$。固定分解注意力是用一个低秩矩阵来逼近这个向量,这降低了计算复杂度,使其减少到 $O(\frac{d}{r})$,其中 $r$ 是矩阵的秩。

此外,由于特定采样方法,可以使计算的 $d$ 远小于Transformer中的 $d$(以此换取较低的精度损失)。这导致了更快的计算速度和更低的内存需求。

结论

稀疏Transformer利用了步长和固定分解注意力机制的技术进步,将Transformer模型推向了更高效、可重复、可扩展的状态。这些方法在长序列处理方面有明显的优势,对于大数据集训练尤其有用。