NLP & LLM入门

1 · Jarson Cai · Jan. 18, 2024, 10:18 a.m.

🌀Jarson Cai's Blog https://caixiongjiang.github.io/blog/2024/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8/nlpllm/ -NLP & LLM入门对于一个LLM菜鸡来说，从头理解LLM主要架构和任务是很有意义的。 LLM发展双向RNN中的注意力论文：Neural Machine Translation by Jointly Learning to Align and Translate 链接：https://arxiv.org/pdf/1409.0473.pdf 该论文引入了循环神经网络（RNN）的注意力机制。传统的 RNN 在处理较长序列时可能会遇到梯度消失或梯度爆炸等问题，导致远程位置的信息难以传递。注意力机制能够通过给予不同位置的输入不同的权重，使模型更好地捕捉到远程位置的信息，从而提高模型处理远程序列的能力。后续Transformer网络的开发也是为了提高网络的远程序列建模能力。 Transformer 论文：Attention Is All You Need 链...

Read full post on caixiongjiang.github.io