NLP & LLM入门

1 · Jarson Cai · Jan. 18, 2024, 10:18 a.m.
🌀Jarson Cai's Blog https://caixiongjiang.github.io/blog/2024/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8/nlpllm/ -NLP & LLM入门 对于一个LLM菜鸡来说,从头理解LLM主要架构和任务是很有意义的。 LLM发展 双向RNN中的注意力 论文:Neural Machine Translation by Jointly Learning to Align and Translate 链接:https://arxiv.org/pdf/1409.0473.pdf 该论文引入了循环神经网络(RNN)的注意力机制。传统的 RNN 在处理较长序列时可能会遇到梯度消失或梯度爆炸等问题,导致远程位置的信息难以传递。注意力机制能够通过给予不同位置的输入不同的权重,使模型更好地捕捉到远程位置的信息,从而提高模型处理远程序列的能力。后续Transformer网络的开发也是为了提高网络的远程序列建模能力。 Transformer 论文:Attention Is All You Need 链...