浙江大学《大模型基础》大模型基础教材（PDF文件）

LLMs

《大模型基础》全面且系统地阐述了大语言模型（LLMs）的相关知识，涵盖基础知识、架构设计、训练优化以及应用实践等多个方面。

书中从语言模型的基础理论入手，深入剖析了基于统计、RNN 和 Transformer 的模型架构。对于基于统计方法的语言模型，详细介绍了 n-gram 模型及其统计学原理，包括马尔可夫假设和极大似然估计。在讲解基于 RNN 的语言模型时，不仅阐述了循环神经网络的结构，还分析了其训练过程中存在的梯度消失 / 爆炸问题，以及在语言建模中的应用。而对于当下主流的基于 Transformer 的语言模型，更是进行了详细解析，包括 Transformer 的架构组成，如自注意力、FFN、层归一化、残差连接等，以及其在语言模型中的应用优势。

此外，书中还重点分析了大语言模型的架构类型，如 Encoder – only、Encoder – Decoder、Decoder – only 等，并且介绍了各自的代表模型，像 BERT、T5、GPT 系列等。同时，详细讲解了 Prompt 工程、参数高效微调、模型编辑和检索增强生成等关键技术，并结合实际案例展示了这些技术在不同场景中的应用，帮助读者更好地理解和掌握如何有效应用大语言模型技术。在语言模型的评测方面，也介绍了内在评测方法，如困惑度，以及外在评测方法，如 BLEU、ROUGE、BERTScore、G – EVAL 等。

该书的下载链接为：https://github.com/LLMBook-zh/LLMBook-zh.github.io/blob/main/LLMBook.pdf 以及 http://aibox.ruc.edu.cn/zws/index.htm。