浙江大学《大模型基础》大模型基础教材(PDF文件)

AI 百科2个月前更新 Timi
0 0 0

 

LLMs

LLMs

《大模型基础》全面且系统地阐述了大语言模型(LLMs)的相关知识,涵盖基础知识、架构设计、训练优化以及应用实践等多个方面。

书中从语言模型的基础理论入手,深入剖析了基于统计、RNN 和 Transformer 的模型架构。对于基于统计方法的语言模型,详细介绍了 n-gram 模型及其统计学原理,包括马尔可夫假设和极大似然估计。在讲解基于 RNN 的语言模型时,不仅阐述了循环神经网络的结构,还分析了其训练过程中存在的梯度消失 / 爆炸问题,以及在语言建模中的应用。而对于当下主流的基于 Transformer 的语言模型,更是进行了详细解析,包括 Transformer 的架构组成,如自注意力、FFN、层归一化、残差连接等,以及其在语言模型中的应用优势。

此外,书中还重点分析了大语言模型的架构类型,如 Encoder – only、Encoder – Decoder、Decoder – only 等,并且介绍了各自的代表模型,像 BERT、T5、GPT 系列等。同时,详细讲解了 Prompt 工程、参数高效微调、模型编辑和检索增强生成等关键技术,并结合实际案例展示了这些技术在不同场景中的应用,帮助读者更好地理解和掌握如何有效应用大语言模型技术。在语言模型的评测方面,也介绍了内在评测方法,如困惑度,以及外在评测方法,如 BLEU、ROUGE、BERTScore、G – EVAL 等。

该书的下载链接为:https://github.com/LLMBook-zh/LLMBook-zh.github.io/blob/main/LLMBook.pdf 以及 http://aibox.ruc.edu.cn/zws/index.htm

© 版权声明

相关文章

暂无评论

none
暂无评论...