
LLMs
《大模型基础》全面且系统地阐述了大语言模型(LLMs)的相关知识,涵盖基础知识、架构设计、训练优化以及应用实践等多个方面。
书中从语言模型的基础理论入手,深入剖析了基于统计、RNN 和 Transformer 的模型架构。对于基于统计方法的语言模型,详细介绍了 n-gram 模型及其统计学原理,包括马尔可夫假设和极大似然估计。在讲解基于 RNN 的语言模型时,不仅阐述了循环神经网络的结构,还分析了其训练过程中存在的梯度消失 / 爆炸问题,以及在语言建模中的应用。而对于当下主流的基于 Transformer 的语言模型,更是进行了详细解析,包括 Transformer 的架构组成,如自注意力、FFN、层归一化、残差连接等,以及其在语言模型中的应用优势。
此外,书中还重点分析了大语言模型的架构类型,如 Encoder – only、Encoder – Decoder、Decoder – only 等,并且介绍了各自的代表模型,像 BERT、T5、GPT 系列等。同时,详细讲解了 Prompt 工程、参数高效微调、模型编辑和检索增强生成等关键技术,并结合实际案例展示了这些技术在不同场景中的应用,帮助读者更好地理解和掌握如何有效应用大语言模型技术。在语言模型的评测方面,也介绍了内在评测方法,如困惑度,以及外在评测方法,如 BLEU、ROUGE、BERTScore、G – EVAL 等。
该书的下载链接为:https://github.com/LLMBook-zh/LLMBook-zh.github.io/blob/main/LLMBook.pdf 以及 http://aibox.ruc.edu.cn/zws/index.htm。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...