深度学习与大语言模型开源书单 --实验盒

下面是一些开源的深度学习与大语言模型教程书籍，可以从 GitHub 免费下载。

神经网络与深度学习

链接： **https://nndl.github.io/

介绍： 系统地整理了神经网络和深度学习的知识体系。鉴于深度学习涉及的知识点较多，本书从机器学习的基本概念、神经网络模型以及概率图模型三个层面来串联深度学习所涉及的知识点，使读者对深度学习技术的理解更具系统性、条理性和全面性。

动手学深度学习

链接： https://zh.d2l.ai/

介绍： 这本书代表了我们的尝试——让深度学习可平易近人，教会人们概念、背景和代码。

李宏毅深度学习教程LeeDL-Tutorial（苹果书）

链接： https://github.com/datawhalechina/leedl-tutorial

介绍： 李宏毅老师是台湾大学的教授，其《机器学习》（2021年春）是深度学习领域经典的中文视频之一。李老师幽默风趣的授课风格深受大家喜爱，让晦涩难懂的深度学习理论变得轻松易懂，他会通过很多动漫相关的有趣例子来讲解深度学习理论。李老师的课程内容很全面，覆盖了到深度学习必须掌握的常见理论，能让学生对于深度学习的绝大多数领域都有一定了解，从而可以进一步选择想要深入的方向进行学习，培养深度学习的直觉，对于想入门深度学习又想看中文讲解的同学是非常推荐的。本教程主要内容源于《机器学习》（2021年春），并在其基础上进行了一定的原创。比如，为了尽可能地降低阅读门槛，笔者对这门公开课的精华内容进行选取并优化，对所涉及的公式都给出详细的推导过程，对较难理解的知识点进行了重点讲解和强化，以方便读者较为轻松地入门。此外，为了丰富内容，笔者在教程中选取了《机器学习》（2017年春）的部分内容，并补充了不少除这门公开课之外的深度学习相关知识。

大模型基础

链接： https://github.com/ZJU-LLMs/Foundations-of-LLMs

介绍： 本书旨在为对大语言模型感兴趣的读者系统地讲解相关基础知识、介绍前沿技术。作者团队将认真听取开源社区以及广大专家学者的建议，持续进行月度更新，致力打造易读、严谨、有深度的大模型教材。并且，本书还将针对每章内容配备相关的Paper List，以跟踪相关技术的最新进展。本书第一版包括传统语言模型、大语言模型架构演化、Prompt工程、参数高效微调、模型编辑、检索增强生成等六章内容。为增加本书的易读性，每章分别以一种动物为背景，对具体技术进行举例说明，故此本书以六种动物作为封面。当前版本所含内容均来源于作者团队对相关方向的探索与理解，如有谬误，恳请大家多提issue，多多赐教。后续，作者团队还将继续探索大模型推理加速、大模型智能体等方向。相关内容也将陆续补充到本书的后续版本中，期待封面上的动物越来越多。

自然语言处理：大模型理论与实践

链接： https://nlp-book.swufenlp.group/

介绍： 自然语言处理（Natural Language Processing, NLP）是计算机科学与人工智能交叉领域中的一门关键技术，其目标是使计算机能够理解、解释、生成人类语言。在当今人工智能时代，NLP 技术已经深刻地渗透到我们日常生活的方方面面，从智能助手、语音识别到机器翻译和文本生成，NLP 正以惊人的速度改变着我们的生活方式。特别的是，2022 年底以 ChatGPT 为代表的大模型技术横空出世，进一步推动了新一代人工智能技术的发展。大模型技术颠覆了自然语言处理领域传统的知识体系。然而，目前以大模型技术为主线介绍自然语言处理知识的教材较为缺乏。基于此考虑，催生了编著本教材的想法。本教材主要针对高校本科生、研究生以及教学科研人员，作为教学用书。当然，也适用于计算语言学家、语言学家、数据科学家和 NLP 开发人员等专业人士。考虑到不同读者的学科差异，本书在附录部分介绍了概率论、信息论、机器学习与强化学习等 NLP 交叉学科的基础知识。阅读本教材最好具备 Python 的编程知识。

大规模语言模型：从理论到实践

链接： https://intro-llm.github.io/

介绍： 大语言模型（Large Language Models，LLM）是一种由包含数百亿以上权重的深度神经网络构建的语言模型，使用自监督学习方法通过大量无标记文本进行训练。自2018年以来，包含Google、OpenAI、Meta、百度、华为等公司和研究机构都纷纷发布了包括BERT， GPT等在内多种模型，并在几乎所有自然语言处理任务中都表现出色。2021年开始大模型呈现爆发式的增长，特别是2022年11月ChatGPT发布后，更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互，从而实现包括问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。大型语言模型展现出了强大的对世界知识掌握和对语言的理解。本书将介绍大语言模型的基础理论包括语言模型、分布式模型训练以及强化学习，并以Deepspeed-Chat框架为例介绍实现大语言模型和类ChatGPT系统的实践。