动手学深度学习系列01-楔子

前言

大模型建议先从主流开源的Qwen3、Llama3.1上⼿,先快速体验提示词⼯程,然后再学习 LLM模型架构,尝试RAG,跑LoRA微调脚本。

进一步学习目标:

  • 学习如何从零训练大模型(1B左右规模,预训练+SFT+DPO)

  • 钻研SFT

    • 1)专有任务如Code⽣成、NL2SQL或通⽤NLP的NER、分类、抽取、摘要模型

    • 2)场景领域微调,⾦融任务LLM、法律LLM、医学LLM、电商LLM

  • Llama系列\Gemma系列中文增量预训练:先做Llama3.1, 等待Llama4,期望Llama5

  • RAG落地:搭建领域问答机器人、知识问答助手

大模型学习的思路有两个:

  1. 学习见效最快,投入产出比最大的 -> 快速上手之后,能⽴即带来产出收益(譬如调包微调) 2. 学习底层基础,越靠近第⼀性原理越好 -> 底层变得慢,短期无收益但长期看好(譬如优化器)

但这么多内容,不可能什么都学,⼀定得排⼀个优先级,⽴⼀个⽬标来学习,实践和理论相 结合,不然四处为战,很快就懈怠了。

学习路线

一、机器学习数学原理

  • 线性代数:这对于理解许多算法⾄关重要,尤其是深度学习中使⽤的算法。关键概念包括向量、矩阵、行列式、特征值和特征向量、向量空间和线性变换。
  • 微积分:许多机器学习算法涉及连续函数的优化,这需要了解导数、积分、极限和级数。 多变量微积分和梯度的概念也很重要。
  • 概率和统计:这些对于理解模型如何从数据中学习并做出预测至关重要。关键概念包括概 率论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计和贝叶斯推理。

二、用于机器学习的Python

  • Python基础知识:Python编程需要很好地理解基本语法、数据类型、错误处理和面向对象编程。
  • 数据科学库:包括熟悉用于数值运算的 NumPy、用于数据操作和分析的 Pandas、用于数据可视化的 Matplotlib 和 Seaborn。
  • 数据预处理:这涉及特征缩放和标准化、处理缺失数据、异常值检测、分类数据编码以及
    将数据拆分为训练集、验证集和测试集。
  • 机器学习库:熟练使用 Scikit-learn(⼀个提供多种监督和⾮监督学习算法的库)至关重
    要。了解如何实现线性回归、逻辑回归、决策树、随机森林、k 最近邻 (K-NN) 和K均值聚类等算法。PCA和t-SNE等降维技术也有助于可视化高维数据

神经网络

神经网络是许多机器学习模型的基本组成部分,特别是在深度学习领域。为了有效地利用它
们,全面了解它们的设计和机制至关重要。

  • 基础知识:这包括理解神经网络的结构,例如层、权重、偏差、激活函数(sigmoid、tanh、ReLU 等)
  • 训练和优化:熟悉反向传播和不同类型的损失函数,例如均方误差 (MSE) 和交叉熵。了解各种优化算法,例如梯度下降、随机梯度下降、RMSprop 和 Adam。
  • 过度拟合:了解过度拟合的概念(模型在训练数据上表现良好,但在未见过的数据上表现不佳)并学习各种正则化技术(dropout、L1/L2 正则化、提前停止、数据增强)来防止
    过度拟合。
  • 实现多层感知器 (MLP):使用 PyTorch 构建 MLP,也称为全连接网络。

其他地不想写了,看这里吧(完整版)

https://github.com/fishcanf1y/Machine-Learning-Notes/blob/main/%E4%B8%80%E3%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E4%BB%8E0%E5%88%B01%E5%AD%A6%E4%B9%A0-%E5%9F%BA%E7%A1%80%E9%80%9F%E5%AD%A6.pdf


动手学深度学习系列01-楔子
https://zer0ptr.github.io/2025/07/18/动手学深度学习系列01-楔子/
Author
zer0ptr
Posted on
July 18, 2025
Licensed under