正则化

发表于2025-10-10|更新于2025-10-15|机器学习

|浏览量:

我们可以使用形如 $y=\theta_0+\theta_1x$ 的线性模型来拟合训练数据，也可以选择拥有更多参数的 $y=\theta_0+\theta_1x+\theta_2x^2$ 的多项式来拟合，也可以选择其它非线性模型来拟合。但不论选择何种模型，最终都要转化到如下最小化问题：

\min \sum_{i=1}^m(h(x^i)-y^i)^2

对于线性模型，我们已经掌握了使用梯度下降法和正规方程法来求解这个最小化问题。对于正规方程法，矩阵 $X^TX$ 不一定是可逆的，我们可以使用 正则化 来解决这个问题。

欠拟合和过拟合

假如有 $n$ 个训练数据，我们可以使用 $y=\theta_0+\theta_1x$ 的线性模型来拟合，也可以使用 $y=\theta_0+\theta_1x+\cdots+\theta_{n-1}x^{n-1}$ 的多项式模型来拟合。根据代数基本定理， $n$ 个测试数据训练出的多项式模型是唯一的，并且完美拟合所有的测试数据（即代价函数为0）。

前者的拟合效果可能不是很好，这是由于模型不够好，导致预测值不准确，称其为 欠拟合；后者虽然达到了测试数据的完美拟合，但是它将每个点均考虑在模型的构建过程当中，放大了错误数据的贡献，导致其它部分的拟合效果也不是很好，称其为 过拟合。

正则化

欠拟合可以寻找更好的模型，过拟合需要用到 正则化 的方法来处理。具体做法是添加代价函数的惩罚项，防止模型对数据过拟合。

\min \sum_{i=1}^m(h(x^i)-y^i)^2+\lambda\Omega(\theta)

其中正则化项 $\Omega(\theta)$ 可以精细化每个测试数据的贡献，使之对拟合的贡献更加合理。设计一个合理的 $\Omega(\theta)$ 是机器学习的一大难点。

岭回归

岭回归的正则化项是模型参数的L2范数，

文章作者: Qianmo

文章链接: https://qianmo-su.github.io/2025/10/10/%E6%AD%A3%E5%88%99%E5%8C%96/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Qianmo's Blog！

相关推荐

MATLAB/Octave 学习笔记

现在主流的机器学习、人工智能的语言非 Python 莫属，但是在理解深度学习算法原理，比如梯度下降法、正规方程法等时， MATLAB 在矩阵计算、可视化等方面具有天然的优势。因此，本篇文章主要讲述 MATLAB 的基本使用方法，并运用于简单的机器学习算法之中。运算符一些运算符（如加减乘除等）和主流编程语言（如 C++、Python ）基本一致，故省略。在这里介绍一些与主流编程语言不同的运算符： ~= 这类似于主流编程语言中的 != ，如 1~=2 返回 true ，而 1~=1 返回 false ； xor 这类似于 ^ ，表示异或运算，如 xor(1,0) 返回 1。变量 MATLAB 和 Python 一样，定义变量时不需要声明数据类型。同时 MATLAB 和 Python 一样，也具有编译器和解释器。在 MATLAB 的解释器中输入 a = 3 ，会输出 a = 3 ，但假如在输入后加一个分号，如 a = 3; ，就不会输出，只执行赋值操作。 MATLAB 也有不同的数据类型，如整数、浮点数、字符串等，可以通过类似于 a = 3，a = 3.14，a =...

梯度下降和正规方程

监督学习：给定一组样本（训练集），交给机器训练，让机器通过训练集来预测数据。符号说明： mmm 训练样本的数量 xxx 输入变量/特征 yyy 输出变量/预测的目标变量 (x,y)(x,y)(x,y) 一组训练样本 (xi,yi)(x^i,y^i)(xi,yi) 第iii组训练样本线性回归模型监督学习的目的：根据训练数据得到一个假设函数 hhh ，这个假设函数可以实现：输入一个变量/特征，输出预测的目标变量。在一开始，认为假设函数 h(x)=θ0+θ1xh(x) = \theta_0+\theta_1 xh(x)=θ0+θ1x ，也就是预测的目标变量是关于输入变量的线性函数。我们先拟合线性函数，在后续再对模型加以改进，引入更加复杂的模型。这种线性模型被称作线性回归，上述的模型只有一个变量 xxx ，也被称为一元线性回归（单变量线性回归）。代价函数为了让我们的线性回归模型 h(x)=θ0+θ1xh(x) = \theta_0+\theta_1 xh(x)=θ0+θ1x 更加拟合训练数据，我们需要合理选择两个参数...

数论分块数论分块可以快速计算一些形如 ∑i=1nf(i)g(⌊ni⌋)\sum_{i=1}^nf(i)g(\left \lfloor \frac{n}{i} \right \rfloor ) i=1∑nf(i)g(⌊in⌋) 的和式。如果可以在 O(1)O(1)O(1) 时间内计算出 ∑i=lrf(i)\sum_{i=l}^{r}f(i)∑i=lrf(i) 或者已经预处理出 fff 的前缀和时，就可以用数论分块在 O(n)O(\sqrt{n})O(n) 时间内计算出上述和式的值。思路首先，若计算和式： ∑i=111⌊11i⌋\sum_{i=1}^{11}\left \lfloor \frac{11}{i}\right \rfloor i=1∑11⌊i11⌋ 首先观察到，对于不同的 iii，⌊11i⌋\left \lfloor \frac{11}{i}\right \rfloor⌊i11⌋ 的值有部分相同，呈现出“块状”结构。 i 1 2 3 4 5 6 7 8 9 10 11 ⌊11i⌋\left\lfloor...

狄利克雷卷积 & 莫比乌斯反演

莫比乌斯函数定义莫比乌斯函数是一个数论函数，定义如下： μ(n)={1,n=1(−1)k,n是k个不同质数的乘积0,n含有平方因子\mu(n)= \begin{cases} 1,\quad n=1 \\ (-1)^k,\quad \text{$n$是$k$个不同质数的乘积}\\ 0,\quad \text{$n$含有平方因子} \end{cases} μ(n)=⎩⎪⎪⎨⎪⎪⎧1,n=1(−1)k,n是k个不同质数的乘积0,n含有平方因子例如： μ(1)=1,μ(2)=−1,μ(6)=1,μ(12)=0\mu(1)=1,\mu(2)=-1,\mu(6)=1,\mu(12)=0 μ(1)=1,μ(2)=−1,μ(6)=1,μ(12)=0 性质莫比乌斯函数是积性函数，也就是： (m,n)=1⇒μ(mn)=μ(m)μ(n)(m,n)=1\Rightarrow...

博弈论-SG函数

公平组合游戏（ICG）在算法竞赛中，遇到的最多的就是公平组合游戏（ICG），一个公平组合游戏应该满足如下的性质：有两名玩家两名玩家轮流操作，在一个有限集合内任选一个进行操作，改变游戏当前局面一个局面的合法操作，只取决于游戏局面本身且固定存在，与玩家次序或者任何其它因素无关无法操作者，即操作集合为空，输掉游戏，另一方获胜 ICG具有先手必胜状态和先手必败状态，具体地说：先手必胜状态：可以走到某一个必败状态（走完之后，对于后手就是必败的）先手必败状态：走不到任何一个必败状态（不管怎么走，后手都是必胜的） Nim游戏给定 nnn 堆石子，两位玩家轮流操作，每次操作可以从任意一堆石子中拿走任意数量的石子（可以拿完，但不能不拿），最后无法进行操作的人视为失败。问如果两人都采用最优策略，先手是否必胜。这个问题的结论是熟知的：假设第 iii 堆石子有 aia_iai 个，则先手必胜当且仅当： a1⊕a2⊕⋯⊕an≠0a_1\oplus a_2\oplus\cdots\oplus a_n \ne...