【深入探索-deepseek】高等数学与AI的因果关系

想象我们有一张二维图片，图片里有个点，它的位置用坐标((x, y))表示。在进行图像压缩的时候，我们发现那些比较大的奇异值对图像的主要信息影响大，小的奇异值影响小。所以就保留大的奇异值以及它们对应的那些向量（也就是奇异向量），把小的奇异值扔掉，这样就能在不怎么影响图像主要内容的情况下，减少图像的数据量，实现图像压缩。)是类别©出现的先验概率，简单说就是在没看到这张图像之前，我们根据以往经验认为这个

文墨734

1174人浏览 · 2025-02-10 16:22:57

文墨734 · 2025-02-10 16:22:57 发布

数学在AI不同领域的应用区别

一、计算机视觉领域

1.线性代数

图像变换：
想象我们有一张二维图片，图片里有个点，它的位置用坐标((x, y))表示。现在我们想把这个点绕着图片的原点（就像把纸钉在墙上，以钉子的位置为中心）逆时针旋转一定角度(\theta) 。那旋转后这个点的新位置((x’, y’))怎么算呢？可以通过下面这个矩阵乘法来计算：

$\begin{pmatrix} x' \\ y' \end{pmatrix} =\begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix}$

这里的( $\cos\theta$ )和( $\sin\theta$ )是根据旋转角度( $\theta$ )算出来的三角函数值，通过这个矩阵乘法就能得到旋转后点的新坐标。

图像压缩（奇异值分解SVD）：
一幅图像可以看成是一个由数字组成的矩阵，假设这个矩阵大小是( $m \times n$ ) ，我们把它叫做( $A$ ) 。奇异值分解（SVD）能把这个矩阵( $A$ )分解成三个矩阵相乘的形式，也就是( $U\Sigma V^T$ ) 。这里面( $U$ )是一个( $m \times m$ )的特殊矩阵，叫正交矩阵；( $\Sigma$ )是( $m \times n$ )的对角矩阵，对角线上的元素就是奇异值；( $V$ )是( $n \times n$ )的正交矩阵。

在进行图像压缩的时候，我们发现那些比较大的奇异值对图像的主要信息影响大，小的奇异值影响小。所以就保留大的奇异值以及它们对应的那些向量（也就是奇异向量），把小的奇异值扔掉，这样就能在不怎么影响图像主要内容的情况下，减少图像的数据量，实现图像压缩。

2.微积分

在训练图像识别模型的时候，我们得想办法让模型预测得更准。这时候就用到了均方误差损失函数( $L(\theta)$ )，它的计算公式是( $L(\theta)=\frac{1}{N}\sum_{i = 1}^{N}(y_i - \hat{y}_i)^2$ ) 。这里面( $N$ )就是我们用来训练模型的样本数量，( $y_i$ )是实际的真实值，( $\hat{y}_i$ )是模型预测出来的值，( $\theta$ )是模型里那些可以调整的参数。

那怎么调整这些参数让损失函数的值变小，也就是让模型预测得更准呢？这就用到了梯度下降法。它通过计算损失函数关于参数( $\theta$ )的梯度( $\nabla L(\theta)$ )来更新参数，更新公式是：

$\theta_{t + 1}=\theta_t - \eta\nabla L(\theta_t)$

这里( $\eta$ )叫学习率，它控制每次参数更新的步子大小；( $t$ )代表迭代次数，每次按照这个公式更新参数，就希望损失函数的值越来越小，模型预测得越来越好。

3.概率论与统计

在图像分类的贝叶斯方法里，我们要用到贝叶斯定理，公式是
$P(C|I)=\frac{P(I|C)P(C)}{P(I)}$ 这里( $C$ )代表图像可能属于的类别，比如是猫还是狗；( $I$ )就代表我们要分类的这张图像。( $P (C)$ )是类别©出现的先验概率，简单说就是在没看到这张图像之前，我们根据以往经验认为这个类别出现的可能性。( $P (I ∣ C$ ))是在类别( $C$ )的情况下，出现这张图像( $I$ )的似然概率，也就是如果这张图真的是类别( $C$ )，出现这样图像特征的可能性多大。( $P (I)$ )是图像( $I$ )出现的概率，一般当作归一化常数。

我们通过这个公式，计算出不同类别( $C$ )对应的( $P (C ∣ I)$ )，这个值叫后验概率，就是在看到图像( $I$ )之后，它属于类别( $C$ )的概率。最后我们选那个后验概率最大的类别，作为这张图像的分类结果。

二、自然语言处理领域

线性代数：
- 词向量表示（以Word2Vec的Skip - Gram模型为例）：假设词向量维度为 $d$ ，对于中心词 $w_c$ 和上下文词 $w_o$ ，通过模型计算它们之间的相似度得分，例如使用点积计算： $s(w_c, w_o)=v_{w_c}^T v_{w_o}$ ，其中 $v_{w_c}$ 和 $v_{w_o}$ 分别是中心词和上下文词的 $d$ 维向量表示。
- 文本分类：将文本表示为特征向量 $\mathbf{x}=[x_1,x_2,\cdots,x_n]$ ，分类器的权重向量为 $\mathbf{w}=[w_1,w_2,\cdots,w_n]$ ，则分类得分 $y=\mathbf{w}^T\mathbf{x}+b$ ，其中 $b$ 是偏置。
微积分：在训练循环神经网络（RNN）时，以简单RNN的单个时间步为例，隐藏状态 $h_t$ 的更新公式为 $h_t=\sigma(W_{xh}x_t + W_{hh}h_{t - 1}+b_h)$ ，其中 $\sigma$ 是激活函数， $W_{xh}$ 是输入到隐藏层的权重矩阵， $W_{hh}$ 是隐藏层到隐藏层的权重矩阵， $b_h$ 是隐藏层偏置。在训练过程中，通过计算损失函数（如交叉熵损失函数 $-\sum_{i = 1}^{N}y_i\log\hat{y}_i$ ，其中 $y_i$ 是真实标签的one - hot向量， $\hat{y}_i$ 是模型预测的概率分布）关于权重参数的梯度，利用基于微积分的优化算法（如Adagrad算法，参数更新公式为 $\theta_{t+1}=\theta_t-\frac{\eta}{\sqrt{G_{tt}+\epsilon}}\nabla L(\theta_t)$ ，其中 $G_{tt}$ 是梯度平方和的累积）来更新参数。
概率论与统计：
- n - gram语言模型：计算下一个单词 $w_n$ 在给定前 $n - 1$ 个单词 $w_1^{n - 1}$ 的概率 $P(w_n|w_1^{n - 1})=\frac{C(w_1^{n})}{C(w_1^{n - 1})}$ ，其中 $C(w_1^{n})$ 是单词序列 $w_1^{n}$ 在语料库中出现的次数， $C(w_1^{n - 1})$ 是单词序列 $w_1^{n - 1}$ 在语料库中出现的次数。
- 基于统计的机器翻译模型：例如IBM模型1，假设源语言句子 $f$ 和目标语言句子 $e$ ，翻译概率 $P(e|f)=\prod_{i = 1}^{|e|}P(e_i|f_{a_i})$ ，其中 $a_i$ 是源语言中与目标语言第 $i$ 个词对齐的位置。

三、语音识别领域

线性代数：
- 梅尔频率倒谱系数（MFCC）计算：在将语音信号从时域转换到频域时，使用离散傅里叶变换（DFT） $X(k)=\sum_{n = 0}^{N - 1}x(n)e^{-j\frac{2\pi}{N}kn}$ ，其中 $x (n)$ 是时域信号， $X (k)$ 是频域信号， $N$ 是信号长度。后续在计算MFCC过程中还涉及到滤波器组的线性组合等基于线性代数的运算。
微积分：在训练深度神经网络（DNN）用于语音识别时，假设使用连接时序分类（CTC）损失函数 $-\sum_{t = 1}^{T}\log p(y_t|x)$ ，其中 $x$ 是输入的语音特征序列， $y_t$ 是在时间步 $t$ 的预测标签。通过计算该损失函数关于模型参数的梯度，利用随机梯度下降（SGD）及其变种（如Adagrad、Adadelta等）来更新参数。以SGD为例，参数更新公式为 $\theta_{t+1}=\theta_t-\eta\nabla L(\theta_t)$ 。
概率论与统计：在隐马尔可夫模型（HMM）中，有状态转移概率 $P(q_{t + 1}=j|q_t = i)$ ，表示在时刻 $t$ 处于状态 $i$ ，在时刻 $t + 1$ 转移到状态 $j$ 的概率；观测概率 $P(O_t = v_k|q_t = i)$ ，表示在时刻 $t$ 处于状态 $i$ 时，观测到符号 $v_k$ 的概率。通过前向 - 后向算法计算在给定观测序列 $O_1O_2\cdots O_T$ 下模型的概率 $P(O|\lambda)$ ，并利用Baum - Welch算法进行参数估计，以优化模型性能。

四、数学在AI不同领域应用的逻辑图

数学分支	计算机视觉应用	自然语言处理应用	语音识别应用
线性代数	图像变换（旋转矩阵乘法公式）、压缩（SVD分解公式）	词向量相似度计算（点积公式）、文本分类（线性分类公式）	语音特征提取（DFT公式等）
微积分	模型训练优化（梯度下降公式）	模型训练优化（交叉熵损失函数及Adagrad更新公式等）	模型训练优化（CTC损失函数及SGD更新公式等）
概率论与统计	图像分类（贝叶斯定理公式）	语言模型（n - gram概率公式）、机器翻译（IBM模型1公式）	语音识别（HMM状态转移和观测概率公式、前向 - 后向算法等）

五、参考资料

Paul’s Online Math Notes
网站有详细的高等数学学习笔记。内容涵盖微积分、线性代数等多个高等数学分支。笔记编写得通俗易懂，并且有大量的例题和详细的解题步骤。对于自学高等数学的人来说，是一个很好的辅助工具，可以帮助他们更好地理解教材内容和解决课后作业中的问题。
Wolfram MathWorld
这是一个数学知识百科全书式的网站。对于高等数学中的各种概念、定理、公式都有详细的解释。比如在查询 “泰勒级数”
时，它不仅会给出泰勒级数的定义、公式，还会有相关的历史背景、应用案例以及与其他数学概念的联系。它还提供了许多交互式的数学工具，帮助学习者进行数学实验和探索。
中国大学 MOOC
这是一个汇聚了国内众多高校优质课程的平台。在高等数学方面，有各个学校的名师授课。例如，同济大学的《高等数学》课程，这门课程在国内高校中被广泛使用，课程在平台上有完整的教学视频、课件以及配套的练习题，可以很好地帮助学习者学习国内高校主流的高等数学知识体系。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

DeepSeek-R1 + 本地知识库解决方案

DeepSeek技术社区

DeepSeek【部署 03】客户端应用ChatBox、AnythingLLM及OpenWebUI部署使用详细步骤

DeepSeek 客户端应用ChatBox、AnythingLLM及OpenWebUI部署使用详细步骤

DeepSeek技术社区

清华大学 DeepSeek 1-6 版全资料惊艳首发，速点解锁 AI 秘境

带你全面了解DeepSeek，从基础概念、核心功能，到工具安装、环境配置，再到基础操作、交互界面解析，最后深入到定制化模型与参数优化，还有丰富的案例实战，助你快速上手。DeepSeek资料库链接：https://pan.quark.cn/s/7b94dc240bea。链接：https://pan.quark.cn/s/df8ce3ea6f4e。链接：https://pan.quark.cn/s/7