
【深入探索-deepseek】高等数学与AI的因果关系
想象我们有一张二维图片,图片里有个点,它的位置用坐标((x, y))表示。在进行图像压缩的时候,我们发现那些比较大的奇异值对图像的主要信息影响大,小的奇异值影响小。所以就保留大的奇异值以及它们对应的那些向量(也就是奇异向量),把小的奇异值扔掉,这样就能在不怎么影响图像主要内容的情况下,减少图像的数据量,实现图像压缩。)是类别©出现的先验概率,简单说就是在没看到这张图像之前,我们根据以往经验认为这个
数学在AI不同领域的应用区别
一、计算机视觉领域
1.线性代数
-
图像变换:
想象我们有一张二维图片,图片里有个点,它的位置用坐标((x, y))表示 。现在我们想把这个点绕着图片的原点(就像把纸钉在墙上,以钉子的位置为中心)逆时针旋转一定角度(\theta) 。那旋转后这个点的新位置((x’, y’))怎么算呢?可以通过下面这个矩阵乘法来计算:( x ′ y ′ ) = ( cos θ − sin θ sin θ cos θ ) ( x y ) \begin{pmatrix} x' \\ y' \end{pmatrix} =\begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} (x′y′)=(cosθsinθ−sinθcosθ)(xy)
这里的( cos θ \cos\theta cosθ)和( sin θ \sin\theta sinθ)是根据旋转角度( θ \theta θ)算出来的三角函数值,通过这个矩阵乘法就能得到旋转后点的新坐标。
- 图像压缩(奇异值分解SVD):
一幅图像可以看成是一个由数字组成的矩阵,假设这个矩阵大小是( m × n m×n m×n) ,我们把它叫做( A A A) 。奇异值分解(SVD)能把这个矩阵( A A A)分解成三个矩阵相乘的形式,也就是( A = U Σ V T A = U\Sigma V^T A=UΣVT) 。这里面( U U U)是一个( m × m m×m m×m)的特殊矩阵,叫正交矩阵;( Σ \Sigma Σ)是( m × n m×n m×n)的对角矩阵,对角线上的元素就是奇异值;( V V V)是( n × n n×n n×n)的正交矩阵。
在进行图像压缩的时候,我们发现那些比较大的奇异值对图像的主要信息影响大,小的奇异值影响小。所以就保留大的奇异值以及它们对应的那些向量(也就是奇异向量),把小的奇异值扔掉,这样就能在不怎么影响图像主要内容的情况下,减少图像的数据量,实现图像压缩。
2.微积分
在训练图像识别模型的时候,我们得想办法让模型预测得更准。这时候就用到了均方误差损失函数( L ( θ ) L(\theta) L(θ)),它的计算公式是( L ( θ ) = 1 N ∑ i = 1 N ( y i − y ^ i ) 2 L(\theta)=\frac{1}{N}\sum_{i = 1}^{N}(y_i - \hat{y}_i)^2 L(θ)=N1∑i=1N(yi−y^i)2) 。这里面( N N N)就是我们用来训练模型的样本数量,( y i y_i yi)是实际的真实值,( y ^ i \hat{y}_i y^i)是模型预测出来的值,( θ \theta θ)是模型里那些可以调整的参数。
那怎么调整这些参数让损失函数的值变小,也就是让模型预测得更准呢?这就用到了梯度下降法。它通过计算损失函数关于参数( θ \theta θ)的梯度( ∇ L ( θ ) \nabla L(\theta) ∇L(θ))来更新参数,更新公式是:
θ t + 1 = θ t − η ∇ L ( θ t ) \theta_{t + 1}=\theta_t - \eta\nabla L(\theta_t) θt+1=θt−η∇L(θt)
这里( η \eta η)叫学习率,它控制每次参数更新的步子大小;( t t t)代表迭代次数,每次按照这个公式更新参数,就希望损失函数的值越来越小,模型预测得越来越好。
3.概率论与统计
在图像分类的贝叶斯方法里,我们要用到贝叶斯定理,公式是
P
(
C
∣
I
)
=
P
(
I
∣
C
)
P
(
C
)
P
(
I
)
P(C|I)=\frac{P(I|C)P(C)}{P(I)}
P(C∣I)=P(I)P(I∣C)P(C) 这里(
C
C
C)代表图像可能属于的类别,比如是猫还是狗;(
I
I
I)就代表我们要分类的这张图像。(
P
(
C
)
P(C)
P(C))是类别©出现的先验概率,简单说就是在没看到这张图像之前,我们根据以往经验认为这个类别出现的可能性。(
P
(
I
∣
C
P(I|C
P(I∣C))是在类别(
C
C
C)的情况下,出现这张图像(
I
I
I)的似然概率,也就是如果这张图真的是类别(
C
C
C),出现这样图像特征的可能性多大。(
P
(
I
)
P(I)
P(I))是图像(
I
I
I)出现的概率,一般当作归一化常数。
我们通过这个公式,计算出不同类别( C C C)对应的( P ( C ∣ I ) P(C|I) P(C∣I)),这个值叫后验概率,就是在看到图像( I I I)之后,它属于类别( C C C)的概率。最后我们选那个后验概率最大的类别,作为这张图像的分类结果。
二、自然语言处理领域
- 线性代数:
- 词向量表示(以Word2Vec的Skip - Gram模型为例):假设词向量维度为 d d d,对于中心词 w c w_c wc和上下文词 w o w_o wo,通过模型计算它们之间的相似度得分,例如使用点积计算: s ( w c , w o ) = v w c T v w o s(w_c, w_o)=v_{w_c}^T v_{w_o} s(wc,wo)=vwcTvwo,其中 v w c v_{w_c} vwc和 v w o v_{w_o} vwo分别是中心词和上下文词的 d d d维向量表示。
- 文本分类:将文本表示为特征向量 x = [ x 1 , x 2 , ⋯ , x n ] \mathbf{x}=[x_1,x_2,\cdots,x_n] x=[x1,x2,⋯,xn],分类器的权重向量为 w = [ w 1 , w 2 , ⋯ , w n ] \mathbf{w}=[w_1,w_2,\cdots,w_n] w=[w1,w2,⋯,wn],则分类得分 y = w T x + b y=\mathbf{w}^T\mathbf{x}+b y=wTx+b,其中 b b b是偏置。
- 微积分:在训练循环神经网络(RNN)时,以简单RNN的单个时间步为例,隐藏状态 h t h_t ht的更新公式为 h t = σ ( W x h x t + W h h h t − 1 + b h ) h_t=\sigma(W_{xh}x_t + W_{hh}h_{t - 1}+b_h) ht=σ(Wxhxt+Whhht−1+bh),其中 σ \sigma σ是激活函数, W x h W_{xh} Wxh是输入到隐藏层的权重矩阵, W h h W_{hh} Whh是隐藏层到隐藏层的权重矩阵, b h b_h bh是隐藏层偏置。在训练过程中,通过计算损失函数(如交叉熵损失函数 L = − ∑ i = 1 N y i log y ^ i L = -\sum_{i = 1}^{N}y_i\log\hat{y}_i L=−∑i=1Nyilogy^i,其中 y i y_i yi是真实标签的one - hot向量, y ^ i \hat{y}_i y^i是模型预测的概率分布)关于权重参数的梯度,利用基于微积分的优化算法(如Adagrad算法,参数更新公式为 θ t + 1 = θ t − η G t t + ϵ ∇ L ( θ t ) \theta_{t+1}=\theta_t-\frac{\eta}{\sqrt{G_{tt}+\epsilon}}\nabla L(\theta_t) θt+1=θt−Gtt+ϵη∇L(θt),其中 G t t G_{tt} Gtt是梯度平方和的累积)来更新参数。
- 概率论与统计:
- n - gram语言模型:计算下一个单词 w n w_n wn在给定前 n − 1 n - 1 n−1个单词 w 1 n − 1 w_1^{n - 1} w1n−1的概率 P ( w n ∣ w 1 n − 1 ) = C ( w 1 n ) C ( w 1 n − 1 ) P(w_n|w_1^{n - 1})=\frac{C(w_1^{n})}{C(w_1^{n - 1})} P(wn∣w1n−1)=C(w1n−1)C(w1n),其中 C ( w 1 n ) C(w_1^{n}) C(w1n)是单词序列 w 1 n w_1^{n} w1n在语料库中出现的次数, C ( w 1 n − 1 ) C(w_1^{n - 1}) C(w1n−1)是单词序列 w 1 n − 1 w_1^{n - 1} w1n−1在语料库中出现的次数。
- 基于统计的机器翻译模型:例如IBM模型1,假设源语言句子 f f f和目标语言句子 e e e,翻译概率 P ( e ∣ f ) = ∏ i = 1 ∣ e ∣ P ( e i ∣ f a i ) P(e|f)=\prod_{i = 1}^{|e|}P(e_i|f_{a_i}) P(e∣f)=∏i=1∣e∣P(ei∣fai),其中 a i a_i ai是源语言中与目标语言第 i i i个词对齐的位置。
三、语音识别领域
- 线性代数:
- 梅尔频率倒谱系数(MFCC)计算:在将语音信号从时域转换到频域时,使用离散傅里叶变换(DFT) X ( k ) = ∑ n = 0 N − 1 x ( n ) e − j 2 π N k n X(k)=\sum_{n = 0}^{N - 1}x(n)e^{-j\frac{2\pi}{N}kn} X(k)=∑n=0N−1x(n)e−jN2πkn,其中 x ( n ) x(n) x(n)是时域信号, X ( k ) X(k) X(k)是频域信号, N N N是信号长度。后续在计算MFCC过程中还涉及到滤波器组的线性组合等基于线性代数的运算。
- 微积分:在训练深度神经网络(DNN)用于语音识别时,假设使用连接时序分类(CTC)损失函数 L = − ∑ t = 1 T log p ( y t ∣ x ) L = -\sum_{t = 1}^{T}\log p(y_t|x) L=−∑t=1Tlogp(yt∣x),其中 x x x是输入的语音特征序列, y t y_t yt是在时间步 t t t的预测标签。通过计算该损失函数关于模型参数的梯度,利用随机梯度下降(SGD)及其变种(如Adagrad、Adadelta等)来更新参数。以SGD为例,参数更新公式为 θ t + 1 = θ t − η ∇ L ( θ t ) \theta_{t+1}=\theta_t-\eta\nabla L(\theta_t) θt+1=θt−η∇L(θt)。
- 概率论与统计:在隐马尔可夫模型(HMM)中,有状态转移概率 P ( q t + 1 = j ∣ q t = i ) P(q_{t + 1}=j|q_t = i) P(qt+1=j∣qt=i),表示在时刻 t t t处于状态 i i i,在时刻 t + 1 t + 1 t+1转移到状态 j j j的概率;观测概率 P ( O t = v k ∣ q t = i ) P(O_t = v_k|q_t = i) P(Ot=vk∣qt=i),表示在时刻 t t t处于状态 i i i时,观测到符号 v k v_k vk的概率。通过前向 - 后向算法计算在给定观测序列 O = O 1 O 2 ⋯ O T O = O_1O_2\cdots O_T O=O1O2⋯OT下模型的概率 P ( O ∣ λ ) P(O|\lambda) P(O∣λ),并利用Baum - Welch算法进行参数估计,以优化模型性能。
四、数学在AI不同领域应用的逻辑图
数学分支 | 计算机视觉应用 | 自然语言处理应用 | 语音识别应用 |
---|---|---|---|
线性代数 | 图像变换(旋转矩阵乘法公式)、压缩(SVD分解公式) | 词向量相似度计算(点积公式)、文本分类(线性分类公式) | 语音特征提取(DFT公式等) |
微积分 | 模型训练优化(梯度下降公式) | 模型训练优化(交叉熵损失函数及Adagrad更新公式等) | 模型训练优化(CTC损失函数及SGD更新公式等) |
概率论与统计 | 图像分类(贝叶斯定理公式) | 语言模型(n - gram概率公式)、机器翻译(IBM模型1公式) | 语音识别(HMM状态转移和观测概率公式、前向 - 后向算法等) |
五、参考资料
- Paul’s Online Math Notes
网站有详细的高等数学学习笔记。内容涵盖微积分、线性代数等多个高等数学分支。笔记编写得通俗易懂,并且有大量的例题和详细的解题步骤。对于自学高等数学的人来说,是一个很好的辅助工具,可以帮助他们更好地理解教材内容和解决课后作业中的问题。 - Wolfram MathWorld
这是一个数学知识百科全书式的网站。对于高等数学中的各种概念、定理、公式都有详细的解释。比如在查询 “泰勒级数”
时,它不仅会给出泰勒级数的定义、公式,还会有相关的历史背景、应用案例以及与其他数学概念的联系。它还提供了许多交互式的数学工具,帮助学习者进行数学实验和探索。 - 中国大学 MOOC
这是一个汇聚了国内众多高校优质课程的平台。在高等数学方面,有各个学校的名师授课。例如,同济大学的《高等数学》课程,这门课程在国内高校中被广泛使用,课程在平台上有完整的教学视频、课件以及配套的练习题,可以很好地帮助学习者学习国内高校主流的高等数学知识体系。
更多推荐
所有评论(0)