CNN与卷积的原理

约 1011 字大约 3 分钟

2026-03-16

卷积神经网络

为了能识别手写邮政编码的自动识别系统，通过训练神经网络让机器自动提取手写数字的特征，完成识别任务，这一思路也成了计算机视觉领域的基础。

识别手写数字的原理是训练神经网络来提取图片的边缘、纹理和形状特征

这个思路成为了计算机视觉领域的基础，其中占领导地位的是CNN。他的核心是卷积(用一个小窗口在图片上滑，计算一个新值)。

CNN

CNN（Convolutional Neural Network）卷积神经网络。原理是卷积操作，核心构建模块是卷积算子。

衍生构建出了经典的CNN模型：LeNet、AlexNet、VGG、ResNet、MobileNet

yolo也是基于CNN构建的，CNN负责提取图像特征，YOLO在此基础上完成目标的定位与分类。

卷积是CNN的核心！核心逻辑是：用卷积核（小窗口）在图像上从左到右、从上到下滑动，对窗口覆盖的像素进行特定计算，输出新的特征图。不同的计算方式和卷积核，会产生不同的图像处理效果：

在rgb图中图片是三通道的可以看作是同一个卷积核在对三个颜色通道分别做卷积，然后合并起来输出。思路衍生：可以使用很多不同的卷积核对图片的特征进行提取

深度学习就是在卷积这一思路上进行拓展的。深度学习中的神经网络，核心是由多个卷积层、池化层、激活层、全连接层等构成，其中卷积层(一组卷积核)是特征提取的核心，不同的层的卷积核不一样，输出的特征也不一样。深度学习中不止有卷积层还有池化层、激活层、连接层等。随着层数的增加，分析的维度也不断增多。

卷积层：卷积核的数量决定该层输出通道数 - 一个卷积核对于一个输出通道，提取一种特征
多层卷积：不同的卷积层功能不同，浅层提取边缘线条等基础特征。深层提取形状轮廓等高级特征。层数增加维度就不断丰富，从局部到全局构建出图像完整特征
其他层
- 池化层负责降维，减少计算量保留核心特征；最大池化(保留一个窗口中最大像素的点)
- 激活层引入非线性，能够拟合更复杂的特征
- 全连接层将提取的特征汇总，完成最终的分类和识别

由此构成了神经网络，从海量的层中提取到高级的特征，不断学习直到给出答案。

模型学习、训练

神经网络的学习就是不断的调整卷积核(开始是随机生成的)，让他匹配训练的结果，计算误差(损失loss) ，直到输出准确。通过梯度下降，不断微调卷积核里的数值(沿着让误差变小的方向，一点点修改权重)。

通俗的说来就是训练的过程就是在不断修改卷积核，训练的完成就是找一组最优的卷积核了，然后把这组卷积核当成参数写死到模型中！！