外观
CNN与卷积的原理
约 1011 字大约 3 分钟
AI
2026-03-16
卷积神经网络
为了能识别手写邮政编码的自动识别系统,通过训练神经网络让机器自动提取手写数字的特征,完成识别任务,这一思路也成了计算机视觉领域的基础。
识别手写数字的原理是训练神经网络来提取图片的边缘、纹理和形状特征
这个思路成为了计算机视觉领域的基础,其中占领导地位的是CNN。他的核心是卷积(用一个小窗口在图片上滑,计算一个新值)。
CNN
CNN(Convolutional Neural Network)卷积神经网络。原理是卷积操作, 核心构建模块是卷积算子。
衍生构建出了经典的CNN模型:LeNet、AlexNet、VGG、ResNet、MobileNet
yolo也是基于CNN构建的,CNN负责提取图像特征,YOLO在此基础上完成目标的定位与分类。
卷积
卷积是CNN的核心! 核心逻辑是:用卷积核(小窗口)在图像上从左到右、从上到下滑动,对窗口覆盖的像素进行特定计算,输出新的特征图。 不同的计算方式和卷积核,会产生不同的图像处理效果:
- 基础卷积:取平均值(对卷积核覆盖的像素取平均值,会产生图像模糊效果,画笔大小=卷积核)
- 我们了解的腐蚀 膨胀 轮廓都是由固定切不同的卷积核而来!(腐蚀取最小值、膨胀取最大值)




在rgb图中图片是三通道的 可以看作是同一个卷积核在对三个颜色通道分别做卷积,然后合并起来输出。 思路衍生:可以使用很多不同的卷积核对图片的特征进行提取
神经网络
深度学习就是在卷积这一思路上进行拓展的。深度学习中的神经网络,核心是由多个卷积层、池化层、激活层、全连接层等构成,其中卷积层(一组卷积核)是特征提取的核心,不同的层的卷积核不一样,输出的特征也不一样。 深度学习中不止有卷积层还有池化层、激活层、连接层等。随着层数的增加,分析的维度也不断增多。
- 卷积层:卷积核的数量决定该层输出通道数 - 一个卷积核对于一个输出通道,提取一种特征
- 多层卷积:不同的卷积层功能不同,浅层提取边缘线条等基础特征。深层提取形状轮廓等高级特征。层数增加维度就不断丰富,从局部到全局构建出图像完整特征
- 其他层
- 池化层负责降维,减少计算量保留核心特征;最大池化(保留一个窗口中最大像素的点)
- 激活层引入非线性,能够拟合更复杂的特征
- 全连接层将提取的特征汇总,完成最终的分类和识别
由此构成了神经网络,从海量的层中提取到高级的特征,不断学习 直到给出答案。 


模型学习、训练
神经网络的学习就是不断的调整卷积核(开始是随机生成的),让他匹配训练的结果,计算误差(损失loss) ,直到输出准确。通过梯度下降,不断微调卷积核里的数值(沿着让误差变小的方向,一点点修改权重)。
通俗的说来就是训练的过程就是在不断修改卷积核,训练的完成就是找一组最优的卷积核了,然后把这组卷积核当成参数写死到模型中!!
