数字图像处理课程学习总结
数字图像处理是本科阶段对我影响最深的专业课程之一。李竹教授在课程中系统讲授传统图像处理方法,并将理论推导与代码实践、工程案例紧密结合,使我建立了从问题定义到算法落地的完整认知。围绕连通域分析、SIFT/HOG 等方法的学习与实践,我进一步认识到在 AI-Coding 时代,工程能力的核心在于技术路线设计、策略建模与结果验证,而不仅是代码实现本身。相较于依赖专用硬件的平台型课程,本课程可在个人计算环境中快速迭代并获得及时反馈,这也促使我在课外持续开展图像处理实验与项目验证。
课内传统算法:核心框架
课内学习以“图像表示 -> 基础运算 -> 特征与识别 -> 频域与编码”为主线展开。 复习提纲和课堂代码阅读题让我把每个模块从“定义层”推进到“可手算、可解释、可实现”。
| 模块 | 课内核心点 | 我重点掌握的内容 |
|---|---|---|
| 图像基础 | 采样、量化、编码;二值/灰度/彩色图;像素邻域与连通域 | 能快速判断图像表示方式对后续算法复杂度与效果的影响 |
| 颜色与变换 | RGB、HSV/HSI、YCbCr;几何变换与插值 | 理解为何压缩和检测中常做颜色空间分离,以及透视矫正的工程意义 |
| 增强与分割 | 卷积滤波、中值滤波、直方图变换、Otsu 二值化、形态学 | 能围绕噪声类型和目标形态设计预处理链路 |
| 特征与检测 | HOG/SIFT、Canny、最小二乘法、霍夫变换 | 能比较算法优缺点并进行场景匹配,不只停留在调用函数 |
| 识别与编码 | kNN/k-means、背景差分、JPEG 流程(DCT/量化/编码) | 建立了从“特征提取”到“分类识别”再到“压缩传输”的整体认知 |
DIP 课内知识主线:
图像数字化 -> 图像增强与二值化 -> 形态学与连通域 -> 边缘/直线检测
-> 特征提取(HOG/SIFT) -> 几何变换与透视校正 -> 识别与压缩编码
课内知识:算法对比与方法意识
HOG vs SIFT
HOG(方向梯度直方图)更偏整体轮廓描述(行人检测),SIFT更偏关键点匹配;后者具备较强旋转与尺度鲁棒性。
最小二乘 vs 霍夫
最小二乘精度高且快,但怕离群点;霍夫更稳健、可检多线,代价是计算开销更大。
卷积滤波 vs 中值滤波
卷积适合平滑随机噪声;中值滤波对椒盐噪声抑制更稳定,能较好保留边缘。
Otsu 阈值分割
通过最大化类间方差自动选阈值,是灰度前景/背景分离的高频基础方法。
课外实践:课堂练习闭环(1~8)
基于课堂练习整理,我完成了从目标计数、形态学清理、连通域筛选,到透视矫正、霍夫直线检测、伽马增强、颜色目标识别的一整套实践。 这些练习让我形成了“先预处理,再检测/分割,最后结果复盘”的稳定工程习惯。
| 练习阶段 | 代表任务 | 方法链路 |
|---|---|---|
| 练习4-5 | 倾斜书本透视矫正 | 边缘检测 + 颜色空间掩膜 -> 角点定位 -> 透视变换恢复矩形视图 |
| 练习6 | 工件轮廓主线提取 | Canny -> 边缘修复 -> HoughLinesP -> 聚类 -> 最小二乘拟合 |
| 练习7 | 图像伽马矫正 UI | 归一化 -> 幂变换 -> 曲线可视化 -> 交互调参 |
| 练习8 | 红色杯盖识别 | BGR->HSV -> 双区间红色掩膜 -> 开闭运算 -> 最大轮廓定位 |
课外实践:综合项目(Final Report)
本部分基于课程期末综合报告进行内容梳理,重点展示两项代表性项目:钢琴演奏手部按键动作标定与古代书法真迹单字切割。 整体按照“任务目标 -> 算法原理 -> 处理流程 -> 结果输出”的顺序展开,尽量保持报告中的工程逻辑与技术细节完整性。
项目一:钢琴演奏手部按键动作标定
项目面向单机位钢琴演奏视频,目标是将“听到的音符事件”和“看到的按键动作”在同一时间轴上对齐,输出可视化标定视频与结构化数据。 方案核心是“视频支路 + 音频支路 + 融合判定”:视频侧负责键盘对齐、琴键映射与手部关键点,音频侧负责音符起止事件,融合侧用手部可达性和时序一致性过滤误检。
Step 1:键盘标定与透视归一化
通过四角点求解单应矩阵,将不同机位下的键盘区域统一映射到固定ROI坐标系。
Step 2:键盘跟踪与手部映射
利用光流和稳健估计抑制画面漂移,结合21点手部关键点得到每一帧的可达键位范围。
Step 3:音频转写与起始事件提取
提取音轨并转录MIDI,构建按时间排序的音符起始/持续事件序列。
Step 4:视听融合判定与可视化输出
用“音频候选 + 视觉可达约束”过滤明显误识别,生成键位高亮、手部骨架叠加与结构化标注输出。
项目二:古代书法真迹单字切割(首创Demo)
项目聚焦超大幅书法真迹的单字切割问题,采用传统图像算法为主、少量人工修正为辅的工程路线。 在报告中,流程从样本分析与失败案例出发,逐步收敛到“预处理掩膜 -> 列切割 -> 行切割 -> 四步后处理 -> 结果验证”的稳定方案。
Step 1:墨色自适应与噪声预处理
先进行二值化与连通域过滤,压制纸张纹理、水渍等背景噪声,保留有效字像素。
Step 2:红色印章掩膜抑制
在HSV空间提取红色印章并做掩膜抑制,避免印章在投影统计中形成“伪笔画柱”。
Step 3:列切割与行扫描
利用垂直投影极小值定位列边界,再对每列做水平投影获得初始行片段。
Step 4:四步后处理(含归并算法)
执行边界扩展、间隙驱动合并、异常小框就近归并与字距验证拆分,修复长字断裂与碎框问题。
掩膜作用:预处理降噪与印章过滤
归并算法:异常小框就近归并机制
在行切割初稿中,部分片段会出现“过小异常框”。归并算法先基于统计高度识别异常框,再结合上下间距与像素连接关系,将异常框归并到更合理的邻近字符中,并对归并后高度做约束校验,降低错归并风险。
重点预览(超大图):行书样例与最终切割结果
本人书法作品处理测试
课程收获与应用价值
理论到工程的闭环
可以独立把算法原理转成可执行流程,并对中间步骤做可视化与误差复盘。
方法选择能力
面对不同图像质量与任务目标,能按噪声类型、形态特征和实时性需求选择方法。
跨学科迁移能力
课程方法已在竞赛、课程项目和自主实验中反复验证,具备较强迁移性。
长期研究价值判断
我认为数字图像处理具有非常高的学科应用价值,并希望继续深耕相关方向。