课程:数字图像处理 | 成绩:94 | 授课教师:李竹教授(电子信息学院副院长)

数字图像处理课程学习总结

数字图像处理是本科阶段对我影响最深的专业课程之一。李竹教授在课程中系统讲授传统图像处理方法,并将理论推导与代码实践、工程案例紧密结合,使我建立了从问题定义到算法落地的完整认知。围绕连通域分析、SIFT/HOG 等方法的学习与实践,我进一步认识到在 AI-Coding 时代,工程能力的核心在于技术路线设计、策略建模与结果验证,而不仅是代码实现本身。相较于依赖专用硬件的平台型课程,本课程可在个人计算环境中快速迭代并获得及时反馈,这也促使我在课外持续开展图像处理实验与项目验证。

关键词:图像增强、阈值分割、形态学、Hough、SIFT/HOG、透视变换;书法图像字块分割、钢琴演奏手部识别

课内传统算法:核心框架

课内学习以“图像表示 -> 基础运算 -> 特征与识别 -> 频域与编码”为主线展开。 复习提纲和课堂代码阅读题让我把每个模块从“定义层”推进到“可手算、可解释、可实现”。

模块 课内核心点 我重点掌握的内容
图像基础 采样、量化、编码;二值/灰度/彩色图;像素邻域与连通域 能快速判断图像表示方式对后续算法复杂度与效果的影响
颜色与变换 RGB、HSV/HSI、YCbCr;几何变换与插值 理解为何压缩和检测中常做颜色空间分离,以及透视矫正的工程意义
增强与分割 卷积滤波、中值滤波、直方图变换、Otsu 二值化、形态学 能围绕噪声类型和目标形态设计预处理链路
特征与检测 HOG/SIFT、Canny、最小二乘法、霍夫变换 能比较算法优缺点并进行场景匹配,不只停留在调用函数
识别与编码 kNN/k-means、背景差分、JPEG 流程(DCT/量化/编码) 建立了从“特征提取”到“分类识别”再到“压缩传输”的整体认知
DIP 课内知识主线:
图像数字化 -> 图像增强与二值化 -> 形态学与连通域 -> 边缘/直线检测
-> 特征提取(HOG/SIFT) -> 几何变换与透视校正 -> 识别与压缩编码

课内知识:算法对比与方法意识

HOG vs SIFT

HOG(方向梯度直方图)更偏整体轮廓描述(行人检测),SIFT更偏关键点匹配;后者具备较强旋转与尺度鲁棒性。

最小二乘 vs 霍夫

最小二乘精度高且快,但怕离群点;霍夫更稳健、可检多线,代价是计算开销更大。

卷积滤波 vs 中值滤波

卷积适合平滑随机噪声;中值滤波对椒盐噪声抑制更稳定,能较好保留边缘。

Otsu 阈值分割

通过最大化类间方差自动选阈值,是灰度前景/背景分离的高频基础方法。

课外实践:课堂练习闭环(1~8)

基于课堂练习整理,我完成了从目标计数、形态学清理、连通域筛选,到透视矫正、霍夫直线检测、伽马增强、颜色目标识别的一整套实践。 这些练习让我形成了“先预处理,再检测/分割,最后结果复盘”的稳定工程习惯。

练习阶段 代表任务 方法链路
练习4-5 倾斜书本透视矫正 边缘检测 + 颜色空间掩膜 -> 角点定位 -> 透视变换恢复矩形视图
练习6 工件轮廓主线提取 Canny -> 边缘修复 -> HoughLinesP -> 聚类 -> 最小二乘拟合
练习7 图像伽马矫正 UI 归一化 -> 幂变换 -> 曲线可视化 -> 交互调参
练习8 红色杯盖识别 BGR->HSV -> 双区间红色掩膜 -> 开闭运算 -> 最大轮廓定位
练习4:倾斜图像识别矫正
练习4:倾斜图像识别矫正
练习4:书本识别与矫正
练习4:书本识别与矫正
练习5:Gamma矫正
练习5:Gamma矫正
练习6:轮廓线检测与拟合
练习6:轮廓线检测与拟合

课外实践:综合项目(Final Report)

本部分基于课程期末综合报告进行内容梳理,重点展示两项代表性项目:钢琴演奏手部按键动作标定与古代书法真迹单字切割。 整体按照“任务目标 -> 算法原理 -> 处理流程 -> 结果输出”的顺序展开,尽量保持报告中的工程逻辑与技术细节完整性。

项目一:钢琴演奏手部按键动作标定

项目面向单机位钢琴演奏视频,目标是将“听到的音符事件”和“看到的按键动作”在同一时间轴上对齐,输出可视化标定视频与结构化数据。 方案核心是“视频支路 + 音频支路 + 融合判定”:视频侧负责键盘对齐、琴键映射与手部关键点,音频侧负责音符起止事件,融合侧用手部可达性和时序一致性过滤误检。

Step 1:键盘标定与透视归一化

通过四角点求解单应矩阵,将不同机位下的键盘区域统一映射到固定ROI坐标系。

Step 2:键盘跟踪与手部映射

利用光流和稳健估计抑制画面漂移,结合21点手部关键点得到每一帧的可达键位范围。

Step 3:音频转写与起始事件提取

提取音轨并转录MIDI,构建按时间排序的音符起始/持续事件序列。

Step 4:视听融合判定与可视化输出

用“音频候选 + 视觉可达约束”过滤明显误识别,生成键位高亮、手部骨架叠加与结构化标注输出。

钢琴项目:原始视频标定
钢琴项目:根据标定复现的音频

项目二:古代书法真迹单字切割(首创Demo)

项目聚焦超大幅书法真迹的单字切割问题,采用传统图像算法为主、少量人工修正为辅的工程路线。 在报告中,流程从样本分析与失败案例出发,逐步收敛到“预处理掩膜 -> 列切割 -> 行切割 -> 四步后处理 -> 结果验证”的稳定方案。

书法样本展示:杭州观记
书法样本展示:《杭州福神观记》切割效果
书法样本展示:胆巴碑
书法样本展示:《胆巴碑》切割效果

Step 1:墨色自适应与噪声预处理

先进行二值化与连通域过滤,压制纸张纹理、水渍等背景噪声,保留有效字像素。

Step 2:红色印章掩膜抑制

在HSV空间提取红色印章并做掩膜抑制,避免印章在投影统计中形成“伪笔画柱”。

Step 3:列切割与行扫描

利用垂直投影极小值定位列边界,再对每列做水平投影获得初始行片段。

Step 4:四步后处理(含归并算法)

执行边界扩展、间隙驱动合并、异常小框就近归并与字距验证拆分,修复长字断裂与碎框问题。

掩膜作用:预处理降噪与印章过滤

书法预处理降噪结果
预处理降噪后:背景纹理被抑制,书法有效像素更突出
书法红色印章掩膜结果
印章掩膜后:红章区域被去除,列投影稳定性明显提升

归并算法:异常小框就近归并机制

在行切割初稿中,部分片段会出现“过小异常框”。归并算法先基于统计高度识别异常框,再结合上下间距与像素连接关系,将异常框归并到更合理的邻近字符中,并对归并后高度做约束校验,降低错归并风险。

归并前行切割结果
归并前:初始行扫描结果(含异常小框)
归并后行切割结果
归并后:异常框被吸收,切割边界更符合字形结构

重点预览(超大图):行书样例与最终切割结果

《秋声赋》单字切割展示
《秋声赋》行书样例:复杂字形与连写场景下的切割展示
书法全页单字切割最终结果
全页最终结果:行列扫描与后处理后的单字切割输出

本人书法作品处理测试

本人书法作品行列处理
本人作品测试1:行列处理结果
本人书法作品单字划分结果
本人作品测试2:单字划分结果

课程收获与应用价值

理论到工程的闭环

可以独立把算法原理转成可执行流程,并对中间步骤做可视化与误差复盘。

方法选择能力

面对不同图像质量与任务目标,能按噪声类型、形态特征和实时性需求选择方法。

跨学科迁移能力

课程方法已在竞赛、课程项目和自主实验中反复验证,具备较强迁移性。

长期研究价值判断

我认为数字图像处理具有非常高的学科应用价值,并希望继续深耕相关方向。

返回主页对应模块