第一章
1.连续图像中,图像为一个二维平面,(x,y)图像中的任意一点,f(x,y)为图像于(x,y)于处的值。连续图像中,(x,y)的取值是
连续的,f(x,y)也是连续的 数字图像中,图像为一个由有限行有限列组成的二维平面,(i,j)为平面中的任意一点,g(i,j)则为图像在(i,j)处的灰度值,数字图像中,(i,j) 的取值是不连续的,只能取整数,对应第i行j列,g(i,j) 也是不连续的,表示图像i行j列处图像灰度值。 联系:数字图像g(i,j)是对连续图像f(x,y)经过采样和量化这两个步骤得到的。其中 g(i,j)=f(x,y)|x=i,y=j
2. 图像工程的内容可分为图像处理、图像分析和图像理解三个层次,这三个层次既有联系又有区别,如下图所示。
图像处理的重点是图像之间进行的变换。尽管人们常用图像处理泛指各种图像技术,但比较狭义的图像处理主要是对图像进行各种加工,以改善图像的视觉效果并为自动识别奠定基础,或对图像进行压缩编码以减少所需存储空间 图像分析主要是对图像中感兴趣的目标进行检测和测量,以获得它们的客观信息,从而建立对图像的描述。如果说图像处理是一个从图像到图像的过程,则图像分析是一个从图像到数据的过程。这里的数据可以是目标特征的测量结果,或是基于测量的符号表示,它们描述了目标的特点和性质。 图像理解的重点是在图像分析的基础上,进一步研究图像中各目标的性质和它们之间的相互联系,并得出对图像内容含义的理解以及对原来客观场景的解释,从而指导和规划行动。
如果说图像分析主要以观察者为中心来研究客观世界,那么图像理解在一定程度上是以客观世界为中心,借助知识、经验等来把握整个客观世界(包括没有直接观察到的事物)的。 联系:图像处理、图像分析和图像理解处在三个抽象程度和数据量各有特点的不同层次上。图像处理是比较低层的操作,它主要在图像像素级上进行处理,处理的数据量非常大。图像分析则进入了中层,分割和特征提取把原来以像素描述的图像转变成比较简洁的非图形式的描述。图像理解主要是高层操作,基本上是对从描述抽象出来的符号进行运算,其处理过程和方法与人类的思维推理有许多类似之处。 第二章:
1.参见第一章:第1题 4. jpg(jpeg) JPEG:联合摄影专家组
JPEG 图片以 24 位颜色存储单个光栅图像。JPEG 是与平台无关的格式,支持最高级别的压缩,不过,这种压缩是有损耗的。渐近式 JPEG 文件支持交错。可以提高或降低 JPEG 文件压缩的级别。但是,文件大小是以图像质量为代价的。压缩比率可以高达 100:1。(JPEG 格式可在 10:1 到 20:1 的比率下轻松地压缩文件,而图片质量不会下降。)JPEG 压缩可以很好地处理写实摄影作品。但是,对于颜色较少、对比级别强烈、实心边框或纯色区域大的较简单的作品,JPEG 压缩无法提供理想的结果。有时,压缩比率会低到 5:1,严重损失了图片完整性。这一损失产生的原因是,JPEG 压缩方案可以很好地压缩类似的色调,但是 JPEG 压缩方案不能很好地处理亮度的强烈差异或处理纯色区域。
优点:摄影作品或写实作品支持高级压缩,利用可变的压缩比可以控制文件大小。支持交错(对于渐近式 JPEG 文件)。JPEG 广泛支持 Internet 标准。
缺点:有损耗压缩会使原始图片数据质量下降。当您编辑和重新保存 JPEG 文件时,JPEG 会混合原始图片数据的质量下降。这种下降是累积性的。不适用于所含颜色很少、具有大块颜色相近的区域或亮度差异十分明显的较简单的图片。是最常见的格式之一。 BMP:Windows 位图
Windows 位图可以用任何颜色深度(从黑白到 24 位颜色)存储单个光栅图像。Windows 位图文件格式与其他 Microsoft Windows 程序兼容。它不支持文件压缩,也不适用于 Web 页。从总体上看,Windows 位图文件格式的缺点超过了它的优点。为了保证照片图像的质量,请使用 PNG 文件、JPEG 文件或 TIFF 文件。BMP 文件适用于 Windows 中的墙纸。
优点:BMP 支持 1 位到 24 位颜色深度。BMP 格式与现有 Windows 程序(尤其是较旧的程序)广泛兼容。 缺点:BMP 不支持压缩,这会造成文件非常大,BMP 文件不受 Web 浏览器支持。 GIF:图形交换格式;
GIF 图片以 8 位颜色或 256 色存储单个光栅图像数据或多个光栅图像数据。GIF 图片支持透明度、压缩、交错和多图像图片(动画 GIF)。 PGIF 透明度不是 alpha 通道透明度,不能支持半透明效果。GIF 压缩是 LZW 压缩,压缩比大概为 3:1。GIF 文件规范的 GIF89a 版本中支持动画 GIF。
优点:GIF 广泛支持 Internet 标准。支持无损耗压缩和透明度。动画 GIF 很流行,易于使用许多 GIF 动画程序创建。很多QQ表情都是GIF的~
缺点:GIF 只支持 256 色调色板,因此,详细的图片和写实摄影图像会丢失颜色信息 第四章
1.如下表:pr(rk)、pz(zl)分别表示原直方图与规定直方图 一、对原直方图进行均衡化处理,得到映射关系rk→sk(第四列) 二、对规定直方图进行均衡化处理,得到映射关系zl→vl(第五列):
规定化后的 rk pr(rk) pz(zl) sk=T(rk) vk=G(zl) rk=>zl 直方图 r0 r1 r2 r3 r4 r5 r6 r7 0.14 0.22 0.26 0.17 0.09 0.06 0.04 0.02 0 0.14 1/7 0 0.36 3/7 0 0.62 4/7 0.19 0.79 6/7 0.25 0.88 6/7 0.21 0.94 7/7 0.24 0.98 7/7 0.11 1.00 7/7 0 0 0 0.19 0.44 0.65 0.89 1 r0=> z3 r1=> z4 r2=> z5 r3=> z6 r4=> z6 r5=> z7 r6=> z7 r7=> z7 0 0 0 0.14 0.22 0.26 0.26 0.12 三、对于每个sk,迭代计算出满足下式的最小vl,得到映射关系sk→vl,再由rk→sk得到rk→vl,最后由zl→vl的逆变换vl→zl求出rk→zl的变换:
对k=0,l=3时,v3-s0=0.19-0.14>=0,开始满足上式,于是有r0=>z3 对k=1,l=3时,v4-s1=0.44-0.36>=0,开始满足上式,于是有r1=>z4 对k=2,l=3时,v5-s2=0.65-0.62>=0,开始满足上式,于是有r2=>z5
vlskpz(zj)pr(ri)0j0i0lk对k=3,l=3时,v6-s3=0.89-0.79>=0,开始满足上式,于是有r3=>z6 对k=4,l=3时,v6-s4=0.89-0.88>=0,开始满足上式,于是有r4=>z6
对k=5,l=3时,v7-s5=1.00-0.94>=0,开始满足上式,于是有r5=>z7 对k=6,l=3时,v7-s6=1.00-0.98>=0,开始满足上式,于是有r6=>z7 对k=6,l=3时,v7-s7=1.00-1.00>=0,开始满足上式,于是有r7=>z7
直方图规定化结果如最后一列所示,规定化后的直方图与规定直方图基本一致。 2.
rk r0 r1 r2 r3 r4 r5 r6 r7 3. 原图
3*3领域平均法
nk 560 920 1046 705 356 267 170 72 pr(rk) sk=T(rk) 0.14 0.14 1/7 0.22 0.36 3/7 0.26 0.62 4/7 0.17 0.79 6/7 0.09 0.88 6/7 0.07 0.94 7/7 0.04 0.99 7/7 0.02 1.00 7/7 rk=>sk 0=>1 1=>3 2=>4 3=>6 4=>6 5,6,7->7 ps(sk) 0 0.14 0.22 0.26 0.26 0.13 0.143 0.286 0.429 0.571 0.714 0.857 1 1 1 1 1 1 1 1 1 1 1 1 2 255 2 3 3 3 2 58 58 30 2 3 3 3 255 4 3 3 3 59 87 59 32 3 3 3 3 255 4 6 3 31 59 88 60 6 3 3 4 5 255 8 3 3 32 60 62 8 2 原图
3
4
6
7
8
2
3
4
6
7
8 3*3中值滤波
1 1 1 1 1 1 1 1 1 1 1 1 2 255 2 3 3 3 2 2 3 3 3 3 3 3 255 4 3 3 3 3 3 3 3 3 3 3 3 255 4 6 3 3 4 4 4 6 3 3 4 5 255 8 3 3 4 5 7 8 2 4. 2*m+1 5.
3 4 6 7 8 2 3 4 6 7 8 均值滤波:把每个像素都用周围的8个像素来做均值操作。可以平滑图像,速度快,算法简单。但是无法去掉噪声,这能微弱的减弱它。
中值滤波:常用的非线性滤波方法 ,也是图像处理技术中最常用的预处理技术。它在平滑脉冲噪声方面非常有效,同时它可以保护图像尖锐的边缘。
8. 为什么一般情况下对离散图象的直方图均衡化并不能产生完全平坦的直方图?
由于离散图象的直方图也是离散的,其灰度的累积分布函数是一个不减的阶梯函数。如果映射后的图象仍能取到所有256级灰度,那一定是原图象没有任何改变,这种情况只可能发生在原图象的直方图已经是一条水平线的情况下。一般情况下映射后所得到的图象只能取到少于256级灰度,这样在变换后的直方图中会有某些灰度级空缺,当然这些空缺应该均匀分布在0到255之间。于是问题就变成了将原有的256个值,即各灰度的概率,按顺序分成n(n<256)份,每份的概率总和应该相等。显然这个问题是不一定有解的,因此我们只能找到一个近似解。其结果就是最后得到一幅有空缺且不太平坦的直方图
9.不会发生变化,因为再次均衡化,所用的变换函数是首次均衡化后得到的增强图像的累积直方图,不会改变其结果。 10.
相同点:都能减弱或消除傅立叶空间的某些分量,而不影响或较少影响其他分量,从而达到了增强某些频率分量的效果。 不同点:平滑滤波器减弱或消除了傅立叶空间的高频分量,所以达到了增强低频分量,平滑图像中细节的效果。锐化滤波器减弱或消除了傅立叶空间的低频分量,所以达到了增强高频分量,锐化图像中细节的效果。
:两者效果相反,互为补充,从原始图像中减去平滑滤波器的结果得到锐化滤波器的效果,而从原始图像中减去锐化滤波器的结果则可得到平滑滤波器的结果。 第五章:P105 1. 0 1 0 0 -2 0 0 1 0 0 0 0 1 -2 1 0 0 0 0 0 1 0 -2 0 1 0 0 1 0 0 0 -2 0 0 0 1
水平模板
2.如下图,假设有四种角点: 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 垂直模板 +45 -45
0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1 -1 0 0 0 -1 3 0 1 0 0 0 0 1 0 0 0 0 1 0 -1 3 0 1 0 -1 -1 0 1 0 1 0 0 -1 -1 0 0 0 3 -1 0 0 0 0 0 0 0 0 检测左上角 0 3 -1 0 -1 -1 检测左上角 5.参见教材P83 第六章P141
检测右上角 检测左下角 2.一般地,按比例将原图像放大k倍时,如果按照最近邻域法则需要将 一个像素值添在新图像的k×k的子块,如果放大倍数太大,按照这种方法 处理会出现马赛克效应。为了提高几何变换后的图像质量, 常采用线性 插值法。该方法的原理是,当求出的分数地址与像素点不一致时,求出周 围四个像素点的距离比,根据该比率, 由四个邻域的像素灰度值进行线 性插值
4. 图像旋转之后,会出现许多的空洞点。对这些空洞点必须进行填充处理,否则画面效果不好。一般也称这种操作为插值处理。最简单的方法是行插值方法或列插值方法: 列插值算法如下:
① ② ③
找出当前列的最小和最大的非白点的坐标,记作(k1,j)、(k2,j)。
在(k1,k2)范围内进行插值,插值的方法是:空点的像素值等于上一点的像素值。 同样的操作重复到所有列。经如上的插值处理之后,图像效果就变得自然了
5. 变换矩阵:
T=
0.7070 0.7070 0 -0.7070 0.7070 0 0 0 1.0000
本题图像共有16个像素,变换前的3×16矩阵如下: P0=
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
变换后的3×16矩阵: P=T* P0
1 2 3 4 2 3 4 4 3 4 4 5 4 4 5 6 0 -1 -1 -2 1 0 -1 -1 1 1 0 -1 2 1 1 0
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
变换结果如下图所示 X坐标 Y坐标 -2 -1 0 59 1,1 61 1,2 62 1,3 59 1,4 60 2,1 59 2,2 59 2,3 62 2,4 58 3,1 59 3,2 60 3,3 60 3,4 57 4,1 57 4,2 58 4,3 56 4,4, 59 1,0 61 2,1 59 3,0 62 3,1 59 4,2 60 4,0 59,61 4,1 60 5,1 56 6,0 0 1 2 3 4 60 2,-1 58 3,-1 59,57 4,-1 58 5,-1 0 1 2 3 4 57 4,-2 5 6 变换前的原点 变换后的原点 1 2 3 4 像素合并 空洞 旋转后进行“行插值” 57 4,-2 59,57 4,-1 60 4,0 59,61 4,1 旋转后进行“列插值” 57 4,-2 59,57 4,-1 60 4,0 59,61 4,1 -2 -1 60 2,-1 58 3,-1 59 3,0 62 3,1 59 4,2 58 5,-1 60 2,-1 58 3,-1 59 3,0 62 3,1 59 4,2 58 5,-1 0 59 1,0 59 60 56 6,0 59 1,0 60 58 56 6,0 1 61 2,1 60 5,1 61 2,1 60 5,1 2 6.
f(221,396)=18, f(221,397)=45, f(222,396)=52, f(222,397)=36,试分别用最邻近插值法和双线性插值法,分别计算f(221.3,396.7)的值. 解:设
1. 已知点(221.3,396.7)的周围像素的灰度值,用最邻近插值法,求点(221.3,396.7)的灰度值,
∵221.3-221<222-221.3 且 396.7-396>397-396.7 ,即所求点离点(221.397)最近
∴f(221.3,396.7)=f(221,397)=45
2. 双线性插值法,设x,y为所求点至点(221,396)的x,y坐标增量,如图所示:
f(x,396)=f(221,396)+ x * ( f(222,396)-f(221,396) ) =18+34*x
f(x,397)=f(221,397)+ x * ( f(222,397)-f(221,397) )
=45- 9*x
f( x, y )=f(x,396) + y * ( f(x,397)-f(x,396) )
=18+34*x + y*(45- 9*x-18-34*x)
插值点 =18+34x+27y-43xy
∴ f(0.3,0.7)=38 7.
首先将原点平移到(100,260) 即 A=
1 0 -100 0 1 -260 0 0 1 然后旋转 B=
cos60 -sin60 0 sin60 cos60 0 0 0 1
然后在平移回来 C=
1 0 100 0 1 260 0 0 0
以上变换为复合变换矩阵T=C*B*A 注意是用的齐次坐标[x,y,1]'=T[X0 Y0 1]’ 第七章:
1、图像的频域处理就是把图像从空间域变换到频域,分析图像的频谱特性,据此进行图像处理;它的理论基础是:“任何波形都可以用单纯的正弦波的加权和表示” 2. 常用变换:
①傅里叶变换:它是使用最广泛和最重要的变换。它的变换核是复指数函数,转换域图像是原空间域图像的二维频谱,其“直流”项与原图像亮度的平均值成比例,高频项表征图像中边缘变化的强度和方向。为了提高运算速度,计算机中多采用傅里叶快速算法。
②沃尔什-哈达玛变换:它是一种便于运算的变换。变换核是值+1或-1的有序序列。这种变换只需要作加法或减法运算,不需要象傅里叶变换那样作复数乘法运算,所以能提高计算机的运算速度,减少存储容量。 其他还有余弦变换、正弦变换等也在图像处理中得到使用
3、不管是连续傅立叶变换还是离散傅立叶变换,变换域均反映了被变换域的频谱。 不同:
1)连续傅立叶变换,信号量和自变量均是连续的,而离散傅立叶变换,自变量和信号量均是离散的。 2)连续傅立叶变换,信号可以是无限长的,信号量也可以是无穷大; 而对于离散傅立叶变换,信号应该是有限长的,信号量也应该是有限值, 才能用计算机进行处理。
5、根据二维离散傅立叶变换的公式,有:
33F(u,v)f(x,y)j2(ux/Mvy/N)x0y0e33 =j2ux/Mf(x,y)j2vy/Nx0y0ee =PfQ
P =ej2ux/M Q =ej2vy/Nx,y,u,v0,1,2,3 M,N4令Wej2/N
W0W0W0W0W0W1W2W3P=Q=W0W2W4W6
W0W3W6W9利用W的周期性,得:W2= -W0, W4= W0, W6= -W0, 和W的对称性,得:W3
= -W1
, W2
= -W0,
则有:
W0W0W0W01W0P=Q=W1W0W1W0W0W0W0=11W0W1W0W11111101F(u,.v)PfQ=1j1j031111051j1j07
364j364jF(u,.v)88j088j08080
88j088j0111j1j111
j1j02111041j106111081j11j1j(写到上式就可以了)f=[0 1 0 2 ;0 3 0 4 ; 0 5 0 6;0 7 0 8] p=[1 1 1 1;1 -j -1 j;1 -1 1 -1;1 j -1 -j] 第八章 1
1)膨胀的结果为半径为5*r/4的圆(图略)
2)膨胀的结果为边长为为3*r/2的正方形,在直角处用半径为r的内切圆弧连接 (图略)
3)为简化问题,设图像为等边三角形,则膨胀结果是边长为3*r/2和等边三角形,在夹角处以半径为r/4的圆弧连接 (图略) 4)
a.腐蚀的结果为半径为3*r/4的圆(图略) b.腐蚀的结果为边长为为r/2的正方形(图略)
c.为简化问题,设图像为等边三角形,则腐蚀结果是边长为0.134r的等边三角形 (图略) 第九章 1、
x=imread('baboon.bmp'); [m n k]=size(x); y=uint8(zeros(m,n,k)); y(:,:,1)=x(:,:,1); y(:,:,2)=x(:,:,3); y(:,:,3)=x(:,:,2);
figure,imshow(x),title('原图像'); figure,imshow(y),title('交换绿蓝通道'); z=x;
z(:,:,3)=2*x(:,:,3) for i=1:1:m for j=1:1:n if (z(i,j,3)>255) z(i,j,3)=255 end end end
figure,imshow(z),title('蓝色通道加倍'); 2、
依题意,R=200,G=50,B=150 第十一章:
1.现有8个待编码符号M0,M1,……,M7,它们的概率分别为0.40,0.25,0.11,0.09,0.06,0.04,0.03,0.01,试求这一组符号的信号熵,利用哈夫曼编码求出这一组符号的编码,画出哈夫曼树,并计算平均码长和编码效率。
M4:1 M7:01 M0:0001 M5:00001 M6:00000 M2:0010 M1:00111 M3:00110 M4:39M7:25M0:11M5:05M6:06M2:8M1:2M3:41601001411110122061360111000 平均码长:R=1*0.39+2*0.25+4*0.11+5*0.05+5*0.06+4*0.08+5*0.02+5*0.04=2.5 图像的熵H为:
HPklog2Pk2.43
k1n编码效率:η= H/R=2.43/2.5=97.2%
2. 二分法香农-范诺编码方法。其步骤如下: 1) 首先统计出每个符号出现的概率; 2) 从左到右对上述概率从大到小排序;
3) 从这个概率集合中的某个位置将其分为两个子集合,并尽量使两个子集合的概率和近似相等,给前面一个子集合赋值为0, 后面一个子集合赋值为1;
4) 重复步骤3,直到各个子集合中只有一个元素为止;
5) 将每个元素所属的子集合的值依次串起来,即可得到各个元素的香农-范诺编码。 码字 0 100 101 1000 1001 1010 10110 10111 符号 M4 M7 M0 M2 M6 M5 M3 M1 平均码长R=2.53 参考答案二:
出现概率 0.39 0.25 0.36(0) 0.11 0.08 0.14(0) 0.06 0.05 0.04 0.02 图像熵H=2.43 0.61(1) 0.25(0) 0.11(1) 0.06(1) 0.02(1) 编码效率η=2.43/2.53=96.04% 0.06(1) 0.05(0) 0.04(0) 0.11(1) 0.08(0) 0.39(0) 0.25(0) 符号 M4 M7 M0 M2 M6 M5 M3 M1 出现概率 0.39 0.25 0.11 0.08 0.06 0.05 0.04 0.02 -log2Pi 1.36 2.00 3.18 3.64 4.06 4.32 4.64 5.64 -log2Pi+1 2.36 3.00 4.18 4.64 5.06 5.32 5.64 6.64 码字长度 2 2 4 4 5 5 5 6 累加概率 0 0.39 0.64 0.75 0.83 0.89 0.94 0.98 转为二进制 00 01 1010 1100 11010 11100 11110 111110 平均码长R 2.91 熵 编码效率
2.43 83.50515
因篇幅问题不能全部显示,请点此查看更多更全内容