sift之美

Filed under Computer Vision on 05 May, 2014

约定

\(o\in[o_{\min},o_{\min}+O-1]\)组的索引
\(s\in[s_{\min},s_{\max}]\)层索引
\(\sigma(o,s) = \sigma_02^{o + s/S}\)尺度坐标公式
\(\sigma_0\)基准尺度
\(M_0,N_0\) 基准分辨率
\(N_o = \lfloor \frac{N_0}{2^o}\rfloor,M_o = \lfloor \frac{M_0}{2^o}\rfloor\)& Octave lattice size formulas
\(x_o \in [0,...,N_o]\times[0,...,M_o]\)Spatial indexes and rages
\(x = 2^o x_o\)Spatial coordinate formula
\(F(\cdot,\sigma(o,\cdot))\)Octave data
\(G(x,\sigma)\)Gaussian scale space
\(D(x,\sigma)\)DOG scale space

尺度空间理论

尺度空间理论目的是模拟图像数据的多尺度特征

July在博文中总结道

SIFT的精妙之处在于采用图像金字塔的方法解决这一问题，我们可以把两幅图像想象成是连续的，分别以它们作为底面作四棱锥，就像金字塔，那么每一个截面与原图像相似，那么两个金字塔中必然会有包含大小一致的物体的无穷个截面，但应用只能是离散的，所以我们只能构造有限层，层数越多当然越好，但处理时间会相应增加，层数太少不行，因为向下采样的截面中可能找不到尺寸大小一致的两个物体的图像。

张东东在博文中写道

尺度空间中各尺度图像的模糊程度逐渐变大 ,能够模拟人在距离目标由近到远时目标在视网膜上的形成过程

一个图像的尺度空间，\(L(x,y,σ)\)定义为一个变化尺度的高斯函数\(G(x,y,σ)\)与原图像\(I(x,y)\)的卷积。 \[L(x,y,σ) = G(x,y,σ) \otimes I(x,y)\]

关键点的尺度坐标就是按关键点所在的组和组内的层,利用下面这个公式计算而来

\[ \sigma(o,s) = \sigma_0 2^{o+s/S}, \quad o \in o_{\min} + [0, ..., O-1], \quad s \in [0,...,S-1] \]

图像金字塔

图中的黑色圆盘是我加上去的，表示的是该图像所在的尺度的特征覆盖的范围，其特点是不同组同一层上的特征覆盖范围一样，同一组不同层上的特征覆盖范围逐步增大。

高斯尺度空间Gaussian Scale Space \[G(x,\sigma) \doteq (g_\sigma * I)(x)\]

差分高斯尺度空间Difference of Gaussians scale space \[ D(x,\sigma(s,o)) \doteq G(x,\sigma(s+1,o)) - G(x,\sigma(s,o)). \]

Lowe's parameters \[ \sigma_n = 0.5, \quad \sigma_0 = 1.6\cdot 2^{1/S}, \quad o_{\min} = -1, \quad S =3 \]

detector

sift关键点是一组选择出来的（亚像素差值）关键点(x,σ)，该点是DOG尺度空间中的极值点，该点包含由高斯尺度空间推到出来的方向θ。

2D几何变换

旋转+平移变换

也叫2D刚体运动即2D欧式变换（因其保持欧式距离）写作\(x={Rx+t}\)或者写作 \[ \begin{bmatrix} R & t \end{bmatrix} \bar{x} \] 其中 \[ \begin{bmatrix} \cos{\theta} & -\sin{\theta} \\ \sin{\theta} & \cos{\theta} \end{bmatrix} \] 是一个正交旋转矩阵，有\(RR^T = I\)和\(|R| = 1\)

放缩旋转

也叫做相似变换，该变换可以表示为\({\bar{x}}={sRx+t}\)，其中s是一个任意的尺度因子。它也可以写作 \[ x ={ \begin{bmatrix} sR & t \end{bmatrix} \bar{x} } ={ \begin{bmatrix} a & -b & t_x \\ b & a & t_y \end{bmatrix} \bar{x} }\] 其中我们不再需要\(a^2 + b^2 = 1\)。相似变换保持直线间的夹角。各种2D变换如图所示：