VINS-Mono 论文公式推导与代码解析
Last updated on November 26, 2023 pm
[TOC]
概述
Monocular visual-inertial odometry with relocalization achieved via nonlinear graph optimization-based, tightly-coupled, sliding window, visual-inertial bundle adjustment.
- 代码(注释版):cggos/vins_mono_cg
- PDF文档:https://github.com/cggos/vins_mono_cg/blob/master/docs/vinsmono_note_cg.pdf (持续更新中)
1. 测量预处理
1.1 前端视觉处理
Simple feature processing pipeline
- 自适应直方图均衡化(
cv::CLAHE
) - 掩模处理,特征点均匀分布(
setMask
) - 提取图像Harris角点(
cv::goodFeaturesToTrack
) - KLT金字塔光流跟踪(
cv::calcOpticalFlowPyrLK
) - 连续帧跟踪
- 本质矩阵(RANSAC)去除外点(
rejectWithF
) - 发布feature_points(id_of_point, un_pts, cur_pts, pts_velocity)
- 自适应直方图均衡化(
Keyframe selection
- Case 1: Rotation-compensated average feature parallax is larger than a threshold
- Case 2: Number of tracked features in the current frame is less than a threshold
- All frames are used for optimization, but non-keyframes are removed first
1.2 IMU 预积分
IMU 测量方程
忽略地球旋转,IMU 测量方程为
预积分方程
(1)IMU integration in world frame
由上面的IMU测量方程积分就可以计算出下一时刻的p、v和q:
(2)IMU integration in the body frame of first pose of interests
为避免重新传播IMU观测值,选用IMU预积分模型,从世界坐标系转为本体坐标系
则 预积分IMU测量模型(估计值)为
离散状态下采用 中值法积分 的预积分方程(预积分 测量值)为
其中
midPointIntegration
中的相关代码:
1 |
|
误差状态方程
IMU误差状态向量
根据ESKF中 5.3.3 The error-state kinematics 小节公式
对于 中值积分 下的 误差状态方程 为
简写为
所以
展开得
其中
令
则简写为
此处 $F’$ 即代码中 F
,相关代码见 midPointIntegration
。
最后得到 IMU预积分测量关于IMU Bias 的 雅克比矩阵 $J{k+1}$ 、IMU预积分测量的 协方差矩阵 $P{k+1}$ 和 噪声的 协方差矩阵 $Q$,初始状态下的雅克比矩阵和协方差矩阵为 单位阵 和 零矩阵
当bias估计轻微改变时,我们可以使用如下的一阶近似 对中值积分得到的预积分测量值进行矫正,而不重传播,从而得到 更加精确的预积分测量值(bias修正的线性模型)
此时,可以与 卡尔曼滤波 对比一下:
2. 初始化(松耦合)
在提取的图像的Features和做完IMU的预积分之后,进入了系统的初始化环节,主要的目的有以下两个:
- 系统使用单目相机,如果没有一个良好的尺度估计,就无法对两个传感器做进一步的融合,这个时候需要恢复出尺度;
- 要对IMU进行初始化,IMU会受到bias的影响,所以要得到IMU的bias。
所以我们要从初始化中恢复出尺度、重力、速度以及IMU的bias,因为视觉(SFM)在初始化的过程中有着较好的表现,所以在初始化的过程中主要以SFM为主,然后将IMU的预积分结果与其对齐,即可得到较好的初始化结果。
2.1 相机与IMU之间的相对旋转
相机与IMU之间的旋转标定非常重要,偏差1-2°系统的精度就会变的极低。
设相机利用对极关系得到的旋转矩阵为 $R{c{k+1}}^{ck}$ ,IMU经过预积分得到的旋转矩阵为 $R{b{k+1}}^{b{k}}$,相机与IMU之间的相对旋转为 $R_{c}^{b}$,则对于任一帧满足,
将旋转矩阵写为四元数,则上式可以写为
将其写为左乘和右乘的形式
$[q]_L$ 与 $[q]_R$ 分别表示 四元数左乘矩阵 和 四元数右乘矩阵,其定义为(四元数实部在后)
那么对于 $n$对测量值,则有
其中 $w^{N-1}_{N}$ 为外点剔除权重,其与相对旋转求得的角度残差有关,$N$为计算相对旋转需要的测量对数,其由最终的终止条件决定。角度残差可以写为,
从而权重为
至此,就可以通过求解方程 $Q_N q_c^b=0$ 得到相对旋转,解为 $Q_N$ 的左奇异向量中最小奇异值对应的特征向量。
但是,在这里还要注意 求解的终止条件(校准完成的终止条件) 。在足够多的旋转运动中,我们可以很好的估计出相对旋转 $R{c}^{b}$,这时 $Q{N}$ 对应一个准确解,且其零空间的秩为1。但是在校准的过程中,某些轴向上可能存在退化运动(如匀速运动),这时 $Q{N}$ 的零空间的秩会大于1。判断条件就是 $Q_N$ 的第二小的奇异值是否大于某个阈值,若大于则其零空间的秩为1,反之秩大于1,相对旋转 $R{c}^{b}$ 的精度不够,校准不成功。
对应代码在 InitialEXRotation::CalibrationExRotation
中。
1 |
|
2.2 检测IMU可观性
1 |
|
2.3 相机初始化(Vision-Only SFM)
- 求取本质矩阵求解位姿(
relativePose
) - 三角化特征点(
sfm.construct
) - PnP求解位姿(
cv::solvePnP
) - 转换到IMU坐标系下
- $c_0$ 坐标系作为参考系
- 不断重复直到恢复出滑窗内的Features和相机位姿
2.4 视觉与IMU对齐
- Gyroscope Bias Calibration
- Velocity, Gravity Vector and Metric Scale Initialization
- Gravity Refinement
- Completing Initialization
对应代码:VisualIMUAlignment
陀螺仪Bias标定
标定陀螺仪Bias使用如下代价函数
因为四元数最小值为单位四元数 $[1,0_{v}]^{T}$,所以令
其中
所以
只取上式虚部,再进行最小二乘求解
求解上式的最小二乘解,即可得到 $\delta b_{w}$,注意这个地方得到的只是Bias的变化量,需要在滑窗内累加得到Bias的准确值。
对应代码:solveGyroscopeBias
1 |
|
初始化速度、重力向量和尺度因子
要估计的状态量
其中,$g^{c_{0}}$ 为在第 0 帧 Camera 相机坐标系下的重力向量。
根据IMU测量模型可知
我们已经得到了IMU相对于相机的旋转 $q{b}^{c}$,假设IMU到相机的平移量$p{b}^{c}$,那么可以很容易地将相机坐标系下的位姿转换到IMU坐标系下
所以,定义相邻两帧之间的IMU预积分出的增量(${\hat{\alpha}}{b{k+1}}^{b{k}}$,${\hat{\beta}}{b{k+1}}^{b{k}}$)与预测值之间的残差,即
令 $r(\hat{z}{b{k+1}}^{b_{k}}, X_I)=\mathbf{0}$,转换成 $Hx=b$ 的形式
通过Cholosky分解求解 $X_I$
对应代码:LinearAlignment
优化重力
重力矢量的模长固定(9.8),其为2个自由度,在切空间上对其参数化
令 $\hat{g} = g^{c_{0}}$,将其代入上一小节公式得
同样,通过Cholosky分解求得 $g^{c_{0}}$,即相机 $C_0$ 系下的重力向量。
最后,通过将 $g^{c{0}}$ 旋转至惯性坐标系(世界系)中的 z 轴方向[0,0,1],可以计算第一帧相机系到惯性系的旋转矩阵 $q{c_0}^w$,这样就可以将所有变量调整至惯性世界系(水平坐标系,z轴与重力方向对齐)中。
对应代码:RefineGravity
3. 后端优化(紧耦合)
VIO 紧耦合方案的主要思路就是通过将基于视觉构造的残差项和基于IMU构造的残差项放在一起构造成一个联合优化的问题,整个优化问题的最优解即可认为是比较准确的状态估计。
为了限制优化变量的数目,VINS-Mono 采用了滑动窗口的形式,滑动窗口 中的 全状态量:
- 滑动窗口内 n+1 个所有相机的状态(包括位置、朝向、速度、加速度计 bias 和陀螺仪 bias)
- Camera 到 IMU 的外参
- m+1 个 3D 点的逆深度
优化过程中的 误差状态量
进而得到系统优化的代价函数(Minimize residuals from all sensors)
其中三个残差项依次是
- 边缘化的先验信息
- IMU测量残差
- 视觉的观测残差
三种残差都是用 马氏距离(与量纲无关) 来表示的。
Motion-only visual-inertial bundle adjustment: Optimize position, velocity, rotation in a smaller windows, assuming all other quantities are fixed
3.1 IMU 测量残差
(1)IMU 测量残差
上面的IMU预积分(估计值 - 测量值),得到IMU测量残差
其中 $[\hat{\alpha }^{b{k}}{b{k+1}},\hat{\gamma }^{b{k}}{b{k+1}},\hat{\beta }^{b{k}}{b_{k+1}}]$ 为 IMU预积分Bias修正值。
1 |
|
(2)协方差矩阵
此处用到的协方差矩阵为前面IMU预积分计算出的协方差矩阵。
残差的后处理对应代码:
1 |
|
这里残差 residual 乘以 sqrt_info,这是因为真正的优化项其实是 Mahalanobis 距离: $d = r^T P^{-1} r$,其中 $P$ 是协方差。Mahalanobis距离 其实相当于一个残差加权,协方差大的加权小,协方差小的加权大,着重优化那些比较确定的残差。
而 ceres只接受最小二乘优化,也就是 $\min e^T e$,所以把 $P^{-1}$ 做 LLT分解,即 $LL^T=P^{−1}$,则 $d = r^T (L L^T) r = (L^T r)^T (L^T r)$,令 $r’ = (L^T r)$,作为新的优化误差,所以 sqrt_info 等于 $L^T$。
(3)雅克比矩阵
高斯迭代优化过程中会用到IMU测量残差对状态量的雅克比矩阵,但此处我们是 对误差状态量求偏导,下面对四部分误差状态量求取雅克比矩阵。
对$[\delta p^{w}{b{k}},\delta \theta ^{w}{b{k}}]$ 求偏导得
对 $[\delta v^{w}{b{k}},\delta b{ab{k}},\delta b{wb{k}}]$ 求偏导得
对 $[\delta p^{w}{b{k+1}},\delta \theta ^{w}{b{k+1}}]$ 求偏导得
对 $[\delta v^{w}{b{k}},\delta b{ab{k}},\delta b{wb{k}}]$ 求偏导得
雅克比矩阵计算的对应代码在 class IMUFactor : public ceres::SizedCostFunction<15, 7, 9, 7, 9>
中的 Evaluate()
函数中。
3.2 视觉(td) 测量残差
视觉测量残差 即 特征点的重投影误差,视觉残差和雅克比矩阵计算的对应代码在 ProjectionFactor::Evaluate
函数中。
(1)切平面重投影误差(Spherical camera model)
其中,
1 |
|
(2)像素重投影误差(Pinhole camera model)
1 |
|
(3)协方差矩阵
固定的协方差矩阵,归一化平面的标准差为 $\frac{1.5}{f}$,即像素标准差为 $1.5$
1 |
|
(4)雅克比矩阵
下面关于误差状态量对相机测量残差求偏导,得到高斯迭代优化过程中的雅克比矩阵。
对 $[\delta p^{w}{b{i}},\delta \theta ^{w}{b{i}}]$ 求偏导
对 $[\delta p^{w}{b{j}},\delta \theta ^{w}{b{j}}]$ 求偏导
对 $[\delta p^{b}{c},\delta \theta ^{b}{c}]$ 求偏导
对 $\delta \lambda_{l}$ 求偏导
(5)Vision measurement residual for temporal calibration
视觉残差和雅克比矩阵计算的对应代码在 ProjectionTdFactor::Evaluate
函数中。
1 |
|
- 添加对 imu-camera 时间戳不完全同步和 Rolling Shutter 相机的支持:通过前端光流计算得到每个角点在归一化的速度,根据 imu-camera 时间戳的时间同步误差和Rolling Shutter相机做一次rolling的时间,对角点的归一化坐标进行调整
3.3 Temporal Calibration
Timestamps
Time Synchronization
Temporal Calibration
- calibrate the fixed latency $t_d$ occurred during time stamping
- change the IMU pre-integration interval to the interval between two image timestamps
- linear incorporation of IMU measurements to obtain the IMU reading at image time stamping
- estimates states(position, orientation, etc.) at image time stamping
3.4 边缘化(Marginalization)
SLAM is tracking a noraml distribution through a large state space
滑窗(Sliding Window) 限制了关键帧的数量,防止pose和feature的个数不会随时间不断增加,使得优化问题始终在一个有限的复杂度内,不会随时间不断增长。
Marginalization
然而,将pose移出windows时,有些约束会被丢弃掉,这样势必会导致求解的精度下降,而且当MAV进行一些退化运动(如: 匀速运动)时,没有历史信息做约束的话是无法求解的。所以,在移出位姿或特征的时候,需要将相关联的约束转变成一个约束项作为prior放到优化问题中,这就是marginalization要做的事情。
边缘化的过程就是将滑窗内的某些较旧或者不满足要求的视觉帧剔除的过程,所以边缘化也被描述为 将联合概率分布分解为边缘概率分布和条件概率分布的过程(就是利用shur补减少优化参数的过程)。
直接进行边缘化而不加入先验条件的后果:
无故地移除这些pose和feature会丢弃帧间约束,会降低了优化器的精度,所以在移除pose和feature的时候需要将相关联的约束转变为一个先验的约束条件作为prior放到优化问题中
在边缘化的过程中,不加先验的边缘化会导致系统尺度的缺失(参考[6]),尤其是系统在进行退化运动时(如无人机的悬停和恒速运动)。一般来说 只有两个轴向的加速度不为0的时候,才能保证尺度可观,而退化运动对于无人机或者机器人来说是不可避免的。所以在系统处于退化运动的时候,要加入先验信息保证尺度的可观性
VINS-Mono中为了处理一些悬停的case,引入了一个two-way marginalization:
MARGIN_OLD:如果次新帧是关键帧,则丢弃滑动窗口内最老的图像帧,同时对与该图像帧关联的约束项进行边缘化处理。这里需要注意的是,如果该关键帧是观察到某个地图点的第一帧,则需要把该地图点的深度转移到后面的图像帧中去。
MARGIN_NEW:如果次新帧不是关键帧,则丢弃当前帧的前一帧。因为判定当前帧不是关键帧的条件就是当前帧与前一帧视差很小,也就是说当前帧和前一帧很相似,这种情况下直接丢弃前一帧,然后用当前帧代替前一帧。为什么这里可以不对前一帧进行边缘化,而是直接丢弃,原因就是当前帧和前一帧很相似,因此当前帧与地图点之间的约束和前一帧与地图点之间的约束是很接近的,直接丢弃并不会造成整个约束关系丢失信息。这里需要注意的是,要把当前帧和前一帧之间的 IMU 预积分转换为当前帧和前二帧之间的 IMU 预积分。
在悬停等运动较小的情况下,会频繁的MARGIN_NEW,这样也就保留了那些比较旧但是视差比较大的pose。这种情况如果一直MARGIN_OLD的话,视觉约束不够强,状态估计会受IMU积分误差影响,具有较大的累积误差。
Schur Complement
- Marginalization via Schur complement on information matrix
First Estimate Jacobin
4. 重定位
4.1 Loop Detection
Vins-Mono利用 词袋 DBoW2 做Keyframe Database的构建和查询。在建立闭环检测的数据库时,关键帧的Features包括两部分:VIO部分的200个强角点 和 500个Fast角点,然后描述子使用 BRIEF (因为旋转可观,匹配过程中对旋转有一定的适应性,所以不用使用ORB)。
- Describe features by BRIEF
- Features that we use in the VIO (200, not enough for loop detection)
- Extract new FAST features (500, only use for loop detection)
- Query Bag-of-Word (DBoW2)
- Return loop candidates
4.2 Feature Retrieval
在闭环检测成功之后,会得到回环候选帧,所以要在已知位姿的回环候选帧和滑窗内的匹配帧通过 BRIEF描述子匹配,然后把回环帧加入到滑窗的优化当中,这时整个滑窗的状态量的维度是不发生变化的,因为回环帧的位姿是固定的。
- Try to retrieve matches for features (200) that are used in the VIO
- BRIEF descriptor match
- Geometric check
- 2D-2D: fundamental matrix test with RANSAC
- 3D-3D: PnP test with RANSAC
- At least 30 inliers
4.3 Tightly-Coupled Relocalization
5. 全局位姿图优化
因为之前做的非线性优化本质只是在一个滑窗之内求解出了相机的位姿,而且在回环检测部分,利用固定位姿的回环帧只是纠正了滑窗内的相机位姿,并没有修正其他位姿(或者说没有将回环发现的误差分配到整个相机的轨迹上),缺少全局的一致性,所以要做一次全局的Pose Graph。全局的Pose Graph较之滑窗有一定的迟滞性,只有相机的Pose滑出滑窗的时候,Pose才会被加到全局的Pose Graph当中。
(1) Adding Keyframes into the Pose Graph
- Sequential edges from VIO
- Connected with 4 previous keyframes
- Loop closure edges
- Only added when a keyframe is marginalized out from the sliding window VIO
- Multi-constraint relocalization helps eliminating false loop closures
- Huber norm for rejection of wrong loops
(2) 4-DOF Pose Graph Optimization
- Roll and pitch are observable from VIO
(3) Pose Graph Management
(4) Map Reuse
- Save map at any time
- Load map and re-localize with respect to it
- Pose graph merging
6. Remarks on Monocular Visual-Inertial SLAM
- Important factors
- Access to raw camera data (especially for rolling shutter cameras)
- Sensor synchronization and timestamps
- Camera-IMU rotation
- Estimator initialization
- Not-so-important factors
- Camera-IMU translation
- Types of features (we use the simplest corner+KLT)
- Quality of feature tracking (outlier is acceptable)
- Failures – need more engineering treatment
- Long range scenes (aerial vehicles)
- Constant velocity (ground vehicle)
- Pure rotation (augmented reality)
- Be aware of computational power requirement
参考文献
- [1] VINS-Mono: A Robust and Versatile Monocular Visual-Inertial State Estimator
- [2] Shaojie Shen, Monocular Visual-Inertial SLAM slides, 2018
- [3] Quaternion kinematics for the error-state Kalman filter
- [4] Xiaobuyi, VINS-Mono代码分析总结