适用于非合作目标捕获的轻量级位姿估计网络

引用本文

蒋明, 陈雨, 周青华, 等. 适用于非合作目标捕获的轻量级位姿估计网络[J]. 计算机工程, 2022, 48(6), 235-242. DOI: 10.19678/j.issn.1000-3428.0060882.

JIANG Ming, CHEN Yu, ZHOU Qinghua, et al. Lightweight Pose Estimation Network for Non-Cooperative Target Acquisition[J]. Computer Engineering, 2022, 48(6), 235-242. DOI: 10.19678/j.issn.1000-3428.0060882.

基金项目

国家自然科学基金面上项目(51875373);四川省科技计划项目(2019YJ0093)

通信作者

陈雨（通信作者），副教授、博士

作者简介

蒋明（1997—），男，硕士研究生，主研方向为机器视觉、智能机器人;
周青华，教授、博士;
袁媛，硕士研究生;
何世琼，硕士研究生

文章历史

收稿日期：2021-02-18
修回日期：2021-06-14

Contents Abstract Full text Figures/Tables PDF

适用于非合作目标捕获的轻量级位姿估计网络

蒋明¹ , 陈雨¹ , 周青华² , 袁媛¹ , 何世琼¹

1. 四川大学电子信息学院，成都 610065;
2. 四川大学空天科学与工程学院，成都 610065

收稿日期：2021-02-18；修回日期：2021-06-14

基金项目：国家自然科学基金面上项目(51875373);四川省科技计划项目(2019YJ0093)

作者简介：蒋明（1997—），男，硕士研究生，主研方向为机器视觉、智能机器人; 周青华，教授、博士; 袁媛，硕士研究生; 何世琼，硕士研究生.

通信作者：陈雨（通信作者），副教授、博士.

E-mail: jmlearn@163.com

摘要：空间非合作目标的增多导致太空安全受到严重威胁，对非合作目标进行捕获回收具有维护空间安全、节约资源等现实意义。非合作目标捕获回收需要进行位姿估计，而目前在硬件资源有限的航天器平台上，现有的大多数非合作目标位姿估计算法无法同时满足及时性和准确性的要求。设计一种超轻量级目标检测网络YOLO-GhostECA，利用GhostBottleneck网络减少特征图冗余，并使用高效注意力机制提取核心特征图，以降低模型参数，在提升运算速度的同时保证精度水平几乎不下降。根据YOLO-GhostECA网络的检测结果粗略估计姿态，以协助机械臂更加合理地执行智能捕获任务，解决2D识别算法无法检测出物体姿态的问题。在7自由度冗余机械臂上开展的空间非合作目标捕获地面模拟的实验结果表明，与YOLOv5s网络相比，该网络模型大小减小了80.4%，运算复杂度降低了78.9%，而精度基本保持不变，可准确快速地对非合作目标进行位姿估计，能够引导机器人成功捕获非合作物体。

Lightweight Pose Estimation Network for Non-Cooperative Target Acquisition

JIANG Ming¹ , CHEN Yu¹ , ZHOU Qinghua² , YUAN Yuan¹ , HE Shiqiong¹

1. School of Electronic Information, Sichuan University, Chengdu 610065, China;
2. School of Aeronautics and Astronautics, Sichuan University, Chengdu 610065, China

Abstract: The increase in non-cooperative targets in space has led to a serious threat to space security.Therefore, the capture and recovery of non-cooperative targets have practical significance in maintaining space security and resource-saving.Non-cooperative target acquisition and recovery require pose estimation.On a spacecraft platform with limited hardware resources, most existing non-cooperative target pose estimation algorithms cannot simultaneously meet the requirements of timeliness and accuracy.An ultra-lightweight target detection network YOLO-GhostECA is proposed. The Ghostbottleneck network reduces the redundancy of the feature map, and an efficient attention mechanism extracted the core feature map to reduce the model parameters and ensure that the accuracy level was not compromised while improving the operation speed.Using the detection results of the YOLO-GhostECA network to estimate the attitude to assist the manipulator in a sensibly intelligent acquisition task and solve the problem that the 2D recognition algorithm cannot detect the object attitude.The experimental results of the ground simulation of space non-cooperative target acquisition on a 7-DOF redundant manipulator show that compared with the algorithm based on the YOLOv5s network, the model size was reduced by 80.4%, the computational complexity was reduced by 78.9%, and the accuracy remained constant.It accurately and quickly estimates the pose of non-cooperative targets and guidesthe robot to successfully capture non-cooperative objects.

开放科学（资源服务）标志码（OSID）：

0 概述

随着人类开发太空进程的加快，大量卫星、火箭等航天器被发射到太空中执行各项任务，但由于航天器可能会面临意外故障、燃料耗尽等问题，导致这些航天器由合作目标转化成非合作目标，威胁着太空安全。因此，回收这些非合作目标具有维护空间安全及节约资源的现实意义^[1]。研究人员提出在轨服务技术^[2]，利用空间特种机器人来完成在轨维修、清理空间碎片等高危险性空间任务，其中，非合作目标捕获是在轨服务技术的一项关键技术。在特种机器人对非合作目标实施在轨抓捕之前，需要对目标航天器进行识别与定位，为下一步捕获任务做准备。但是在太空环境中，相机对太阳光照等外界信息非常不敏感，且机器人面临的是未知的非结构化环境，传统的目标检测算法需要人为提取特征，泛化能力较差，在非合作目标检测任务上表现不佳。

自2012年卷积神经网络CNN被应用于图像处理领域并一举夺得ImageNet图像识别比赛冠军之后^[3]，基于CNN的目标检测算法进入了快速发展阶段。由于其具有自动提取特征、泛化能力强、稳定性好等优点，因此在非结构化环境中表现了巨大的优势。基于CNN的目标检测算法大致可以分成2大类型：第1类是以区域推荐法获取不同尺寸的二阶段网络，其精度较高，但由于需要产生大量候选框，所以速度慢，实时性较差，主要代表算法有R-CNN^[4]、Fast-RCNN^[5]、Mask-RCNN^[6]等；第2类是一阶段网络，直接端到端进行预测，不需要区域推荐，直接回归产生物体的类别概率和位置信息，因此速度快，模型较小，但精度相对较低，代表性的算法有YOLO^[7]、SSD^[8]。

大部分空间非合作目标的运动规律是未知的，甚至很大可能是高速运动的，且均具有一定的非合作性。受机载处理器计算能力的限制，非合作目标的复杂识别算法无法在航天器上独立完成^[9]，图像处理算法的设计和实现面临着准确性、及时性和小型化的矛盾，因此对空间机器人非合作目标抓捕任务的目标检测算法准确性和实时性均提出了较高要求^[10]。此外，传统的2D目标检测只能得到空间位置，无法估计物体的姿态，不太适用于机械臂捕获操作。针对这些问题，YU等^[11]提出利用检测目标矩形框长宽比进行抓取姿态的粗略估计，但没有考虑目标物体位置对捕获姿态的影响，且估算姿态太过简单，很多估计情况不符合现实场景。

本文基于YOLO设计一种YOLO-GhostECA网络，通过GhostBottleneck网络减少特征图冗余，并利用高效通道注意力模块ECA提取核心特征图，从而在保持检测精度不下降的同时，提升检测速度及降低模型大小。此外，提出一种定性估计非合作目标抓取姿态的方法，以弥补传统2D目标检测算法无法估计抓取姿态的缺陷。

1 轻量级目标检测识别 1.1 YOLOv5s目标检测网络

由于YOLO网络兼顾实时性和准确性，因此成为了工业界落地最好的目标检测网络之一，在这之后相继提出了YOLOv2^[12]、YOLOv3^[13]、YOLOv4^[14]以及各种YOLO网络的变种。GLENN等^[15]开发出的YOLOv5，成为YOLO网络实现版本中最优秀的网络之一。YOLOv5s网络由骨干网络、瓶颈层、检测层3大模块组成，如图 1所示。

	Download: JPG larger image
图 1 YOLOv5s网络模型结构 Fig. 1 Network model structure of YOLOv5s

骨干网络的主要作用是提取特征，由Focus^[16]、CSPDarknet53^[14]、SPP^[17]组成。其中Focus为切片操作，能够替换卷积操作，减少卷积所造成的特征信息损失。CSPDarknet53主要进行网络特征提取，该网络由跨层局部连接CSP^[18]构建而成，可以增加网络提取特征的能力，降低计算瓶颈和内存成本。SPP是空间特征金字塔池化结构，此结构能扩大感受野，实现局部和全局特征融合，丰富特征图的信息。

瓶颈层用来融合不同尺寸特征图及提取高层语义特征，由PANet网络组成。PANet网络可以将特征图自上而下以及自下而上进行特征融合，以减少信息损失^[19]。

检测层将瓶颈层产生的高层语义特征用于分类和回归出物体的类别和位置，由YOLOv3Head^[13]组成。YOLOv3Head有3个检测头，分别可以检测大、中、小物体，很好地克服了一阶段检测小物体精度低的缺点。

1.2 YOLO-GhostECA轻量级目标检测网络

传统的深度卷积网络模型一般使用大量常规卷积对图像进行特征提取，但这需要消耗大量的算力。2020年1月，华为诺亚方舟实验室HAN等^[20]在观测常规卷积中间特征图时发现很多通道的特征图十分相似，这说明利用常规卷积提取出来的特征图在一定程度上是存在冗余的。他们猜想并不需要进行完整的卷积运算得到需要的特征图，而只需要用常规卷积去获取一部分特征图即可，因此提出了GhostNet网络。该网络可以用更少的参数来生成更多特征，能够减少特征图冗余，从而达到减少网络模型大小和计算量的目的。GhostNet网络的相关结构原理如图 2所示，其中，图 2（b）的GhostBottleneck由图 2（a）的GhostModule网络构成，GhostNet网络由图 2（b）的GhostBottleneck网络构成。

	Download: JPG larger image
图 2 GhostModule网络及GhostBottleneck网络的结构 Fig. 2 Network structure of GhostModule and GhostBottleneck

GhostModule网络的具体实现原理如图 2（a）所示，与常规卷积不同的是它只需要利用常规卷积运算得到半数通道的特征图，使用一系列廉价的线性运算对这半数通道的特征图进行处理，并生成幻影特征图，最后将生成的幻影特征图与原始卷积得到的半数通道特征图合并，构成与常规卷积相同通道数的特征图，此特征图可以近似于原始的完整特征图，但是计算量和参数量却减少了很多。此外，HAN等利用GhostModule网络设计了图 2（b）中2种GhostBottleneck网络结构，其中stride=1的GhostBottleneck网络与步长为1的CSPConv网络效果相同，stride=2的GhostBottleneck与步长为2的CSPConv网络效果相同，因此GhostBottle网络可以替换常规卷积在网络模型中进行特征提取。本文利用GhostBottleneck网络替换CSPBottleneck网络，并重新构建出了GhostDarknet网络作为YOLO-Ghost的主干网络。为进一步提升精度，本文引入了高效通道注意力（Efficent Channel Attention，ECA）^[21]模块，并将ECA应用于PANet网络中，形成具有注意力机制的PANet网络，即ECA-PANet结构。该结构能够加强特征融合，在获得更多想要的图像特征的同时，忽略不需要的特征，与其他通道注意力模块相比，ECA模块可以在不引入多余参数进行计算的情况下，提升模型的精度。

以YOLOv5s网络为基础，结合上述提出的几个新型模块构建出了新型轻量级目标检测网络YOLO-GhostECA，该网络可以利用少量的参数获取更多需要的特征图，其结构如图 3所示。

	Download: JPG larger image
图 3 YOLO-GhostECA网络结构 Fig. 3 Network structure of YOLO-GhostECA

1.3 YOLO-GhostECA网络的损失函数

原YOLOv5中IoU损失函数使用的是GIoU-loss，但其只考虑到了重叠区域和非重叠区域，没有考虑矩形框对IoU的影响。因此YOLO-GhostECA使用Complete-IoU（CIoU）^[22]损失函数，该损失函数同时考虑到了矩形框的长宽比、目标与anchor之间的距离、重叠率、尺度等因素，这可以进一步提高模型的性能，加快损失函数收敛。CIoU损失函数如式（1）所示：

$ {L}_{{\mathrm{C}}{\mathrm{I}}{\mathrm{o}}{\mathrm{U}}}=1-{I}_{{\mathrm{I}}{\mathrm{o}}{\mathrm{U}}}+\frac{{\rho }^{2}(b, {b}^{{\mathrm{g}}{\mathrm{t}}})}{{c}^{2}}+\alpha \upsilon $

(1)

其中：α是权重函数。

计算方法如式（2）所示：

$ \alpha =\frac{\upsilon }{\left(1-{I}_{{\mathrm{I}}{\mathrm{o}}{\mathrm{U}}}\right)+\upsilon } $

(2)

其中：υ是度量长宽比的相似性。

υ的计算公式如式（3）所示：

$ \upsilon =\frac{4}{{{\mathrm{\pi }}}^{2}}{\left({\mathrm{a}}{\mathrm{r}}{\mathrm{c}}{\mathrm{t}}{\mathrm{a}}{\mathrm{n}}\frac{{w}^{{\mathrm{g}}{\mathrm{t}}}}{{h}^{{\mathrm{g}}{\mathrm{t}}}}-{\mathrm{a}}{\mathrm{r}}{\mathrm{c}}{\mathrm{t}}{\mathrm{a}}{\mathrm{n}}\frac{w}{h}\right)}^{2} $

(3)

其中：ρ（b，b^gt）代表计算预测框中心点b和真实框中心点b^gt的欧氏距离；c表示能够同时包含预测框和真实框的最小闭包区间的对角线距离。

2 空间定位与姿态估计 2.1 空间定位

上述目标检测算法只能获得非合作目标在图像坐标系中的位置，但是机械臂抓取目标需要基于自身基座坐标系下的三维点信息。为完成抓取任务，还需建立相机成像模型，如图 4所示，其中：O_cX_cY_cZ_c是相机坐标系；O_pX_pY_p是图像坐标系；O_wX_wY_wZ_w是世界坐标系；P（x_w，y_w，z_w）是物体在世界坐标系下的坐标；P（u，v）是物体在像素坐标系下的坐标。

	Download: JPG larger image
图 4 相机成像模型 Fig. 4 Camera imaging model

借助相机成像模型可建立目标检测得到的二维图像坐标和机械臂抓取的三维世界坐标之间的映射关系，如式（4）所示：

$ {z}_{c}\left[\begin{array}{l}u\\ v\\ 1\end{array}\right]=\left[\begin{array}{cccc}\frac{f}{{\mathrm{d}}x}& 0& {u}_{0}& 0\\ 0& \frac{f}{{\mathrm{d}}y}& {v}_{0}& 0\\ 0& 0& 1& 0\end{array}\right]\left[\begin{array}{cc}R& t\\ 0& 1\end{array}\right]\left[\begin{array}{c}{x}_{w}\\ {y}_{w}\\ {z}_{w}\\ 1\end{array}\right]={M}_{1}{M}_{2}\left[\begin{array}{c}{x}_{w}\\ {y}_{w}\\ {z}_{w}\\ 1\end{array}\right] $

(4)

其中：M₁是摄像机内部参数矩阵，用来将像素坐标转化到相机坐标系下，是一个由二维转三维的过程，可由相机标定张正友棋盘格标定法^[23]得到；M₂是摄像机外部参数矩阵，能够将相机坐标转化到世界坐标系下（本文的世界坐标系定义在机械臂的基础坐标系处），一般由手眼标定^[24]得到；z_c是深度值，由Intel Rense D435i深度相机根据结构光与双目立体视觉融合的混合测距技术实时计算得到。当知道以上相关参数和目标检测得到的物体像素坐标后，即可使用式（4）完成对目标物体的空间定位。

2.2 姿态估计

空间定位可以得到目标物体的三维空间坐标，但为了合理引导机器人捕获目标物体，姿态估计是一个重要的过程。事实上，目标检测得到的结果数据中已经包含了一些物体的姿态信息，例如当物体呈现不同姿态时，其检测得到的矩形框尺寸比例将呈现不同的数值。为进一步利用目标检测的结果，本文提出一种通过目标检测得到的非合作目标信息（u，v，w，h，class）来粗略预估机械臂抓取姿态的新型方法。该方法将抓取姿态Φ大致分成了6种，即中正抓姿态Φ_A、中偏抓姿态Φ_B、上抓姿态Φ_C、下抓姿态Φ_D、左抓姿态Φ_E和右抓姿态Φ_F。估算的6种抓取姿态的姿态参数如表 1所示。

下载CSV 表 1 6种抓取姿态的相关参数（绕固定轴旋转） Table 1 6 parameters related to grasping attitude (rotating around a fixed axis)

目标物体的抓取姿态Φ可以由式（5）和式（6）估计确定：

$ r=\frac{{O}_{w}}{{O}_{h}} $

(5)

$ \varPhi =\left\{\begin{array}{l}{\varPhi }_{{\mathrm{A}}}, r > {r}_{1}\\ {\varPhi }_{B}, r < \frac{1}{{r}_{1}}\\ {\varPhi }_{C}, {r}_{2} < r < {r}_{1}, v > {V}_{s}\\ {\varPhi }_{D}, {r}_{2} < r < {r}_{1}, v\le {V}_{s}\\ {\varPhi }_{E}, \frac{1}{{r}_{1}} < r < {r}_{2}, u > {U}_{s}\\ {\varPhi }_{F}, \frac{1}{{r}_{1}} < r < {r}_{2}, u\le {U}_{s}\end{array}\right. $

(6)

式（5）是计算矩形宽高比例的公式，其中：O_w为矩形框的宽；O_h为矩形框的高。式（6）是计算目标物体抓取姿态的公式，其中：u、v为目标检测得到的物体像素坐标；r₁、r₂为常数，可以根据实际物体class的长宽比例进行粗略计算，多个物体即有多个值；V_s用来确定抓取的上下姿态；U_s用来确定抓取的水平方向的姿态，这2个参数可以将笛卡尔空间划分成4个区域，根据目标检测像素点的位置可判定物体处在4个区域中的位置，U_s、V_s的值取决于相机与机械臂末端初始位置的空间几何关系，即机械臂在初始位置时在相机像素坐标系下的映射点坐标。

6种抓取姿态的估计示意图如图 5所示。

	Download: JPG larger image
图 5 6种抓取姿态的估计示意图 Fig. 5 Schematic diagram of estimation of six grasping postures

3 实验结果与分析 3.1 实验仿真系统

本文利用7自由度机械臂等设备搭建了地面仿真实验平台。实验中先将航天器模型用细绳系紧，悬挂于空中，并将实验室的灯熄灭，只留1个补光灯，给非合作目标补光，以此来模拟太空环境暗黑失重环境。实验仿真流程如图 6所示，先使用YOLO-GhostECA进行非合作目标识别，再根据目标检测结果使用第2节的方法估计物体的位姿，最后将估计的目标物体位姿信息（x，y，z，W，P，R）传送给机械臂的控制器，机械臂控制器控制电机进行相应驱动，即可对目标物体进行捕获操作。本文所有实验均在表 2所示实验条件下进行。

	Download: JPG larger image
图 6 实验仿真流程 Fig. 6 Procedure of experimental simulation

下载CSV 表 2 实验参数 Table 2 Experimental parameters

3.2 非合作目标识别

非合作目标识别的具体步骤如下：

步骤1 数据集的制作。由于目前没有非合作目标航天器的公有数据集，因此在实际中对太空环境黑暗且失重环境进行现实模拟，采集拍摄387张多姿态多场景的航天器模型图片，并利用采集的图像数据进行联合训练，部分数据集如图 7所示。

	Download: JPG larger image
图 7 非合作目标数据集示例 Fig. 7 Examples of non-cooperative target dataset

步骤2 训练策略。实验中使用了多种训练策略来提升网络的性能。

1）anchor大小。利用K-mean聚类算法找出数据集中较好的9个anchor尺寸，有助于提高平均精度均值（mean Average Precision，mAP）。

2）超参数演进。利用基因遗传算法训练200代，找到较好的超参数后，利用超参数演进得来的超参数对网络进行训练，使网络能够迅速得到全局最优解，让模型达到较好的效果。

3）学习率l_r。利用类余弦退火进行学习率学习，减少陷入局部最优解的情况发生。

4）数据增强操作。在训练过程中对数据进行随机裁剪、放大等操作来增大数据集，使每一个epoch训练的图都不是同一张图，在数据集有限的情况下有效提高模型的泛化能力。

步骤3 性能测试。通过上面的策略进行模型训练，完成后在模型大小、运行速度、模型参数量（即过程中梯度更新数量）、模型运算复杂度（即每秒浮点数运算次数）等多方面对网络模型性能进行分析评估，其结果如图 8所示。由图 8（a）可知，YOLOv5-GhostECA模型大小仅2.9 MB，相较于YOLOv5s减少了80.4%。图 8（b）显示YOLO-GhostECA在GPU上运行时间仅2.7 ms，即帧率高达370 frame/s，GPU运行速度相对于YOLOv5s提升了49.1%。图 8（c）显示YOLOv5-GhostECA模型在CPU上的运行时间为320.6 ms，相对于YOLOv5s的460 ms来讲，运行时间减少了30.3%。图 8（d）显示YOLO-GhostECA的mAP为0.896，依然保持在较高值，相对于YOLOv5s的mAP仅下降了0.2%。由图 8（e）可知YOLOv5s的模型参数大小为7.468 MB，而YOLO-Ghost和YOLO-GhostECA均只有1.313 MB，新提出的YOLO-Ghost相较于YOLOv5s参数量减少了82.4%，而融合ECA注意力机制的YOLO-GhostECA参数量相比于YOLO-Ghost保持不变。图 8（f）所示为模型的运算复杂度，YOLOv5s为17.5 GFLOPs，YOLO-Ghost和YOLO-GhostECA均为3.7 GFLOPs，可以看出YOLO-Ghost相比于YOLOv5s运算复杂度降低了78.9%，且融合的ECA模块并没有增加运算复杂度。综上分析，本文提出的YOLO-GhostECA模型在GhostDarknet基础上结合高效通道注意力模块ECA的方法在保持精度的同时，使模型的参数量和运算复杂度均大幅降低，且减小了模型尺寸，提升了运行速度。

	Download: JPG larger image
图 8 不同模型的性能参数对比 Fig. 8 Comparison of performance parameters of different models

步骤4 模型效果测试。利用训练好的YOLO-GhostECA进行非合作目标识别实验，实验结果如图 9所示。可以看出，该模型能够准确地识别和定位出非合作目标物体，且在多姿态多场景下，其预测准度分数均保持较高水平。

	Download: JPG larger image
图 9 本文网络模型测试结果 Fig. 9 Test results of network model in this paper

3.3 非合作目标位姿估计

先采集-20张以上不同姿态的棋盘格图片，然后利用张正友棋盘格标定法^[23]在Matlab的cameracalib中进行标定得到相机内参。相应地采集40张以上的RGB图以及深度图，利用Tsai方法^[24]进行手眼标定得到相机外参。

利用标定的结果和YOLO-GhostECA检测网络，通过第2节提出的位姿估计方法进行非合作目标位姿估计，其中姿态估计公式（6）中的r₁、r₂通过分析非合作目标数据集得到，分别为3.0和1.0，V_s、U_s根据相机空间几何位置分别设定为320和360。根据该位姿估计算法估计的位姿结果见表 3。

下载CSV 表 3 非合作目标位姿估计的结果 Table 3 Results of pose estimation of non-cooperative targets

3.4 非合作目标捕获

将上述得到的位姿估计结果通过EtherCAT发送给织女机械臂控制器，控制机械臂进行非合作目标捕获，捕获实验效果如图 10所示。

	Download: JPG larger image
图 10 非合作目标捕获的实验效果 Fig. 10 Experimental effect of capturing non-cooperative targets

由图 10可知，本文提出的位姿估计算法可以对非合作目标进行准确的空间定位和粗略的姿态估计，其位姿估计结果可以合理地引导机械臂对非合作目标进行捕获。

4 结束语

本文设计一种适用于非合作目标捕获的轻量级位姿估计网络，将深度学习YOLOv5网络应用于空间非合作目标智能识别与捕获任务中，并基于GhostNet网络设计GhostDarknet骨干网络，减少冗余特征图的提取，在基本保持精度不变的情况下，减少网络模型大小，提高模型运算速度。此外，提出一种利用YOLO-GhostECA检测结果来估计物体抓取位姿的方法，并通过深度相机Intel RealSense D435i、非合作目标缩小模型和7自由度冗余机械臂搭建地面仿真实验平台。实验结果表明，该网络在非结构化环境中能很好地完成非合作目标捕获任务。下一步将通过扩充数据集提升网络的精度，并将训练好的网络部署到嵌入式设备中，对实时性和准确度进行验证。

参考文献

[1]	孙康. 空间机械臂抓捕非合作目标的辨识、规划及控制策略研究[D]. 哈尔滨: 哈尔滨工业大学, 2020. SUN K. Research on identification, kinematic planning and control strategy in capture of non-cooperative target by space manipulator[D]. Harbin: Harbin Institute of Technology, 2020. (in Chinese)
[2]	梁斌, 杜晓东, 李成, 等. 空间机器人非合作航天器在轨服务研究进展[J]. 机器人, 2012, 34(2): 242-256. LIANG B, DU X D, LI C, et al. Advances in space robot on-orbit servicing for non-cooperative spacecraft[J]. Robot, 2012, 34(2): 242-256. (in Chinese)
[3]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386
[4]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2014: 580-587.
[5]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[6]	HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 2980-2988.
[7]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 779-788.
[8]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
[9]	刘帅. 空间机器人抓捕非合作目标的智能控制与识别[D]. 大连: 大连理工大学, 2019. LIU S. Intelligent control and recognition of space robot capturing non-cooperative targets[D]. Dalian: Dalian University of Technology, 2019. (in Chinese)
[10]	LI Y W, BO Y M, ZHAO G P. Survey of measurement of position and pose for space non-cooperative target[C]//Proceedings of the 34th Chinese Control Conference. Washington D.C., USA: IEEE Press, 2015: 5101-5106.
[11]	余玉琴, 魏国亮, 王永雄. 基于改进YOLOv2的无标定3D机械臂自主抓取方法[J]. 计算机应用研究, 2020, 37(5): 1450-1455. YU Y Q, WEI G L, WANG Y X. 3D uncalibrated robotic grasping method based on improved YOLOv2[J]. Application Research of Computers, 2020, 37(5): 1450-1455. (in Chinese)
[12]	REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 6517-6525.
[13]	REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. [2021-01-02]. https://arxiv.org/abs/1804.02767.
[14]	BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2021-01-02]. https://arxiv.org/abs/2004.10934.
[15]	JOCHER G, STOKEN A, BOROVEC J. Ultralytics yolov5: v3.0(Versionv3.0). [EB/OL]. [2021-01-02]. https://github.com/ultralytics/yolov5/releases/tag/v3.0.
[16]	ZHANG S, WU Y X, MEN C G, et al. Tiny YOLO optimization oriented bus passenger object detection[J]. Chinese Journal of Electronics, 2020, 29(1): 132-138. DOI:10.1049/cje.2019.11.002
[17]	PURKAIT P, ZHAO C, ZACH C. SPP-net: deep absolute pose regression with synthetic views[EB/OL]. [2021-01-02]. https://arxiv.org/abs/1712.03452.
[18]	WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 1571-1580.
[19]	LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 8759-8768.
[20]	HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 1580-1589.
[21]	WANG Q L, WU B G, ZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 11531-11539.
[22]	ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000. DOI:10.1609/aaai.v34i07.6999
[23]	ZHANG Z Y. Flexible camera calibration by viewing a plane from unknown orientations[C]//Proceedings of the 7th IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 1999: 666-673.
[24]	TSAI R. A versatile camera calibration technique for high-accuracy 3D machine vision metrology using off-the-shelf TV cameras and lenses[J]. IEEE Journal on Robotics and Automation, 1987, 3(4): 323-344. DOI:10.1109/JRA.1987.1087109