第1章 引言
(1)高维度状态空间。每一个静止人体姿态都是根据关节的运动枢轴的旋转角度所决定,它是多参数的状态变量。而在人体实际运动尺度上,该变量的维度会高达几十甚至上百,建立以及求解高维状态的数学模型是一个很大挑战。
(2)非刚体特性。机器视觉中可以将研究对象划分为刚体、非刚体两大类。人体是典型的非刚体目标,每一时刻人体中每个肢体运动都不相同。非刚体模型通常情况下很难建立,因此非刚体目标的运动、姿态估算以及识别都很困难,对人体目标也是一样。
(3)姿态复杂。虽然人体和人脸一样都是非刚体物体,但是人体的分析难度远高于人脸,这主要因为人脸面部五官的变化仅仅是由肌肉驱动产生,而人体姿态的形成则是由多个关节旋转产生,又由于人体各肢体部位活动灵活,肢体部件之间存在很多的自遮挡情况,这使得二义性问题变的异常复杂。另外,图像作为人体姿态估计的观测数据,对于其处理目前尚仍存在困难。
1.5 本文的研究内容和结构安排 1.5.1 本文的研究内容
本文的主要研究内容是基于学习的方法进行人体姿态估计,把基于Kinect设备得到的深度图像信息作为图像特征空间(输入空间),从中获取大量的训练样本进行学习,并且从图像特征空间到人体姿态空间(输出空间)的线性回归模型,将大量训练样本浓缩表达为紧致的函数,从新观测图像中同样提取图像的深度信息代入学习得到的回归模型,这样即可估计当前的人体姿态。另外,本文另外研究了梯度直方图(HOG)和形状上下文(Shape Context)作为图像特征空间的情况下的人体姿态估计。最后,通过实验结果,分析、比较了这三种不同图像特征空间下的人体姿态估计效果。
1.5.2 本文的结构安排
第1章 引言,主要介绍人体姿态估计研究意义及研究现状,人体姿态估计现阶段所面临的的困难,以及本文的主要研究内容和本文结构。
第2章 图像特征提取之深度信息以及介绍主成分分析法(PCA)并用它对输入输出数据进行降维处理。
5
电子科技大学学士学位论文
第3章 图像特征提取之梯度直方图(HOG)的算法原理介绍。 第4章 图像特征提取之形状上下文(Shape Context)的算法原理介绍。 第5章 基于线性回归模型的算法原理介绍及对实验数据进行分析、比较。 第6章 工作总结及展望,在总结论文的基础上,针对人体姿态估计发现的问题,提出了下一步的研究内容与方向。
6
第2章 图像深度信息
第2章 图像深度信息
利用深度图像进行模式识别是近年来兴起的技术,这主要得益于深度图摄像机的成本降低。特别是微软推出Kinect设备,极大地激发了研究者们的兴趣。与飞行时间技术( time of flight,TOF) 、结构光、三维激光扫描等深度相机相比,Kinect 深度相机的优势在于拍摄的深度图分辨率高,成本低。以往的利用可见光图像的单目识别常常遭遇光照变化、阴影、物体遮挡以及环境变化等因素的干扰。利用深度图像进行模式识别可以很好地克服以上可见光图像模式识别常遇到的困难。
2.1 深度图像的研究现状 2.1.1 深度图像的概念与特征
在3D 计算机图形学中,深度图像指从观察视角看去,图像所包含信息与场景物体表面距离相关的一种图像或一个图像通道。这样,假设图像深度值的变化方向( 即摄像机拍摄方向) 与所需要描述的三维场景的视场方向Z 方向相同的话,那么就能够很容易地描述整个三维场景。因此,深度图像也称为距离图像。与彩色图像相比,深度图像能直接反映物体表面的三维特征,且不受光照、阴影和色度等因素的影响[4]。在局部空间范围内和不需要颜色域信息时,深度图像可以代替双目成像。理想的深度图像如图2-1所示,其中左图是立体结构的可见光图像,右图是深度图像,距离相机越近的位置灰度值越小。
图2-2 理想深度图像外观示意图
根据深度图像的定义,可以得到深度图如下2个性质:
7
电子科技大学学士学位论文
1. 颜色无关性。该性质表明深度图像与彩色图像不同,不会有光照、阴影、以及环境变化的干扰;
2.灰度值变化方向与视场Z 方向相同。该性质表明,利用深度图像可以在一定范围内重建3D空间区域,并且可以在一定程度上解决物体遮挡或同一物体各部分重叠的问题。
2.1.2 深度图像研究现状
深度摄像机按照成像原理划分主要有飞行时间法( TOF) 、结构( structured light) 、三维激光扫描( laser scanner) 等几种,主要应用于机器人、互动游戏等领域。其中飞行时间法的原理是通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过计算光脉冲的往返飞行时间来得到目标物体的距离。结构光法是一种主动光学测距技术,其基本原理是由结构光投射器向被测物体表面投射可控制的光点、光条或光面结构,并由图像传感器( 如摄像机) 获得图像,通过系统化的几何关系,利用三角原理计算得到物体的三维坐标。三维激光扫描是利用脉冲激光或者相位激光结合快速扫描技术瞬间得到三维空间中坐标的点云(point cloud) 数据测量值,可以快速构建结构复杂、不规则的场景。
利用深度图像进行模式识别是近年来兴起的一种方法。其原因是,虽然上述3 种深度图摄像机价格越来越便宜,并且在工业上得到广泛应用,但是对于研究领域还是非常昂贵。一家以色列的公司PrimeSense 于2010 年4 月推出为微软XBOX 专用的三维测量技术的外部设备Kinect ( 由动力学“kinetic”与连接“connect”2个词汇组成的原创混合词)。 Kinect 设备的出现极大地激发了研究者们的兴趣,特别是计算视觉和模式识别的研究者们。其中较为著名的应用有人体检测与跟踪、姿势识别和头部识别等。
2.2 Kinect技术 2.2.1 Kinect简介
Kinect 是微软在2010 年6 月14 日对XBOX360体感周边外设正式发布的名字。图2-2 所示,Kinect内置了用于语音识别的阵列麦克风系统,带1个XBOX360
8
第2章 图像深度信息
外接的3D 体感摄影机,利用即时动态捕捉、影像辨识、麦克风输入、语音辨识等功能让玩家摆脱传统游戏手柄地束缚,通过自己的肢体控制游戏。
Kinect 共有3个摄像头,中间的镜头是RGB彩色摄像机,左右两边镜头分别为红外线发射器和红外线CMOS 摄像机。此外,Kinect 还搭配了追焦技术,底座马达会随着对焦物体的移动而转动。
图2-2 Kinect结构图
2.2.2 Kinect深度成像的基本原理
根据PrimeSense 公司的专利记载,Kinect 深度成像的原理是一种叫做光编码( light coding) 的技术。组成成像系统的三个核心元件包括: 激光发射器,不均匀透明介质,CMOS 感光器件。其构造图如图2-3 所示。其中,激光发射器与CMOS 感光器件成一定角度对准目标场景,而不均匀透明介质放置于激光发射器镜头前。激光发射器透过不均匀介质发射激光,在场景中形成激光散斑。CMOS 感光元件可以拍摄散斑图像。
图2-3 成像系统构造图
光编码技术的成像过程如图2-4 所示。
9
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库人体姿态估计本科毕业论文(3)在线全文阅读。
相关推荐: