人工智能导论PPT第六章.pptx

资源描述

1、什么是计算机视觉有人说，计算机视觉是人工智能的一扇大门，因为对于人来说，视觉的反有人说，计算机视觉是人工智能的一扇大门，因为对于人来说，视觉的反馈往往更加重要，人的大脑皮层中有馈往往更加重要，人的大脑皮层中有70%70%都在处理视觉信息，没有视觉，人都在处理视觉信息，没有视觉，人工智能将只会是一个空架子。现如今，计算机视觉早已成为研究人工智能工智能将只会是一个空架子。现如今，计算机视觉早已成为研究人工智能的一个重要领域，也在各种领域发挥着独有的作用。例如：军事上的导弹的一个重要领域，也在各种领域发挥着独有的作用。例如：军事上的导弹巡航系统、交通上的道路监控系统、医学影像处理、应用在各大企业单位

2、巡航系统、交通上的道路监控系统、医学影像处理、应用在各大企业单位的人脸识别系统以及现在非常热门的的人脸识别系统以及现在非常热门的VRVR全息，全都离不开计算机视觉。全息，全都离不开计算机视觉。OpenCV:Open Source Computer Vision LibrarynOpenCV是一个基于BSD许可（开源）发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android和MacOS操作系统上。1它轻量级而且高效由一系列C函数和少量C+类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。nOpen

3、CV用C+语言编写，它具有C+，Python，Java和MATLAB接口，并支持Windows，Linux，Android和MacOS，OpenCV主要倾向于实时视觉应用，并在可用时利用MMX和SSE指令，如今也提供对于C#、Ch、Ruby，GO的支持视频中移动物体检测方法n帧间差分法帧间差分法帧间差分法简称帧差法，是可用于识别视频中移动部分的最简单技术之一。当我们查看实时视频流时，从流中捕获的连续帧之间的差异会为我们提供大量信息。帧间差分法算法简单，程序的复杂度低，适应各种动态环境。不足之处是不能提取出运动对象的完整区域，只能提取出物体的边界，对于运动速度很快的物体，需要选择时间间隔较小的两

4、帧，如果选择的不合适，这一个运动的物体会被检测为两个运动的物体。对于运动速度较慢的物体，需要选择时间间隔较大的两帧，如果时间选择的不合适，前后两帧差值几乎为零，则检测不到目标。n使用色彩空间跟踪对象使用色彩空间跟踪对象要构建一个健壮的对象跟踪器，我们需要知道对象的哪些特征可以被用来准确地跟踪它，这就涉及到色彩空间了。颜色通常用三个独立的属性来描述，三个独立变量综合作用，自然就构成一个空间坐标，这就是色彩空间。但被描述的颜色对象本身是客观的，不同色彩空间只是从不同的角度去衡量同一个对象。颜色空间按照基本机构可以分为两大类：基色颜色空间和色、亮分离颜色空间。前者典型的是RGB，后者包括YUV和H

5、SV等等。一个图像可以用不同的色彩空间来表示。RGB色彩空间可能是最流行的色彩空间，但它不能很好地应用于对象跟踪等应用程序。所以我们将使用HSV色彩空间。这是一种直观的色彩空间模型，它更接近人类对颜色的感知。我们可以将捕获的帧从RGB转换为HSV色彩空间，然后用颜色阈值来跟踪任何给定的对象。我们应该注意到，我们需要知道对象的颜色分布，以便我们可以为阈值选择合适的范围。n使用背景差分法跟踪对象使用背景差分法跟踪对象背景差分法是一种在给定视频中模拟背景的技术，然后使用该模型来检测移动物体。这种技术在视频压缩和视频监控中有很多用途。它在静态场景中检测移动物体的地方表现得非常好。该算法主要通过检测背景

6、，为其建立模型，然后从当前帧中减去它来获得前景。这个前景就相当于移动的物体。使用使用CAMShiftCAMShift算法构建目标跟踪器算法构建目标跟踪器n基于色彩空间的跟踪允许我们跟踪彩色物体，但我们必须首先定义颜色。这似乎是限制！让我们看看如何在实时视频中选择一个对象，然后让追踪器追踪它。这就关系到CAMShift算法了，它的全称是Continuously Adaptive Mean Shift，是一种连续自适应Mean Shift算法。n为了理解CAMShift，我们首先需要知道Mean Shift是如何工作的。考虑给定帧中的感兴趣区域。我们选择了这个区域，因为它包含了感兴趣的物体。我们想

7、跟踪这个物体，所以我们在它周围绘制了一个粗糙的边界，这就是“感兴趣区域”所指的。我们希望我们的对象跟踪器能够跟踪这个物体在视频中移动的过程。CAMShift算法的基本思想是对视频序列的所有图像帧都作Mean Shift运算，并将上一帧的结果（即搜索窗口的中心位置和窗口大小）作为下一帧Mean Shift算法的搜索窗口的初始值，如此迭代下去。简单点说，Mean Shift是针对单张图片寻找最优迭代结果，而CAMShift则是针对视频序列来处理，并对该序列中的每一帧图片都调用Mean Shift来寻找最优迭代结果。正是由于CAMShift针对一个视频序列进行处理，从而保证其可以不断调整窗口的大小，

8、如此一来，当目标的大小发生变化的时候，该算法就可以自适应地调整目标区域继续跟踪。n1）预加重：其实质是将语音通过一个高通滤波器。其目的是为了提升高频部分，使信号频谱变得平坦，保持在低频到高频的整个频带中，能够用同样的信噪比求频谱。n2）分帧：为了方便对语音分析，可以将语音分成一个个小段。先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为2030ms左右。n3）加窗：语音在长范围内是不停变动的，没有固定的特性无法做处理，所以将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续性。常用的窗函数有方窗、汉明窗和汉宁窗等，根据窗函数

9、的频域特性，常采用汉明窗。n4）傅里叶变换：由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。n5）通过Mel滤波器组：将频谱通过一组Mel尺度的三角形滤波器组。对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。n6）对数运算n7）离散余弦变换DCT：经离散余弦变换（DCT）得到MFCC系数n下边几张不用录制视频基于光流的追踪基于光流的追踪n光流(optical flow)法是目

10、前运动图像分析的重要方法，它的概念是由James J.Gibson于20世纪40年代首先提出的。它是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。一般而言，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。n光流是一种非常流行的计算机视觉技术。它使用图像特征点来跟踪对象。实时视频中的连续帧的各个特征点都会被跟踪。当我们检测给定帧中的一组特征点时，我们计算位移矢量以跟踪它。我们在连续帧之间显示这些特征点的运动。这些矢量被称为

11、运动矢量。有很多不同的方法来执行光流，但Lucas-Kanade方法可能是最流行的。HaarHaar级联和积分图像级联和积分图像n使用背景差分法跟踪对象使用背景差分法跟踪对象nHaar级联是一个基于Haar特征的级联分类器，级联分类器是什么？它是一个把弱分类器串联成强分类器的过程。弱分类器是性能受限的分类器，它们没法正确地区分所有事物。如果你的问题很简单，弱分类结果可接受。强分类器可以正确的对数据进行分类。nHaar特征是一种反映图像的灰度变化的，像素分模块求差值的一种特征。它分为四类：边缘特征、线性特征、中心特征和对角线特征。用黑白两种矩形框组合成特征模板，在特征模板内用黑色矩形像素和减去白

12、色矩形像素和来表示这个模版的特征值。例如：脸部的一些特征能由矩形模块差值特征简单的描述，如：眼睛要比脸颊颜色要深，鼻梁两侧比鼻梁颜色要深，嘴巴比周围颜色要深等。但矩形特征只对一些简单的图形结构，如边缘、线段较敏感，所以只能描述在特定方向（水平、垂直、对角）上有明显像素模块梯度变化的图像结构。HaarHaar级联和积分图像级联和积分图像n使用积分图像进行特征提取使用积分图像进行特征提取n计算Haar的特征值需要计算图像中封闭矩形区域的像素值之和，在不断改变模版大小和位置的情况下，需要计算大量的多重尺度区域，这可能会遍历每个矩形的每个像素值且同一个像素如果被包含在不同的矩形中会被重复遍历多次，这就

13、导致了大量的计算和高复杂度，因此提出积分图的概念。积分图像积分图像HaarHaar级联和积分图像级联和积分图像n使用积分图像进行特征提取使用积分图像进行特征提取积分图主要的思想是将图像从起点开始到各个点所形成的矩形区域像素之和作为一个数组的元素保存在内存中，当要计算某个区域的像素和时可以直接索引数组的元素，不用重新计算这个区域的像素和，从而加快了计算（这有个相应的称呼，叫做动态规划算法）。积分图能够在多种尺度下，使用相同的时间（常数时间）来计算不同的特征，因此大大提高了检测速度。积分图的构造方式是位置（x,y）处的值ii(x,y)是原图像(x,y)左上角方向所有像素的和：其中ii(x,y)表示

14、积分图，i(x,y)表示原始图像，对于彩色图像，是此点的颜色值；对于灰度图像，是其灰度值，范围为0255。人脸检测和跟踪人脸检测和跟踪n人脸检测属于计算机视觉的范畴，早期人们的主要研究方向是人脸识别，即根据人脸来识别人物的身份，后来在复杂背景下的人脸检测需求越来越大，人脸检测也逐渐作为一个单独的研究方向发展起来。n人脸检测是指检测给定图像中人脸的位置。这经常与人脸识别相混淆，人脸识别是识别谁是谁的过程。一个典型的生物识别系统利用人脸检测和人脸识别来执行任务。它使用人脸检测来定位人脸，然后使用人脸识别来识别人脸。小结n在本章中，我们学习了计算机视觉相关知识。我们了解了如何在各种操作系统上安装支持Python的OpenCV。我们学习了帧差法，并使用它来检测视频中的移动部分。我们讨论了如何使用色彩空间跟踪目标。我们讨论了背景差分法以及它如何用于跟踪静态场景中的物体。我们使用CAMShift算法构建了一个对象跟踪器。n我们学会了如何构建基于光流的跟踪器。我们讨论了人脸检测技术，并了解了Haar级联和积分图像的概念。我们使用这种技术来构建人脸检测器和跟踪器。

展开阅读全文