基于统一特征模型的体育视频镜头转换检测

——

作者：时间：2007-10-17 来源：电视技术

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

　1 引言

　　广播体育视频的自动分析是视频检索技术的一个重要应用领域。体育视频是镜头转换检测最具挑战性的应用领域。本文的体育视频镜头转换检测围绕广受欢迎的足球视频展开，且容易扩展到其他体育视频的分析中。

　　在已有的研究中，局部颜色直方图(Region ColorHistograms，RCH)距离特征(记作DRCH)是切变检测中最受推荐的特征，且此特征在渐变镜头转换检测中依然有效。文献[7]提出了一种在镜头转换检测中使用直方图特征的统一模型，并在较大的数据集上取得了很好的效果。笔者在实验中首先采用文献[7]中的RCH特征模型和决策树方案进行镜头转换检测，发现即使采用训练得到的最优分类器，切变检测的查全率和查准率也仅能同时达到96%，而渐变检测的查全率和查准率则很难同时达到60%。这样的检测水平(尤其对于渐变)必然会给下一步视频分析带来负面影响。现有算法在体育视频镜头转换检测中遇到的主要问题有：

　　1) 当镜头转换前的最后一帧与转换后的第一帧都以大面积比赛场地为背景时，它们的RCH特征非常相似，容易造成漏检。

　　2) 当摄像机以特写镜头跟踪奔跑的球员时，将发生快速摇移。这一过程中的RCH特征变化速度与渐变过程中的速度相当，容易造成误检。

　　3) 当前体育视频中的渐变对应的DRCH序列多数不再具有简单的尖峰形状，而是更复杂的模式，容易造成大部分动画划变被漏检。

　　2 中层特征

　　特征提取是提高镜头转换检测算法性能的关键所在。由于镜头转换的本质是图像序列的特征在语义层次上的不连续，现有算法使用的底层特征不足以解决体育视频中的问题。尽管能理想表达语义的是目标级特征(高层特征)，然而对视频进行目标级分析在今天仍然是一项极具挑战性的工作。本文提出两种新型的中层特征来充分反映体育视频中的目标层特征，如场地的相对位置、球员的运动等。其中一种特征基于对赛场主颜色的分割;另一种特征基于对运动矢量可信度的评价。

　　2.1 主颜色(Dominant Color，DC)中层特征

　　由于在体育视频的多数帧中，具有某种特定颜色的场地在画面中占据很大的比例，DC分割成为一种在镜头转换检测、镜头视角分类以及目标检测中的有效工具。本文算法基于DC分割提取的3个特征(FDC1，FDC2和FDC3)能够有效地反映画面中的目标级特征。

　　由于广播足球视频中的场地通常呈现出绿色(实际上也可能偏青色或偏黄色)，DC在HSV(Hue-Satura-tion-Value)或HIS(Hue-Saturation-Intensity)色彩空间的H通道中紧密地分布于一个小范围内。本文通过训练得到DC的HSV直方图模型，模型的具体参数在视频分析过程中逐帧自适应地学习。这种DC分割算法有效、鲁棒，其根基如下：

　　1) 在一帧以场地为主要背景的视频图像中，大比例的DC像素足以用来进行估计DC分布并进行分割。

　　2) 本文的DC模型是从大量足球视频片段(“04-05赛季欧洲冠军杯最佳进球”和“2006世界百大进球”)中得到的统计结果。

　　图1给出了一些足球比赛视频帧的DC分割结果。其中从左至右3列分别对应于特写、中景和远景镜头。

　　将DC像素标为1、非DC像素标为0得到二值的DC掩膜矩阵MDC(t)。FDC1(t)定义为MDC(t)中的DC像素比例特征。如果FDC1(t)>0，将从二值掩膜矩阵MDC(t)中提取2个中层特征FDC2(t)和FDC3(t)。FDC2(t)主要反映摄像机是否拍摄到足球场地的边界;FDC3(t)主要反映图像中球员的相对大小。

　　为使算法更为鲁棒和实用，FDC2(t)和FDC3(t)的提取是通过对MDC(t)的归一化投影向量进行中值滤波下采样、直线拟合、聚类(为计算FDC2聚为球场和场外两类，为计算FDC3聚为球员和非球员两类)等步骤实现的。

　　为说明本文DC特征反映的目标级特性，以比赛场地作为主要背景，采用特写、中景和远景3个视角，从不同序列中采集了70个样本，它们在特征空间中的分布见图2。图像中球员的相对大小(横坐标)按照远景、中景、特写的顺序依次增大，特写镜头拍摄区域十分有限，一般不会拍摄到场地的边界，因此纵坐标都较小。本文特征能够反映对视角分类最有价值的目标级信息，可以较清晰地区分3种不同的镜头视角类型(图2中黑色虚线)。

　　因为体育视频相邻镜头中的视频帧极有可能属于不同的镜头视角类型，所以其DC特征往往存在较大的差别，这一特性有助于检测镜头转换。

　　2.2 运动矢量(Motion Vector，MV)中层特征

　　通过分析MV这一有效的底层特征，同样可提取出中层特征来反映目标级的特性。在本文中，这种中层特征主要用来反映体育视频中的纹理和运动信息。

　　视频压缩过程中计算得到的MV并不能代表所对应图像块的真正运动信息，在体育视频中尤其如此。例如，快速变化的图像内容、大面积弱纹理区域以及由于摄像机运动引起的画面模糊都有可能导致MV杂乱且不可信。因此，为了消除这些不可信MV的影响，提出了一种MV过滤的方法。此方法判断一个MV有效的准则是它所对应的块匹配残差小且块匹配残差随它的改变而较快地增大。图3给出了这种算法得到的一些实验结果，其中非可信MV的块被白色覆盖。

　　基于这种MV可信度分析算法，本文定义3个特征：FMV1，FMV2和FMV3，它们分别表示可信MV的比例、集中程度和平均值。其中FMV1在镜头切变时比在镜头内部小很多;而FMV2和FMV3可以鉴别镜头渐变(如溶解和动画划变)过程中的一些特性。

　3 统一的特征模型

　　文献[1]在使用全局阈值情况下提出对主颜色比例较大的两帧进行比较时应降低直方图距离的阈值，从而提高了其算法在体育视频镜头转换检测中的表现。笔者结合了这种想法，形成了一个将RCH特征与上述中层特征集成在一起的统一特征模型如图4所示。最后，采用训练得到的支持向量机(Support Vector Machine，SVM)分类器完成对切变和渐变的检测。

　　3.1 切变检测方案

　　本文特征模型首先判断进行比较的两帧图像是否满足条件CDC(t，s)：(FDC1(t)>0)∧(FDC1(t-s)>0)，s表示两帧图像间的采样间隔。

　　如果条件满足，则两帧很可能非常相似。因此本文模型中分别训练两个SVM分类器进行分类(如图4)。对于隔行扫描的电视广播视频，切变可能包含一个混合帧，为检测切变，考察s为2的情况。当且仅当CDC(t，2)为真时，才可将这两帧图像的FDC2差和FDC3差作为2个DC特征输入图4中的SVMAY。

　　为检测切变，模型中同时采用DRCH(t，2)和min{FMV1(t)，FMV1(t-1))。为了自适应地确定它们相应的阈值(特征空间中的分类界面)，邻近帧的特征也作为分类器的输入。一个邻域特征表示左、右邻域的DRCH平均值中较大者，另一个邻域特征表示左、右邻域的FMV1平均值中较小者。为了防止过训练现象的发生，本文的模型没有使用文献[7]中多而细致的邻域特征。

　　3.2 渐变检测方案

　　与切变检测相似，2个DC特征当且仅当CDC(t，s)为真时被使用。如图4所示，本文的特征模型对于渐变检测同样分别训练两个不同的SVM分类器。本文还采用3个基于MV的渐变检测特征，分别代表平均的可信MV比例，平均的可信MV集中度以及平均的可信MV大小。

　　渐变检测中还利用DRCH值在时间轴上构成的波形。例如，长度为s的渐变检测可以通过在宽度为2s+1的滑动时间窗口中搜索符合特定规律的DRCH(t，s)波形来实现。为了完整地描述不同渐变过程所对应的DRCH波形，本文提取了5个特征，包括峰、谷的值和位置，以及峰谷间变化的单调性等。假设要确定第(t-s)帧至第t帧是否是一个渐变，这5个特征将从序列{DRCH(t-s，s)，…，DRCH(t+s，s)}中提取。在实际计算中，一般只使用几个步长作为渐变长度s的可能值，例如当帧率是29.97时使用步长12，18，24，30，36。

　4 实验结果

　　实验在由12个视频序列组成的数据集上进行，每个视频序列对应半场足球比赛。前6个序列用于SVM训练，后6个序列用于测试本文的算法。所有视频序列的分辨率均为704