简谈神经网络基于自组织增量神经网络码书产生办法在图像分类中运用-turnitin论文查重

文章编号：10019081（2013）07197604
doi：10.11772/j.issn.1001908

1.201 3.07.1976

摘要：针对基于码书模型的图像分类方法忽略图像的拓扑信息及增量学习导致分类精度有限的问题，提出了基于自组织增量神经网络（SOINN）的码书产生方法。首先回顾了常见的码书编码方式；其次改进了基本的码书模型，利用SOINN自动产生聚类数目和保留数据拓扑结构的两项能力，寻找更有效的单词和设计更有效的编码方式，产生更合适的码书。实验结果显示在不同样本数和不同规模码书下分类精确度相对同类算法有最高将近1%的提升。该结果表明基于SOINN的码书产生方法显著提高了图像分类算法的精度，该方法还可以更高效、更准确地运用于各种图像分类任务。
关键词：
码书；图像分类；空间金字塔；SOINN
：A
英文标题
Codebook generation based on selforganizing incremental neural network for image classification
Combination of SOINN and codebook technology for image classification
英文作者名
YUAN Feiyun*
英文地址（
College of Information Engineering，Yulin University，Yulin Shaanxi 719000，China
英文摘要）
Abstract：
To solve the problem of ignoring topological information in incremental learning in traditional image classification， a new codebook generation method was proposed to improve the accuracy of image classification. After reviewing several codebook methods， the detailed method was discussed. Based on the SelfOrganizing Incremental Neural Network （SOINN） which can automatically generate clusters while conserving topological structur

源于：论文大全www.udooo.com

es， the method produced a more effective way for representing words and coding. The experimental results show that the new method has at most nearly 1% precision increase over other similar algorithms in different scale of samples as well as different kind of codebook models. The results reveal that the new method has more appropriate and more accurate classifications for images. Also， it can be widely used in all kinds of image classification tasks with higher precision and efficiency.
To solve the problem of ignoring topological information in incremental learning in traditional image classification，A new codebook generation methodwas presented to improve the accuracy of image classification. After reviewing several coodbook methods， the detailed method was discussed. Based on the SOINN which can automatically generate clusters while conserving topological structures， the method produced a more effective way for representing words and coding. The experimental results show that the new method has at most some 1% precise increase than other similar algorithms in different scales of samples as well as different kinds of codebook models. The results reveal that the new method has more appropriate and more accurate classifications for images. Also， it can be widely used in all kinds of image classification tasks with higher precise and efficiency. 英文关键词Key words：
codebook； image classification； spatial pyramid； SelfOrganizing Incremental Neural Network （SOINN）
0 引言
图像场景分类是图像检索中的一个重要应用，其目的就是要将一幅图像按其所描述的场景或者包含的物体进行分类。由于图像数目巨大，种类繁多，且图像存在光照、角度、量级等各种变化，这导致分类任务的困难。近年来，随着视觉词袋模型（Bag of visual Words，BoW）即码书模型的提出，图像分类的准确度在标准数据集上有了很大的提高，所以吸引了大批研究者投身于码书模型的研究。其主要思想是：将图像划分为很多子区域，对每个子区域提取相应的底层视觉特征，然后按照某种原则（通常是非监督的聚类或者稀疏编码）来产生码书；然后通过一定的编码方式，将图像用这些码字的分布信息来描述；最后划分训练集和测试集，训练分类器，并进行测试。
目前的研究热点在于编码的方式及码书的创建。编码的方式比较多样化，最基本的方式是最近邻编码，即将特征编码为距离其最近的码字。Yang等提出了稀疏编码的方式对图像特征编码，将图像的编码问题转化为一个稀疏编码的问题，并产生稀疏的码字，但忽略了图像的局部特征。Wang等提出了一种局部线性约束的编码方式，是对传统矢量量化编码的一种改进，引入了局部信息，将与特征距离最近的几个相邻码字作为匹配结果。这两种方法均忽视了可视单词的模糊性和无序性。van Gemert等[3]考虑到视觉内容描述本身的模糊性，提出了不确定性和模糊编码两种编码来处理他们指出的两种模糊问题。Lazebnik等[4]针对码书模型的无序性进行改进，提出了一种空间金字塔匹配（Spatial Pyramid Matching，SPM）的方法，将图像描述为多级金字塔串联的特征向量。针对码书模型中常见的直方图描述这句话未结束，请补充或调整。
码书的创建是另一大研究热点。创建码书的第一步是确定图像的子区域划分。这有很多种方式，比如：稠密抽样、随机抽样或者感兴趣区域、关键点区域等。一般的方法实验设置：对一幅图片按步长为8个像素产生稠密取样的网格，在每个取样点以16×16个像素的块来提取底层特征。可提取的图像底层特征又有很多种，最常见的有Lowe[5]提出的恒规模特征变化（Scale Invariant Feature Tranorm，SIFT）特征描述符和Wu等[6]提出的普查变换图（Census Tranorm histogram，CENTRIST）。特征提取完毕后，第二步是依照特定方式产生码书。最常见的是通过聚类方式生成码书，如Kmeans、Kmeans++[7]、基于半径的聚类、随机树等。将这些聚类中心视为视觉单词。另外Yang等以稀疏编码的方式来产生码书（具体产生过程见其

3.2部分）。

码书模型将底层特征编码为可视单词，一定程度上保留了图像的语义信息，相比传统的分类方法，可以避免位置、角度、光照、物体形状等变化因素的影响。这种基于高层的语义信息的图像分类问题有很重要的作用。然而目前研究方法忽略了图像的拓扑信息，且无法进行增量学习，从而影响图像的分类效果。因此寻找一种方法利用这些拓扑信息进行增量学习成为提高分类准确性的一个重要研究目标。
自组织增量神经网络（SelfOrganizing Incremental Neural Network， SOINN）[8-9]是一种自组织的、能够进行增量学习的神经网络，它的用途广泛，将其用于非监督学习时，可以自动发现合适的类别数目，产生聚类结果时，还能保留数据的拓扑信息，能更好地反映数据的特性，非常适合在未知类别数目时的聚类任务。本文提出的方法将SOINN结合到码书的创建技术中，以产生更好的码书。
第7期
袁飞云：基于自组织增量神经网络的码书产生方法在

源于：论文格式范文模板www.udooo.com

图像分类中的应用
计算机应用第33卷

1 主要编码方式

本章介绍3种目前主要的编码方式：最近邻编码、稀疏编码以及局部线性编码。
首先约定好编码中出现的一些通用记号，特殊记号在各自编码方式中声明。X表示D维特征空间中的一些SIFT特征的集合，可以表示一幅图像中提取的特征集合，也可以表示金字塔法中的子图像块的特征集合。记X=[x1，…，xM]T∈RM×D。V表示码书，如果有K个码字，则V=[v1，…，vK]T∈RK×D。

1.1 最近邻编码

最近邻编码（Nearest Neighbor Encoding， NNE最近邻编码的英文名称是这个吗？是否应该是“Nearest Neighbor Encoding， NNE”，请明确。）是目前最简单的也是应用最多的编码，其将特征编码为距离其最近的码字。编码阶段是利用Kmeans解决下面优化问题：
minV∑Mm=1mink=1，…，K‖xm-vk‖22（1）
其中：xm表示一个特征，vk表示码书的一个码字通过引入类别成员指示矩阵，U=[u1，…，uM]T∈RM×K，um反应了将特征xm编码的码字。可以将最近邻编码看成如下矩阵分解问题：
minU，V ∑Mm=1‖xm-umV‖22（2）u1，u2，um是矢量、向量或矩阵吗？后面式（6）中的um是矢量、向量或矩阵吗？请明确。
s.t. m， Card（um）=1；|um|=1，um≥0
以上约束表示u只有一个不为0的维度值，且其值为1，对应编码。产生码书的阶段是在同时考虑U、V来优化式（2）的，而编码阶段，V已经确定，只需要考虑U来优化式（2）产生相应特征的编码。
1.2 稀疏编码最近邻编码只考虑了一个最近的码字信息，在很多情况下这导致一些信息的丢失。稀疏编码（Sparse Coding， SC）对其进行了改进。稀疏编码时从矩阵分解的角度来分析码书创建和编码过程的，在矩阵分解的过程中运用了稀疏编码的方式，导致特征编码的稀疏性。Yang等提出的基于稀疏编码的线性金字塔匹配方法不仅在计算速度上有较大提升（原先基于矢量量化（Vector Quantization， VQ）的非线性SPM方法训练阶段的复杂度为O（n2～n3）此处是否应该写为O（n2）～O（n3）更为恰当些，请明确。这是时间复杂度的一种表示方法，表示复杂度的级别。如O（n2），O（n3）表示平方级和立方级，所以这个不能改。，测试复杂度为O（n），n为训练集大小。而基于稀疏编码的线性SPM方法训练复杂度为O（n），测试复杂度为O（1），能有效处理大数据集，同时在分类的准确度上也有所提高。
由于最近邻编码中要求Card（um）=1，也就是说只找一个码字与特征匹配，这显得太严格了。稀疏编码放宽这个约束，用对u的L1norm正则化约束来代替，此约束要求um只有很少数目的非零元素。于是问题可以表示如下：
minU，V ∑Mm=1‖xm-umV‖22+λum （3）
s.t. ‖vk‖2≤1； k=1，…，K
这里没有约束um≥0。因为可以通过对um<0对应的V反号即可。也即VT←VT，-VT」且xTm←xTm+，xTm-」。这样训练阶段就是在同时考虑U，V对式（3）进行优化。具体可如下实现。
因为固定U，只考虑V，式（3）变成凸问题；固定V，只考虑U，式（3）同样是凸问题。最自然的实现便是交替优化原问题。
首先固定V，式（3）可以分解为对每个um独立优化下式：
minum‖xm-Vum‖22+λ|um|（4）
这在统计学习中被称为Lasso问题，可以用Lee等[11]提出的featuresign搜索算法高效解决。
固定U，式（3）变为一个带二次约束的最小均方误差问题：
minV‖X-VU‖2F（5）
s.t. ‖vk‖≤1； k=1，…，K
这可以用Lagrange dual方法高效解决。
通过交替迭代式（4）与（5），当达到结束条件时，可以获得码书V。那么测试阶段就只要对抽取图像的特征集X进行式（4）的优化，便可得到图像的稀疏编码，然后通过空间金字塔匹配（SPM）来产生图像的最后特征向量描述。SPM原理如图1（a）所示，即将图像进行多级空间划分，将每一级上的特征匹配信息串联起来形成最后的特征向量。基于稀疏编码的线性SPM的图像特征表示过程如图1（b）。
图1 空间金字塔技术SPM原理
最后，Yang等还指出在稀疏编码的基础上采用线性的支持向量机（Supporting Vector Machine，SVM）就能获得很好的效果，并且速度上有很大提升。

1.3 局部线性编码

不像稀疏编码引入对um的L1norm正则化约束，局部线性编码（Localityconstrained Linear Coding，LLC）用局部约束代替稀疏约束，其背后思想来源于LCC[12]展现的局部性比稀疏性更能表现特征的本质。局部线性编码利用局部约束将特征投影到局部坐标系统，然后利用这些局部码字上的投影值来构造SPM的图像特征描述。局部线性编码可描述为如下问题：
minU ∑Mm=1‖xm-Vum‖22+λ‖dm-um‖22 （6）
s.t. 1Tum=1； m=1，…，M
其中dm∈RK是通过计算特征与每个码字的相似度来调节局部性的一个向量，通常如下计算：
dm=expdist（xm，V）σ（7）
其中：dist（xm，V）=「dist（xm，v1），…，dist（xm，vK）T， dist（xm，vK）是xm与vk之间的欧氏距离；σ调节局部性扩散速度的权值。按照式（6）产生的码字还不具有稀疏的特性，可以设定一个阈值，是小于这个阈值的系数设为0。
局部线性编码具有一些良好的性质：所选择的匹配码字更好地重构了特征的信息；保持局部平滑稀疏特性；具有解析解。这几种性质与矢量量化、稀疏编码的比较如图2。
图2 三种编码方式的比较
Wang等提出了一种基于K近邻的局部线性编码的快速近似算法，并且对Kmeans产生的码书利用局部线性约束进行了改进。

2 SOINN原理

SOINN是一个两层的竞争网络。第一层是输入数据的竞争，第二层是第一层输出数据的竞争，然后输出拓扑结构和第二层的权向量。SOINN中有两个自动调节的阈值来控制类内和类间的相似性。本文提出的方法中只应用单层SOINN产生初次聚类的结果，单层的SOINN的原理如图3所示。
图3 单层SOINN的算法流程是否有箭头，请明确。
利用SOINN可以实现对输入的训练集进行增量学习，每一个特征向量转化为网络中的一个节点。在学习的过程中，会删除噪声节点和离分类边界较远的无用节点，以最小的代价实现最好的分类效果。

3 结合SOINN的码书创建

目前创建码书的方法，不管是基于非监督的聚类还是矩阵分解的编码方法，都需要在码书创建之前确定码书的大小。显然这在不了解数据集特点的前提下是不妥的，对于所有数据集设置同样大小的码书也是不合适的，那么根据数据集的大小自动确定聚类类别数的技术便有了用武之地。由于SOINN正好能满足此类问题的需求，可以自动确定合适码书的大小，对于各种新数据集的处理更有把握，对于实际应用也有很大的意义。本文提出的方法就是将SOINN用于对训练集的增量学习，将学出来的结果作为Kmeans聚类的初始数据中心，然后根据SOINN学出的类别数目进行聚类形成合适大小的码书，再结合现有的编码技术，对从图像中抽取的特征进行编码，形成最终的码字，并利用SPM形成图像的最终描述，用于分类器的训练。码书创建算法的大体思想如图4所示，码书创建算法具体流程见Algorithm 1。
图4 码书创建算法流程下标是1，2，…，k？吗，以便与正文表述一致。
Algorithm 1： Codebook Generation。
1）输入={一组多种场景下的图像数据集Ω={I

摘自：毕业论文下载www.udooo.com

1，…，IN}，其中每张图像Ii的场景类别已经确定且只能对应场景类别集合Δ={1，…，S}中的一种；初始码书大小K；类内区域块数α；聚类的误差控制ε}。
2）输出={任意图像Ii对应的最终编码后的SPM特征向量}。
3）对图像数据集Ω中的每幅图像抽取SIFT特征描述符，得到特征描述集X={x1，…，xM}。
4）利用SOINN对特征描述集X进行非监督的聚类，产生初始的聚类结果InitCenter={iv1，…，ivK}。
5）利用误差控制ε和Kmeans聚类方法对初始中心集InitCenter产生最终聚类中心，也即码字集合V={v1，…，vK}。
6）对特征描述集中的每个特征xi进行编码：（xi此处的xi，是否应该改为xj？请明确。）→{1，…，K}。
7）对图像数据集中任意图像Ii进行SPM，产生其最终特征向量。
通过Algorithm 1，可以对特定的图像数据集产生相应的码书。同样，将图像数据集划分为训练集和测试集之后，可以通过图像编码部分（5）、6）、7）步）进行训练集和测试集的图像编码描述，然后通过训练相应的分类器来分类测试图像。

4 实验分析

4.1 实验设置

为了验证本文提出的算法的分类性能，将该算法与两种基准算法：Wang等算法和ScSPM （Sparcecoding based Spatial Pyramid Matching）算法在Caltech101（http：//.cn/soft/ACRD4CHS.EXE">PDF浏览器用户请先下载安装
WANG J J， YANG J C， YU K， et al. Learning localityconstrained linear coding for image classification [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2010： 3360-3367.
[3]
van GEMERT J C， VEENMAN C J， EULDERS A W M， et al. Visual word ambiguity [J]. IEEE Transactions on Pattern Analysis and Ma

源于：论文致谢怎么写www.udooo.com

chine Intelligence， 2010， 32（7）： 1271-1283.
[4]
LAZEBNIK S， SCHMID C， PONCE J.Beyond bags of features： spatial pyramid matching for recognizing natural scene categories [C]// Proceedings of the 2006 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2006： 2169-2178.
[5]
LOWE D G.Distinctive image features from scaleinvariant keypoints [J]. International Journal of Computer Vision， 2004， 60（2）： 91-110.
[6]
WU J X， REHG J M. Centrist： a visual descriptor for scene categorization [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2010， 33（8）： 1489-1501.
[7]
ARTHUR D， VASSILVITSKII S. kmeans++： the advantages of careful seeding [C]// Proceedings of the Eighteenth Annual ACMSIAM Symposium on Discrete Algorithms. Philadelphia： Society for Industrial and Applied Mathematics， 2007： 1027-1035.
[8]
SHEN F R， HASEGAWA O. An incremental network for online unsupervised classification and topology learning [J]. Neural Networks， 2005， 19（1）： 90-106.
[9]
SHEN F R， OGURA T， HASEGAWA O. An enhanced selforganizing incremental neural network for online unsupervised learning [J]. Neural Networks， 2007， 20（8）： 893-903.
[10]
ODONE F， BARLA A， VERRI A. Building kernels from binary strings for image matching [J]. IEEE Transactions on Image Processing， 2005， 14（2）： 169-180.
[11]
LEE H， BATTLE A， RAINA R， et al. Efficient sparse coding algorithms [C]// Proceedings of the 2006 Conference on Advances in Neural Information Processing Systems. Cambridge， MA： MIT Press， 2007： 801-808.
[12]
YU K， ZHANG T， GONG Y. Nonlinear learning using local coordinate coding [C]// Proceedings of the 23rd Annual Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2009： 107-115.
[13]
MAJI S， BERG A C， MALIK J. Classification using intersection kernel support vector machines is efficient [C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2008： 1-8.
收稿日期：20130107
；修回日期：20130225。
基金项目：。
作者简介：
袁飞云（1969-），男，陕西绥德人，副教授，主要研究方向：软件设计、数据安全。 [3][4]

简谈神经网络基于自组织增量神经网络码书产生办法在图像分类中运用

1.201

3.07.1976

3.2部分）。

1 主要编码方式

1.1 最近邻编码

1.3 局部线性编码

2 SOINN原理

3 结合SOINN的码书创建

4 实验分析

4.1 实验设置

相关论文

频道推荐

热门论文阅读

排行榜

猜你喜欢