- 1. 深度学习的基本理论与方法
- 2. 目 录概述
动机
深度学习简介
深度学习的训练过程
深度学习的具体模型及方法
深度学习的性能比较
深度学习的应用
展望
参考文献
相关程序软件及链接
- 3. 概 述深度学习:一种基于无监督特征学习和特征层次结构的学习方法
可能的的名称:
深度学习
特征学习
无监督特征学习
- 4. 动 机良好的特征表达,对最终算法的准确性起了非常关键的作用;
识别系统主要的计算和测试工作耗时主要集中在特征提取部分;
特征的样式目前一般都是人工设计的,靠人工提取特征。Low-level sensingPre-processingFeature extract.Feature selectionInference: prediction, recognition传统的模式识别方法:
- 5. 动 机——为什么要自动学习特征实验:LP-β Multiple Kernel Learning
Gehler and Nowozin, On Feature Combination for Multiclass Object Classification, ICCV’09
采用39 个不同的特征
PHOG, SIFT, V1S+,Region Cov. Etc.
在普通特征上MKL表现
有限
结论:特征更重要
- 6. 动 机——为什么要自动学习特征机器学习中,获得好的特征是识别成功的关键
目前存在大量人工设计的特征,不同研究对象特征不同,特征具有多样性,如:SIFT, HOG, LBP等
手工选取特征费时费力,需要启发式专业知识,很大程度上靠经验和运气
是否能自动地学习特征?
- 7. 中层特征
中层信号:
动 机——为什么要自动学习特征“Tokens” from Vision by D.Marr:连续平行连接拐角物体部件:他们对于人工而言是十分困难的,那么如何学习呢?
- 8. 动 机——为什么要自动学习特征
一般而言,特征越多,给出信息就越多,识别准确性会得到提升;
但特征多,计算复杂度增加,探索的空间大,可以用来训练的数据在每个特征上就会稀疏。
结论:不一定特征越多越好!需要有多少个特征,需要学习确定。
- 9. 动 机——为什么采用层次网络结构人脑视觉机理
1981年的诺贝尔医学奖获得者 David Hubel和TorstenWiesel发现了视觉系统的信息处理机制
发现了一种被称为“方向选择性细胞的神经元细胞,当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃
- 10. 动 机——为什么采用层次网络结构人脑视觉机理
人的视觉系统的信息处理是分级的
高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图
抽象层面越高,存在的可能猜测就越少,就越利于分类
- 11. 动 机——为什么采用层次网络结构视觉的层次性
属性学习,类别作为属性的一种组合映射
Lampert et al. CVPR’09
类别标签属性图像特征
- 12. 动 机——为什么采用层次网络结构特征表示的粒度
具有结构性(或者语义)的高层特征对于分类更有意义
- 13. 动 机——为什么采用层次网络结构初级(浅层)特征表示高层特征或图像,往往是由一些基本结构(浅层特征)组成的
- 14. 动 机——为什么采用层次网络结构结构性特征表示
- 15. 动 机——为什么采用层次网络结构浅层学习的局限
人工神经网络(BP算法)
—虽被称作多层感知机,但实际是种只含有一层隐层节点的浅层模型
SVM、Boosting、最大熵方法(如LR,Logistic Regression)
—带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)的浅层模型
局限性:有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受限。
- 16. 深度学习2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton在《科学》上发表论文提出深度学习主要观点:
1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;
2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克服,逐层初始化可通过无监督学习实现的。
- 17. 深度学习本质:通过构建多隐层的模型和海量训练数据(可为无标签数据),来学习更有用的特征,从而最终提升分类或预测的准确性。 “深度模型”是手段,“特征学习”是目的。
与浅层学习区别:
1)强调了模型结构的深度,通常有5-10多层的隐层节点;
2)明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。
- 18. 深度学习好处:可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示。
- 19. 深度学习 vs. 神经网络神经网络 : 深度学习:
- 20. 深度学习 vs. 神经网络相同点:二者均采用分层结构,系统包括输入层、隐层(多层)、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个logistic 回归模型。
不同点:
神经网络:采用BP算法调整参数,即采用迭代算法来训练整个网络。随机设定初值,计算当前网络的输出,然后根据当前输出和样本真实标签之间的差去改变前面各层的参数,直到收敛;
深度学习:采用逐层训练机制。采用该机制的原因在于如果采用BP机制,对于一个deep network(7层以上),残差传播到最前面的层将变得很小,出现所谓的gradient diffusion(梯度扩散)。
- 21. 深度学习 vs. 神经网络神经网络的局限性:
1)比较容易过拟合,参数比较难调整,而且需要不少技巧;
2)训练速度比较慢,在层次比较少(小于等于3)的情况下效果并不比其它方法更优;
- 22. 深度学习训练过程不采用BP算法的原因
(1)反馈调整时,梯度越来越稀疏,从顶层越往下,误差校正信号越来越小;
(2)收敛易至局部最小,由于是采用随机值初始化,当初值是远离最优区域时易导致这一情况;
(3)BP算法需要有标签数据来训练,但大部分数据是无标签的;
- 23. 深度学习训练过程第一步:采用自下而上的无监督学习
1)逐层构建单层神经元。
2)每层采用wake-sleep算法进行调优。每次仅调整一层,逐层调整。
这个过程可以看作是一个feature learning的过程,是和传统神经网络区别最大的部分。
- 24. 深度学习训练过程wake-sleep算法:
1)wake阶段:
认知过程,通过下层的输入特征(Input)和向上的认知(Encoder)权重产生每一层的抽象表示(Code),再通过当前的生成(Decoder)权重产生一个重建信息(Reconstruction),计算输入特征和重建信息残差,使用梯度下降修改层间的下行生成(Decoder)权重。也就是“如果现实跟我想象的不一样,改变我的生成权重使得我想象的东西变得与现实一样”。
2)sleep阶段:
生成过程,通过上层概念(Code)和向下的生成(Decoder)权重,生成下层的状态,再利用认知(Encoder)权重产生一个抽象景象。利用初始上层概念和新建抽象景象的残差,利用梯度下降修改层间向上的认知(Encoder)权重。也就是“如果梦中的景象不是我脑中的相应概念,改变我的认知权重使得这种景象在我看来就是这个概念”。
- 25. 深度学习训练过程EncoderDecoderInput ImageClass labele.g.FeaturesEncoderDecoderFeaturesEncoderDecoderAutoEncoder:
- 26. 深度学习训练过程第二步:自顶向下的监督学习
这一步是在第一步学习获得各层参数进的基础上,在最顶的编码层添加一个分类器(例如罗杰斯特回归、SVM等),而后通过带标签数据的监督学习,利用梯度下降法去微调整个网络参数。
深度学习的第一步实质上是一个网络参数初始化过程。区别于传统神经网络初值随机初始化,深度学习模型是通过无监督学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果。
- 27. 深度学习的具体模型及方法自动编码器( AutoEncoder )
稀疏自动编码器(Sparse AutoEncoder)
降噪自动编码器(Denoising AutoEncoders)
- 28. 深度学习的具体模型及方法EncoderDecoderInput (Image/ Features)Output Featurese.g.Feed-back /generative /top-down
pathFeed-forward /bottom-up path自动编码器( AutoEncoder )
- 29. 深度学习的具体模型及方法σ(Wx)σ(WTz)(Binary) Input x(Binary) Features ze.g.自动编码器( AutoEncoder )Encoder filters W
Sigmoid function σ(.)Decoder filters WT
Sigmoid function σ(.)
- 30. 深度学习的具体模型及方法稀疏自动编码器(Sparse AutoEncoder)限制每次得到的表达code尽量稀疏限制每次得到的表达code尽量稀疏
- 31. 深度学习的具体模型及方法稀疏自动编码器(Sparse AutoEncoder)
FiltersFeaturesSparse CodingInput Patch
- 32. 深度学习的具体模型及方法σ(Wx)DzInput Patch xSparse Features ze.g.Encoder filters W
Sigmoid function σ(.)Decoder filters D
L1 SparsityTraining稀疏自动编码器(Sparse AutoEncoder)
- 33. 深度学习的具体模型及方法稀疏自动编码器(Sparse AutoEncoder)
1)Training阶段:给定一系列的样本图片[x1, x 2, …],我们需要学习得到一组基[Φ1, Φ2, …],也就是字典。
可使用K-SVD方法交替迭代调整a [k],Φ [k],直至收敛,从而可以获得一组可以良好表示这一系列x的字典。
- 34. 深度学习的具体模型及方法稀疏自动编码器(Sparse AutoEncoder)
2)Coding阶段:给定一个新的图片x,由上面得到的字典,利用OMP算法求解一个LASSO问题得到稀疏向量a。这个稀疏向量就是这个输入向量x的一个稀疏表达。
- 35. 深度学习的具体模型及方法稀疏自动编码器(Sparse AutoEncoder)
- 36. 深度学习的具体模型及方法降噪自动编码器(Denoising AutoEncoders)
在自动编码器的基础上,对训练数据加入噪声,自动编码器必须学习去去除这种噪声而获得真正的没有被噪声污染过的输入。因此,这就迫使编码器去学习输入信号的更加鲁棒的表达,这也是它的泛化能力比一般编码器强的原因。
- 37. 深度学习的具体模型及方法Autoencoder (most Deep Learning methods)
RBMs / DBMs [Lee / Salakhutdinov]
Denoising autoencoders [Ranzato]
Predictive sparse decomposition [Ranzato]
Decoder-only
Sparse coding [Yu]
Deconvolutional Nets [Yu]
Encoder-only
Neural nets (supervised) [Ranzato]
- 38. 深度学习的具体模型及方法限制波尔兹曼机(Restricted Boltzmann Machine)
定义:假设有一个二部图,同层节点之间没有链接,一层是可视层,即输入数据层(v),一层是隐藏层(h),如果假设所有的节点都是随机二值( 0,1值)变量节点,同时假设全概率分布p(v,h)满足Boltzmann 分布,我们称这个模型是Restricted BoltzmannMachine (RBM)。
- 39. 深度学习的具体模型及方法限制波尔兹曼机(Restricted Boltzmann Machine)
限制波尔兹曼机(RBM)是一种深度学习模型。
- 40. 深度学习的具体模型及方法限制波尔兹曼机(Restricted Boltzmann Machine)
定义联合组态(jointconfiguration)能量:
这样某个组态的联合概率分布可以通过Boltzmann 分布和这个组态的能量来确定:
- 41. 深度学习的具体模型及方法限制波尔兹曼机(Restricted Boltzmann Machine)
给定隐层h的基础上,可视层的概率确定:
(可视层节点之间是条件独立的)
给定可视层v的基础上,隐层的概率确定:
- 42. 深度学习的具体模型及方法限制波尔兹曼机(Restricted Boltzmann Machine)
待求问题:给定一个满足独立同分布的样本集:D={v(1), v(2),…, v(N)},需要学习模型参数θ={W,a,b}。
求解:
最大似然估计:
我们需要选择一个参数,让我们当前的观测样本的概率最大
对最大对数似然函数求导,即可得到L最大时对应的参数W:
若隐藏层层数增加,可得到Deep Boltzmann Machine(DBM)
- 43. 深度学习的具体模型及方法Deep Boltzmann Machine(DBM)
- 44. 深度学习的具体模型及方法深信度网络(Deep Belief Networks)Deep Belief Networks是在靠近可视层的部分使用贝叶斯信念网络(即有向图模型),而在最远离可视层的部分使用Restricted Boltzmann Machine的模型。
- 45. 深度学习的具体模型及方法深信度网络(Deep Belief Networks)
- 46. 深度学习的具体模型及方法卷积波尔兹曼机(Convolutional RBM)
CRBM是为识别二维图像信息而特殊设计的一个多层感知器。概念示范:输入图像通过与m个可训练的滤波器和可加偏置进行卷积,在C1层产生m个特征映射图,然后特征映射图中每组的n个像素再进行求和,加权值,加偏置,通过一个Sigmoid函数得到m个S2层的特征映射图。这些映射图再进过滤波得到C3层。这个层级结构再和S2一样产生S4。最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。
- 47. 深度学习的具体模型及方法卷积波尔兹曼机(Convolutional RBM)
权值共享减少参数的方法:
每个神经元无需对全局图像做感受,只需感受局部区域(Feature Map),在高层会将这些感受不同局部的神经元综合起来获得全局信息。
每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。
- 48. 深度学习的具体模型及方法卷积波尔兹曼机(Convolutional RBM)
隐层神经元数量的确定神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。
例如,输入图像是1000x1000像素,滤波器大小是10x10,假设滤波器间没有重叠,即步长为10,这样隐层的神经元个数就是(1000x1000 )/ (10x10)=10000个
- 49. 深度学习的具体模型及方法卷积波尔兹曼机(Convolutional RBM)
多滤波器情形
不同的颜色表示不同种类的滤波器每层隐层神经元的个数按滤波器种类的数量翻倍
每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关
例如:隐含层的每个神经元都连接10x10像素图像区域,同时有100种卷积核(滤波器)。则参数总个数为:(10x10+1)x100=10100个
- 50. 深度学习的具体模型及方法卷积波尔兹曼机(Convolutional RBM)卷积过程:用一个可训练的滤波器fx去卷积一个输入的图像(第一阶段是输入的图像,后面的阶段就是Feature Map了),然后加一个偏置bx,得到卷积层Cx。
子采样过程:每邻域n个像素通过池化(pooling)步骤变为一个像素,然后通过标量Wx+1加权,再增加偏置bx+1,然后通过一个sigmoid激活函数,产生一个大概缩小n倍的特征映射图Sx+1。
- 51. 深度学习的具体模型及方法卷积波尔兹曼机(Convolutional RBM)CNN的关键技术:局部感受野、权值共享、时间或空间子采样
CNN的优点:
1、避免了显式的特征抽取,而隐式地从训练数据中进行学习;
2、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复杂性;
3、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性;
3、输入信息和网络拓扑结构能很好的吻合,在语音识别和图像处理方面有着独特优势。
- 52. 深度学习的具体模型及方法基于CRBM的深度学习框架
- 53. 深度学习性能比较Deep nets VS. Boosting
- 54. 深度学习性能比较Deep nets VS. Probabilistic Models
- 55. 深度学习性能比较随机文法模型
Set of production rules for objects
Zhu & Mumford, Stochastic Grammar of Images, F&T 2006
自动学习人工指定[S.C. Zhu et al.]
- 56. 深度学习性能比较基于文法模型的物体检测
-R. Girshick, P. Felzenszwalb, D. McAllester, NIPS 2011
-Learn local appearance& shape人工指定自动学习
- 57. 深度学习性能比较部件和结构模型
Defined connectivity graph
Learn appearance / relative position
[Felzenszwalb & Huttenlocher CVPR’00 ][Fischler and R. Elschlager 1973 ]人工指定自动学习
- 58. 深度学习性能比较基于部件与结构的分层模型
-Fidler et al. ECCV’10
-Fidler & Leonardis CVPR’07
人工指定自动学习
- 59. 深度学习性能比较递归和与图模型
-Leo Zhu, Yuanhao Chen, Alan Yuille & collaborators
Recursive composition, AND/OR graph
Learn # units at layer
人工指定自动学习
- 60. 深度学习性能比较自动编码模型
[Hinton et al. ICANN’11]
反卷积网络模型
[Zeiler et al. ICCV’11]
-Explicit representation of what/where
人工指定自动学习
- 61. 深度学习性能比较神经网络
Dedicated pooling / LCNlayers
No separation of what/where
Modality independent (e.g. speech, images)
[Le et al., ICML’12]人工指定自动学习
- 62. 深度学习性能比较波尔兹曼机
Homogenous architecture
No separation of what/where
Modality independent (e.g. speech, images)
[Salakhutdinov & Hinton AISTATS’09]人工指定自动学习
- 63. 深度学习的应用深度学习在图像识别上的应用空间金字塔(Spatial Pyramids )
- 64. 深度学习的应用深度学习在图像识别上的应用
- 65. 深度学习的应用深度学习在图像识别上的应用
- 66. 深度学习的应用深度学习在图像识别上的应用
- 67. 深度学习的应用深度学习在图像识别上的应用实验在Caltech 256数据集上,利用单特征识别,Sparse CRBM性能最优
- 68. 深度学习的应用深度学习在音频识别上的应用Convolutional DBN for audio Max pooling
node
Detection
nodes Max pooling
node
Detection
nodes
- 69. 深度学习的应用深度学习在音频识别上的应用
Convolutional DBN for audio
- 70. 深度学习的应用深度学习在音频识别上的应用
- 71. 深度学习的应用深度学习在音频识别上的应用
- 72. 深度学习的应用深度学习在视频识别上的应用SPACE-TIME DEEP BELIEF NETWORKS
- 73. 深度学习的应用深度学习在视频识别上的应用
- 74. 深度学习的应用深度学习在多模态学习中的应用
- 75. 深度学习的应用深度学习在多模态学习中的应用
- 76. 深度学习的应用深度学习在多模态学习中的应用
- 77. 深度学习的应用深度学习在多模态学习中的应用
- 78. 深度学习的应用深度学习在多模态学习中的应用
- 79. 深度学习的应用深度学习在多模态学习中的应用
如果模态间存在着内在的联系,即存在shared Representation,那么理论上模型应支持训练一个模态,而测试另一个模态时,仍能获得好的分类性能。
- 80. 深度学习的应用深度学习在多任务学习中的应用
- 81. 深度学习的应用深度学习在多任务学习中的应用
在深度学习模型中,对于相关任务的联合学习,往往会取得较好的特征表达;
多任务联合学习,能够增强损失函数的作用效能;
比如:单独进行人脸检测会比较难(光照、遮挡等因素),但是当人脸检测与人脸识别这两个相关的任务联合学习时,人脸检测的难度反而降低了。
- 82. 深度学习的应用基于深度学习的迁移学习应用
- 83. 深度学习的应用基于深度学习的迁移学习应用特征共享
- 84. 深度学习的应用基于深度学习的迁移学习应用
- 85. 深度学习的应用深度学习在大尺度数据集上的应用
大尺度数据集:
样本总数>100M,
类别总数>10K,
特征维度>10K
- 86. 深度学习的应用深度学习在大尺度数据集上的应用
模型的并行运算化
- 87. 深度学习的应用深度学习在大尺度数据集上的应用分布式深度学习模型
- 88. 深度学习的应用深度学习在大尺度数据集上的应用分布式深度学习模型
- 89. 深度学习的应用深度学习在大尺度数据集上的应用参数个数达到1.15 billion,若不能并行优化参数,任务无法完成!
- 90. 深度学习的应用深度学习的State-of-the-art
- 91. 展 望未来需解决的问题:
对于一个特定的框架,多少维的输入它可以表现得较优?
对捕捉短时或者长时间的时间依赖,哪种架构才是有效的?
如何对于一个给定的深度学习架构,融合多种感知的信息?
如何分辨和利用学习获得的中、高层特征语义知识?
有什么正确的机理可以去增强一个给定的深度学习架构,以改进其鲁棒性和对变形及数据丢失的不变性?
模型方面是否有其他更为有效且有理论依据的深度模型学习算法?
是否存在更有效的可并行训练算法?
- 92. 参考文献Tutorials & Background Material
– Yoshua Bengio, Learning Deep Architectures for AI, Foundations and
Trends in Machine Learning, 2(1), pp.1-127, 2009.
– LeCun, Chopra, Hadsell, Ranzato, Huang: A Tutorial on Energy-Based
Learning, in Bakir, G. and Hofman, T. and Scholkopf, B. and Smola, A.
and Taskar, B. (Eds), Predicting Structured Data, MIT Press, 2006
Convolutional Nets
– LeCun, Bottou, Bengio and Haffner: Gradient-Based Learning Applied to
Document Recognition, Proceedings of the IEEE, 86(11):2278-2324,
November 1998
– Jarrett, Kavukcuoglu, Ranzato, LeCun: What is the Best Multi-Stage
Architecture for Object Recognition?, Proc. International Conference on
Computer Vision (ICCV'09), IEEE, 2009
– Kavukcuoglu, Sermanet, Boureau, Gregor, Mathieu, LeCun: Learning
Convolutional Feature Hierachies for Visual Recognition, Advances in
Neural Information Processing Systems (NIPS 2010), 23, 2010
- 93. 参考文献Unsupervised Learning
– ICA with Reconstruction Cost for Efficient Overcomplete Feature Learning. Le,Karpenko, Ngiam, Ng. In NIPS 2011
– Rifai, Vincent, Muller, Glorot, Bengio, Contracting Auto-Encoders: Explicit invariance during feature extraction, in: Proceedings of the Twenty-eight International Conference on Machine Learning (ICML'11), 2011
- Vincent, Larochelle, Lajoie, Bengio, Manzagol, Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion, Journal of Machine Learning Research, 11:3371--3408, 2010.
- Gregor, Szlam, LeCun: Structured Sparse Coding via Lateral Inhibition,
Advances in Neural Information Processing Systems (NIPS 2011), 24, 2011
- Kavukcuoglu, Ranzato, LeCun. "Fast Inference in Sparse Coding Algorithms with Applications to Object Recognition". ArXiv 1010.3467 2008
- Hinton, Krizhevsky, Wang, Transforming Auto-encoders, ICANN, 2011
Multi-modal Learning
– Multimodal deep learning, Ngiam, Khosla, Kim, Nam, Lee, Ng. In Proceedings of the Twenty-Eighth International Conference on Machine Learning, 2011.
- 94. 参考文献Locally Connected Nets
– Gregor, LeCun “Emergence of complex-like cells in a temporal product network with local receptive fields” Arxiv. 2009
– Ranzato, Mnih, Hinton “Generating more realistic images using gated MRF's”NIPS 2010
– Le, Ngiam, Chen, Chia, Koh, Ng “Tiled convolutional neural networks” NIPS 2010
Distributed Learning
– Le, Ranzato, Monga, Devin, Corrado, Chen, Dean, Ng. "Building High-Level Features Using Large Scale Unsupervised Learning". International Conference of Machine Learning (ICML 2012), Edinburgh, 2012.
Papers on Scene Parsing
– Farabet, Couprie, Najman, LeCun, “Scene Parsing with Multiscale Feature
Learning, Purity Trees, and Optimal Covers”, in Proc. of the International
Conference on Machine Learning (ICML'12), Edinburgh, Scotland, 2012.
- Socher, Lin, Ng, Manning, “Parsing Natural Scenes and Natural Language with Recursive Neural Networks”. International Conference of Machine Learning (ICML 2011) 2011.
- 95. 参考文献Papers on Object Recognition
- Boureau, Le Roux, Bach, Ponce, LeCun: Ask the locals: multi-way local pooling for image recognition, Proc. ICCV 2011
- Sermanet, LeCun: Traffic Sign Recognition with Multi-Scale Convolutional
Networks, Proceedings of International Joint Conference on Neural Networks (IJCNN'11)
- Ciresan, Meier, Gambardella, Schmidhuber. Convolutional Neural Network
Committees For Handwritten Character Classification. 11th International
Conference on Document Analysis and Recognition (ICDAR 2011), Beijing, China.
- Ciresan, Meier, Masci, Gambardella, Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence IJCAI-2011.
Papers on Action Recognition
– Learning hierarchical spatio-temporal features for action recognition with
independent subspace analysis, Le, Zou, Yeung, Ng. CVPR 2011
Papers on Segmentation
– Turaga, Briggman, Helmstaedter, Denk, Seung Maximin learning of image
segmentation. NIPS, 2009.
- 96. 参考文献Papers on Vision for Robotics
– Hadsell, Sermanet, Scoffier, Erkan, Kavackuoglu, Muller, LeCun: Learning Long-Range Vision for Autonomous Off-Road Driving, Journal of Field Robotics,26(2):120-144, February 2009,
Deep Convex Nets & Deconv-Nets
– Deng, Yu. “Deep Convex Network: A Scalable Architecture for Speech Pattern Classification.” Interspeech, 2011.
- Zeiler, Taylor, Fergus "Adaptive Deconvolutional Networks for Mid and High Level Feature Learning." ICCV. 2011
Papers on Biological Inspired Vision
– Serre, Wolf, Bileschi, Riesenhuber, Poggio. Robust Object Recognition with Cortex-like Mechanisms, IEEE Transactions on Pattern Analysis and Machine Intelligence, 29, 3, 411-426, 2007.
- Pinto, Doukhan, DiCarlo, Cox "A high-throughput screening approach to
discovering good forms of biologically inspired visual representation." {PLoS}
Computational Biology. 2009
- 97. 参考文献Papers on Embedded ConvNets for Real-Time Vision Applications
– Farabet, Martini, Corda, Akselrod, Culurciello, LeCun: NeuFlow: A Runtime Reconfigurable Dataflow Processor for Vision, Workshop on Embedded Computer Vision, CVPR 2011
Papers on Image Denoising Using Neural Nets
– Burger, Schuler, Harmeling: Image Denoisng: Can Plain Neural Networks Compete with BM3D?, Computer Vision and Pattern Recognition, CVPR 2012,