视频识别-C3D网络 pre-train model part two:
C3D network由5个三维卷积块(包含8个三维卷积层和5个三维最大池化层)、两个全连接层和一个分类层构成。
3D ConvNets比2D ConvNets更适用于时空特征的学习;
对于3D ConvNet而言,在所有层使用3×3×3的小卷积核效果最好;
我们通过简单的线性分类器学到的特征名为C3D(Convolutional 3D),在4个不同的基准上优于现有的方法,并在其他2个基准上与目前最好的方法
视频识别-C3D网络 pre-train model part 1
C3D network由5个三维卷积块(包含8个三维卷积层和5个三维最大池化层)、两个全连接层和一个分类层构成。
3D ConvNets比2D ConvNets更适用于时空特征的学习;
对于3D ConvNet而言,在所有层使用3×3×3的小卷积核效果最好;
我们通过简单的线性分类器学到的特征名为C3D(Convolutional 3D),在4个不同的基准上优于现有的方法,并在其他2个基准上与目前最好的方法相当。