我们提出了一种新的神经网络,称为时间增强卷积网络(T-CN),用于基于视频的人员识别。 对于人的每个视频序列,首先将空间卷积子网应用于每个帧以表示外观信息,然后将时间卷积子网链接到连续帧的较小范围,以提取局部运动信息。 这样的空间和时间卷积一起构成了我们基于T-CN的表示。 最后,利用递归网络进一步探索全局动力学,然后进行时间合并以生成整个序列的整体特征向量。 在培训阶段,采用了暹罗网络体系结构来共同优化所有组件,而损失包括识别和验证。 在测试阶段,我们的网络会以前馈方式为每个输入视频序列(其长