文献收藏与分享平台

尹志 (2022-03-25 14:10):

#paper doi:10.1109/CVPR.2015.7298682, 2015, FaceNet: A unified embedding for face recognition and clustering. 这是一篇人脸检测领域的经典论文。Google写的，发在2015年的CVPR上。在LFW数据集上刷到99.63%的分数，在YouTube Faces DB上也刷到95.12%，当时的SOTA。虽然讲的是人脸检测，但其思想适合于非常多的场景，包括各类图像识别问题，自然语言处理问题等。文章引入了一套端到端的训练方式，直接对嵌入空间进行建模。其想法非常直接，即通过嵌入空间建模，将每张人脸映射到嵌入空间的一个点。在这样的嵌入下，相同id的人脸应该接近，而不同id的人脸应该远离，那么这样的嵌入方式，可以理解成一个特征处理器，从而对后续人脸检测、识别、聚类等动作做出高效的预先计算。网络结构部分比较简单，主要用的是当时还很新鲜的inception网络，有趣的是它的loss，文章引入了triplet loss的概念，即anchor-pos对，anchor-neg对进行距离计算。其中anchor为某id对应图片，pos为该id对应的其它人脸图片，neg为非该id的人脸图片。思想很简单，就是通过训练，让anchor-pos对的距离很小，anchor-neg对的距离很大。这里的loss在数学上，就表示为anchor-pos对的距离-anchor-neg对的距离+alpha。这里的alpha可以理解为一个约束，其将同一个id的脸约束在一个流形上且保度规。当然，在实践训练中，triplet的选择也很重要，有兴趣的可以看paper。虽然文章比较老，所用的网络结构也很老，但是其简单的思想，有效的结果都给后续的很多识别工作，不论是研究还是工业实战层面带来巨大的启发。比如做word2vec的小伙伴肯定会心有戚戚焉。

2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015. DOI: 10.1109/CVPR.2015.7298682

FaceNet: A unified embedding for face recognition and clustering

翻译

Abstract: No abstract available.