尹志
(2022-03-25 14:10):
#paper doi:10.1109/CVPR.2015.7298682, 2015, FaceNet: A unified embedding for face recognition and clustering. 这是一篇人脸检测领域的经典论文。Google写的,发在2015年的CVPR上。在LFW数据集上刷到99.63%的分数,在YouTube Faces DB上也刷到95.12%,当时的SOTA。虽然讲的是人脸检测,但其思想适合于非常多的场景,包括各类图像识别问题,自然语言处理问题等。文章引入了一套端到端的训练方式,直接对嵌入空间进行建模。其想法非常直接,即通过嵌入空间建模,将每张人脸映射到嵌入空间的一个点。在这样的嵌入下,相同id的人脸应该接近,而不同id的人脸应该远离,那么这样的嵌入方式,可以理解成一个特征处理器,从而对后续人脸检测、识别、聚类等动作做出高效的预先计算。网络结构部分比较简单,主要用的是当时还很新鲜的inception网络,有趣的是它的loss,文章引入了triplet loss的概念,即anchor-pos对,anchor-neg对进行距离计算。其中anchor为某id对应图片,pos为该id对应的其它人脸图片,neg为非该id的人脸图片。思想很简单,就是通过训练,让anchor-pos对的距离很小,anchor-neg对的距离很大。这里的loss在数学上,就表示为anchor-pos对的距离-anchor-neg对的距离+alpha。这里的alpha可以理解为一个约束,其将同一个id的脸约束在一个流形上且保度规。当然,在实践训练中,triplet的选择也很重要,有兴趣的可以看paper。虽然文章比较老,所用的网络结构也很老,但是其简单的思想,有效的结果都给后续的很多识别工作,不论是研究还是工业实战层面带来巨大的启发。比如做word2vec的小伙伴肯定会心有戚戚焉。
FaceNet: A unified embedding for face recognition and clustering
翻译
Abstract:
No abstract available.