Tencent Open-Source-Algorithmus verbessert Benchmarks für die Gesichtserkennung

Der chinesische Technologieriese Tencent hat seinen Gesichtserkennungsalgorithmus DSFD (Dual Shot Face Detector) Open-Source entwickelt. Das zugehörige Papier DSFD: Dual Shot Face Detector erreicht eine hochmoderne Leistung bei Benchmarks für BREITERE GESICHTS- und FDDB-Datensätze und wurde von der Top Computer Vision Conference CVPR 2019 akzeptiert.

DSFD

Die Gesichtserkennung ist ein grundlegender Schritt für die Gesichtsausrichtung, -analyse, -erkennung und -verifizierung. Forscher aus dem KI-fokussierten Youtu-Labor von Tencent schlagen drei DSFD-Gesichtsdetektortechniken vor:

  1. Feature Enhance Module (FEM): Übertragen der ursprünglichen Feature-Maps, um den Single-Shot-Detektor auf einen Dual-Shot-Detektor zu erweitern und sie unterscheidbarer und robuster zu machen.
  2. Progressiver Ankerverlust (PLA): Berechnet durch Verwendung von zwei Ankersätzen und angepasst, um Merkmale effektiv zu erleichtern.
  3. Verbesserte Ankeranpassung (IAM): Integration neuartiger Datenvergrößerungstechniken und Ankerentwurfsstrategien in DSFD, um eine bessere Initialisierung für den Regressor zu ermöglichen.
Das DSFD-Framework verwendet ein Feature-Enhance-Modul (b) auf einer Feedforward-VGG16-Architektur, um erweiterte Features © aus den ursprünglichen Features (a) zu generieren. zusammen mit zwei Verlustschichten, First Shot PAL für die ursprünglichen Features und Second Shot PAL für die erweiterten Features.

Experiment Ergebnisse

Die DSFD rahmen zeigt hervorragende leistung in experimente. Bei der Beobachtung der folgenden Bilder zeigte DSFD eine hohe Wirksamkeit bei der Erkennung von Gesichtern mit Variationen in Bezug auf Maßstab, Pose, Okklusion, Unschärfe, Make-up, Beleuchtung, Modalität und Reflexion. Blaue Begrenzungsrahmen zeigen an, dass die Detektorkonfidenz über 0,8 liegt.

Wirksamkeit von DSFD mit großen Variationen.

Die Forschungsgruppe führte auch umfangreiche Experimente und Ablationsstudien mit aktuellen Benchmarks für das BREITERE GESICHT und FDDB-Datensätze durch.

Mit dem BREITEREN Gesichtsdatensatz, wie unten gezeigt, erreichte DSFD State-of-the-Art-Leistung für durchschnittliche Präzision auf drei Teilmengen: 96,6% (leicht), 95,7% (Mittel) und 90,4% (hart) auf dem Validierungssatz; und 96,0% (leicht), 95,3% (Mittel) und 90,0% (hart) auf dem Testsatz.

Precision-Recall-Kurven auf breiteres Gesicht Validierung und Prüfung Teilmenge.

Mit dem FDDB-Datensatz, wie unten gezeigt, erreichte DSFD sowohl bei diskontinuierlichen als auch bei kontinuierlichen ROC-Kurven eine State-of-the-Art-Performance: 99,1% und 86.2%, wenn die Anzahl der Fehlalarme 1.000 entspricht.

Vergleiche mit gängigen State-of-the-Art-Methoden auf dem FDDB-Datensatz. Die erste Zeile zeigt die ROC-Ergebnisse ohne zusätzliche Anmerkungen, und die zweite Zeile zeigt die ROC-Ergebnisse mit zusätzlichen Anmerkungen.

Erneute Implementierung des Projekts

Das DSFD-Projekt ist auf PyTorch implementiert. Ohne Verwendung spezieller Bibliotheken kann dieses Projekt mit Python 0.3.1, Python 3.6 und cuDNN ausgeführt werden. Das Forschungsteam hat alle notwendigen Materialien auf ihrem GitHub-Repository zur Verfügung gestellt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.