Speech2Face: Učíme sa tvár za hlasom, neurónová sieť sa učí asociácie tváre z hlasov a nakoniec môže vytvoriť tváre z hlasových záznamov. Funguje to tak zle v detailoch, že ste nedokázali rozpoznať ľudí, ale algoritmus pozoruhodne dobre triedi hlasové nahrávky podľa farby pleti, pohlavia a veku.
Čína už využíva rozpoznávanie tváre umelej inteligencie na prenasledovanie moslimských menšín a je samozrejme priekopníkom vo využívaní rozsiahlych opatrení dohľadu. Takýto algoritmus by pravdepodobne mohol identifikovať Ujgurov v telefónnej sieti pre čínske orgány, aj keď používajú zariadenia alebo čísla, ktoré im nepatria. Rekonštrukcia tvárí z hlasov bude spočiatku zábavná, ale kategorizácia davov pomocou umelej inteligencie podporovaná úryvkami digitálnych identifikátorov (napríklad hlas, fotografia alebo videoklip alebo štýl písania) ako sa už stalo) sa čoraz viac objavuje ako technológia hromadného sledovania. Triky by sa nemali skrývať v skutočnosti, že tieto technológie majú všetko, čo je potrebné na vytvorenie dystopie, aby orwellovské sledovanie skutočnými ľuďmi vyzeralo ako oslava narodenín dieťaťa.
Koľko môžeme odvodiť z výzoru človeka z toho, ako hovorí? V tomto príspevku študujeme úlohu rekonštruovať obraz tváre osoby z krátkeho zvukového záznamu hovoriacej osoby. Navrhujeme a trénujeme hlbokú neurónovú sieť na vykonávanie tejto úlohy pomocou miliónov prirodzených internetových / YouTube videí hovoriacich ľudí. Počas tréningu sa náš model učí korelácie hlasu a tváre, ktoré mu umožňujú vytvárať obrázky, ktoré zachytávajú rôzne fyzické atribúty hovoriacich, ako sú vek, pohlavie a etnická príslušnosť. Robí sa to spôsobom pod vlastným dohľadom, využitím prirodzeného spoločného výskytu tvárí a reči vo videách na internete, bez potreby výslovného modelovania atribútov. Vyhodnocujeme a číselne kvantifikujeme, ako - a akým spôsobom - sa naše rekonštrukcie Speech2Face získané priamo zo zvuku podobajú obrazom reálnych tvárí reproduktorov.