Ancak geliştiricilerin kendileri de bunun kötüye kullanılma potansiyeline sahip olduğunu kabul ediyor.
Microsoft Research Asia, bir kişinin hareketsiz görüntüsünü – ya da çizimini – ve mevcut bir ses dosyasını alarak bunlardan gerçek zamanlı olarak gerçekçi bir konuşan yüz yaratabilen VASA-1 adlı yeni bir deneysel yapay zeka aracını tanıttı. Mevcut bir hareketsiz görüntü için yüz ifadeleri ve baş hareketleri ve bir konuşma veya şarkıya uyacak uygun dudak hareketleri üretme yeteneğine sahiptir. Araştırmacılar proje sayfasına bir sürü örnek yüklediler ve sonuçlar insanları gerçek olduklarına inandırabilecek kadar iyi görünüyor.
Örneklerdeki dudak ve baş hareketleri daha yakından incelendiğinde hala biraz robotik ve senkronizasyon dışı görünse de, teknolojinin gerçek insanların deepfake videolarını kolayca ve hızlı bir şekilde oluşturmak için kötüye kullanılabileceği açıktır. Araştırmacıların kendileri de bu potansiyelin farkında ve teknolojilerinin “sorumlu bir şekilde ve uygun düzenlemelere uygun olarak kullanılacağından” emin olana kadar “çevrimiçi bir demo, API, ürün, ek uygulama ayrıntıları veya ilgili teklifleri” yayınlamamaya karar verdiler. Bununla birlikte, kötü aktörlerin bunları deepfake porno veya yanlış bilgilendirme kampanyaları oluşturmak gibi hain amaçlarla kullanmasını önlemek için belirli önlemler almayı planlayıp planlamadıklarını söylemediler.
Araştırmacılar, kötüye kullanım potansiyeline rağmen teknolojilerinin bir ton faydası olduğuna inanıyor. Bu teknolojinin eğitimde eşitliği artırmanın yanı sıra, iletişim güçlüğü çekenlerin kendileri için iletişim kurabilecek bir avatara erişimlerini sağlayarak erişilebilirliği artırmak için de kullanılabileceğini söylediler. Ayrıca, VASA-1’in insanların konuşabileceği yapay zeka karakterlerine erişim sunan programlarda kullanılabileceğini ima ederek, ihtiyaç duyanlar için arkadaşlık ve terapötik destek sağlayabileceğini söylediler.
Duyuru ile birlikte yayınlanan makaleye göre VASA-1, YouTube videolarından çıkarılan “6.112 ünlü için 1 milyondan fazla ifade” içeren VoxCeleb2 Veri Kümesi üzerinde eğitildi. Araç gerçek yüzler üzerinde eğitilmiş olsa da, araştırmacıların Anne Hathaway’in Lil Wayne’in Paparazzi şarkısının viral yorumunun ses dosyasıyla eğlenceli bir şekilde birleştirdiği Mona Lisa gibi sanatsal fotoğraflar üzerinde de çalışıyor. O kadar keyifli ki, böyle bir teknolojinin ne kadar iyi olabileceğinden şüphe duysanız bile izlemeye değer.