Microsoft Research Asia tarafından geliştirilen bir yeni deneysel yapay zeka (AI) aracı olan VASA 1, bir kişinin fotoğrafını ya da çizimini ve mevcut bir ses dosyasını alarak gerçek zamanlı olarak konuşan bir yüz oluşturabilen bir teknoloji olarak karşımıza çıktı. Bu gelişmeyle birlikte, fotoğraflara canlılık kazandıran ve ses dosyalarıyla senkronize çalışarak konuşma hareketlerini oluşturan bir teknolojinin potansiyeli ortaya çıktı.
Özellikle statik bir fotoğraftan yüz ifadeleri oluşturabilen VASA 1, mevcut bir ses kaydı ile uyumlu dudak hareketleri ve baş hareketlerini oluşturarak gerçek bir konuşma havası yaratabiliyor. Araştırmacılar, proje sayfasına birçok örnek yüklediler ve elde edilen sonuçlar, insanları gerçek sanmaya yetecek kadar iyi görünüyor.
Örneklerdeki dudak ve baş hareketlerinin yakından incelenmesi hâlâ biraz robotik ve senkronize olmayabilir, ancak bu teknolojinin kötüye kullanılabilme potansiyeli konusunda araştırmacılar da farkındalar. Bu nedenle, teknolojilerinin "sorumlu bir şekilde ve uygun düzenlemelere uygun olarak kullanılacağından emin olana kadar" çevrimiçi bir demo, API, ürün, ek uygulama ayrıntıları veya ilgili herhangi bir hizmeti yayınlamayacaklarını belirttiler. Bununla birlikte, kötü niyetli kişilerin bunu derinlemesine sahte videolar oluşturmak için kullanmasını önlemek için belirli korumaları uygulamayı planlayıp planlamadıklarını ise belirtmediler.
Araştırmacılara göre teknolojilerinin, kötüye kullanım potansiyeline rağmen birçok faydası bulunuyor. Eğitim eşitliğini arttırmak ve iletişim zorlukları yaşayanların erişimini geliştirmek gibi faydalarının yanı sıra, insanlara iletişim kurabilecekleri bir avatar sağlayarak eğitim eşitliğini artırmak ve terapötik destek sağlamak gibi avantajları olduğunu söylediler.
Yapılan duyuruyla birlikte yayınlanan makaleye göre, VASA 1, YouTube videolarından çıkarılan "6,112 ünlü için 1 milyondan fazla konuşma" içeren VoxCeleb2 Veri Seti üzerinde eğitilmiş. Araç, gerçek yüzlerle eğitilmiş olsa da, araştırmacılar Mona Lisa gibi sanatsal fotoğraflar üzerinde de çalıştığını gösterdi. Ayrıca, eğlenceli bir örnek olarak, Anne Hathaway'in Lil Wayne'in Paparazzi şarkısının viral yorumunu Mona Lisa'nın görüntüsüyle birleştirdiler.
VASA 1'in sunduğu teknolojiye dair şüpheci yaklaşımlara rağmen, bu tür bir teknolojinin neler yapabileceğini görmek için kesinlikle izlenmeye değer.