Microsoft, üç saniyelik bir ses örneği verilen kişinin sesini simüle edebilen yeni bir yapay zeka projesini duyurdu. VALL-E adı verilen metinden konuşmayı sesli olarak çeviren yapay zeka modeli, EnCodec teknolojisini temel alıyor.
Dalga biçimlerini değiştirerek konuşmayı yapay zeka ile sentezleyen diğer yöntemlerinin aksine, VALL-E sesi tamamen analiz edebiliyor. Bu bilgileri bileşenlere ayırmaya yarayan model, eğitim verilerini kullanarak sesin codec bilgilerini çıkarıyor. Teknoloji devi, VALL-E’nin konuşma sentezleme özelliğini, Meta tarafından oluşturulan halka açık sesli kitaplar üzerinden geliştirdiğini belirtti. 7000’den fazla konuşmacıdan 60 bin saatlik İngilizce konuşma içeriğini toplamak için LibriLight adlı geniş bir ses kitaplığına başvuruldu.
Ayrıca VALL-E, önceden hazırlanmamış sesler olmadan çalışabiliyor ve sesleri analiz ederek öğrenme yeteneğine de sahip. Daha önce hiç duymadığı kelimeleri öğrenerek sese çevirebilen bu yeni model, henüz halka açık olarak sunulmadı. Ayrıca Microsoft, başta güvenlik olmak üzere çeşitli konularda önlem almayı da ihmal etmemiş durumda. Önemli kişilerin sesini taklit etme veya belirli bir konuşmacının kimliğine bürünme gibi durumlar için yeni bir algılama modeli üzerinde çalıştığı söyleniyor.