VASA-1 на Microsoft може да генерира реалистични говорещи лица само от едно изображение.

В скорошна бяла книга Microsoft представи нов AI модел, който създава говореща глава, която изглежда и звучи реалистично и се генерира само чрез качване на неподвижна снимка и гласова проба.

Новият модел е наречен VASA-1 и изисква само една снимка в портретен стил и аудио файл с глас и ги слива заедно, за да направи кратко видео на говореща глава с изражения на лицето, синхронизиране на устните и движения на главата. Произведената глава може дори да пее песни и то с гласа, качен по време на създаването.

Microsoft VASA-1 е пробив за анимацията

Според Microsoft, новият AI модел все още е във фаза на проучване и все още няма планове за пускането му на широката публика и само изследователи на Microsoft имат достъп до него. Компанията обаче сподели доста примери от демонстрациите, които показват зашеметяващ реализъм и движения на устните, които изглеждат твърде реалистични.

Демонстрацията показва хора, които изглеждат истински, сякаш седят пред камера и ги снимат. Движенията на главите са реалистични и изглеждат съвсем естествени, а движението на устните, което съответства на звука, е доста забележително, при условие че изглежда много малко да се отбележи нещо, което не е естествено. Цялостната синхронизация на устата е феноменална.

Microsoft каза, че моделът е разработен за анимиране на виртуални герои и твърди, че всички хора, показани в демонстрацията, са синтетични, както казаха, моделите са генерирани от DALL-E, който е генераторът на изображения на OpenAI. Така че смятаме, че ако може да анимира модел, генериран от AI, тогава очевидно има много повече потенциал за анимиране на снимки на всеки реален човек, което трябва да бъде по-реалистично и много по-лесно за него.

Случаи на използване на Vasa-1 и неговата потенциална злоупотреба

Ако разгледаме потенциала на VASA-1 за практическа употреба, тогава на базата, той може да се използва за анимиране на герои в анимационни филми, което ще даде на героите по-реалистично усещане с естествени изражения на лицето и движения на главата. Друга употреба може да бъде във видеоигрите, поради същата причина, помислете за Grand Theft Auto и други подобни. В бъдеще може да се използва за хиперреалистични филми или сериали, генерирани от AI, където героите могат да бъдат генерирани от генератори на изображения и могат да бъдат анимирани от VASA-1, а публиката може дори да не усети, че героите не са хора.

Наред с творческото използване на инструмента, той може да се използва и за създаване на съдържание за злонамерени цели. Потенциалната злоупотреба с VASA-1 може да бъде използването му за deepfakes, тъй като ще улесни всеки, участващ в deepfake творения, да разшири лошите си тактики и да генерира по-реалистично подвеждащо съдържание. Спомняте ли си скандала с автоматично обаждане, свързан с гласа на Байдън, за да се въздържат хората от гласуване преди първичните избори? Сега може да е робовидео след робообаждането и то с много реалистични човешки изражения.

Потенциалният риск от злоупотреба може да е причината Microsoft да ограничи тестването само до своите изследователи. Според изследователите на Microsoft инструментът може да се използва за създаване на подвеждащо и измамно съдържание за представяне на хора, подобно на някои други инструменти, но те се стремят към приложения за положителна употреба. Nvidia и Runway AI също пуснаха свои модели за същата функция, но VASA-1 изглежда много по-реалистичен и обещаващ кандидат.

Научната статия може да се види тук, а бележката на Microsoft тук.

Източник: https://www.cryptopolitan.com/microsofts-vasa-1-can-generate-talking-faces/