INSAIT и Netflix със световен пробив в обработката на видео с ИИ

Институтът към Софийския университет "Св. Климент Охридски" и една от най-големите световни стрийминг платформи разработиха нов AI модел - VOID, който може да премахва обекти от видео и едновременно с това да пресъздава реалистично как се променя сцената, пише МОН.

За разлика от стандартните инструменти, които просто „запълват" изтритите части, VOID разбира как обектите си взаимодействат. Ако например човек държи предмет и бъде премахнат, моделът симулира как предметът пада или се движи естествено, сякаш сцената е заснета без него. Това може да даде много по-голяма свобода на производителите на видео съдържание и би спестило значителен финансов ресурс за презаснемане на различни сцени.

Технологията стъпва върху CogVideoX и използва специален подход с т.нар. quadmask, който позволява да се разграничат обектите, зоните на взаимодействие и фонът. Това помага на системата да запази логиката и динамиката на кадъра, без видими артефакти. Тъй като реални тренировъчни данни почти липсват, екипите на Netflix и INSAIT използват симулирани сцени, генерирани чрез Blender. Така моделът се учи какво се случва в реалния свят, когато даден обект изчезне.

В сравнение със съществуващи решения, VOID постига по-добра визуална последователност и по-реалистично поведение на обектите. Моделът е с отворен код, което дава възможност на разработчици и изследователи от цял свят да работят и надграждат технологията.

Това е пореден проект, който подчертава ролята на INSAIT в създаването на технологии със световно значение.