Презентация 2103 Flashcards
Слайд 1
Эта прекрасная дама - Дженнифер Лоуренс с лицом Стива Бушеми на одной из конференций в 2019 году.
Когда Стив Бушеми увидел эту запись, он сказал “грустно, что кто-то потратил столько времени, чтобы сделать это”.
Прошло 5 лет и сейчас вопрос времени перестал быть критичным.
Слайд 1
Эта прекрасная дама - Дженнифер Лоуренс с лицом Стива Бушеми на одной из конференций в 2019 году. Когда Стив Бушеми увидел эту запись, он сказал “грустно, что кто-то потратил столько времени, чтобы сделать это”. Прошло 4 года и сейчас вопрос времени перестал быть критичным.
Слайд 2
Один мой друг недавно прислал мне кружок в телеграме:
видео
Что делать, когда у товарища проблемы? надо помочь.
А теперь без шуток.
Создать такой ролик заняло 15 минут - с монтажом, клонированием голоса итд .
Входной порог по деньгам - 10 долларов за два сервиса.
А теперь представьте, что друг знает остаток на ваших банковских картах, знает ваши доходы по 2ндфл и 3ндфл, знает, где вы были в последнее время.
Клонировать голос вашего друга, мамы, папы, ребенка - дело 10 секунд, наложить маску на лицо - 10 минут.
Нейросети и ваша открытость в Интернете помогают украсть вашу личность, зарабатывать на вашей популярности, дискредитировать вас перед коллегами и руководством.
Еще 2-3 года назад Не было сервисов, которые за копейки могли помочь, с такими махинациями
не было достаточного объема вычислительных мощностей.
нейросеть, если очень простым языком, это очень большая формула с огромным количеством переменных, которая выдает ДОПУСТИМЫЙ результат. Например, мы можем повернуть голову направо, налево, но не сможем вывернуть шею строго назад. Задача нейросети - отсечь неприемлемые результаты и выдать приемлемые. Когда мы генерируем видео, голова должна поворачиваться плавно. Если не плавно, то это недопустимый результат
Слайд 5
Еще 8 лет назад научить нейросетку натягивать ваше лицо на фото (не бог весть какая задача) занимало примерно 7 часов на топовой конфигурации компьютера.
Сейчас это занимает 15-30 минут. Прогресс.
Нейросети - это про вычислительные мощности.
Есть нейросеть YandexGPT2, она не очень умная. Но даже для этого результата в 2022 году Яндекс потратил два с лишним месяца работы огромного парка из 800 графических карт (это где-то 2-3 млрд инвестиций на то время только в железо).
Развитие нейросетей зависит от сложности и времени их обучения.
Из 2 тысяч отдельных сервисов, и еще нескольких тысяч, которые используют нейросети как опции к своему продукту, 95% работают с текстовыми данными - базами, текстами и тп.
Еще 3-4% с изображениями и графикой, и только десятки с видео и аудио. Число видеосервисов, где АИ играет не вспомогательную роль, исчисляется даже не десятками, а единицами.
чтобы сгенерить ролик в 30 секунд, нужно 20-30 минут работы серверной фермы.
Слайд 7
Из тысяч текстовых сеток уже определились 4 лидера
3 из них приналдлежат крупным корпорациям - майкрософт, гугл, икс Илона Маска. Все эти лидеры используют GPT-решения.
Generative Pretrained Transformer - это подмножество нейросетей, которое характеризуется просто колоссальным объемом данных, классифицированных и размеченных. В мире не более сотни общедоступных ГПТ-моделей
Слайд 8
До появления ГПТ нейросети применялись локально, в большей части для анализа ограниченных данных
Сферы применения - аналитика, в том числе предиктивная, суммаризация и ревью набора исходных данных.
Слайд 9
После появления ГПТ-моделей появилось еще три огромных сферы, в которые укладывается 80% задач, которые могут выполнять нейросети.
Огромные базы, на которых обучаются сети (и могут вытаскивать из них непротиворечивую информацию), позволяют открывать инсайты и погружаться в новые сферы существенно быстрее, чем стандартными способами - через изучение литературы и поиск.
Все рекомендации (например, по лечению и другим процедурам) укладываются в эту сферу.
Появление ГПТ смогло существенно улучшить качество обслуживания клиентов там, где этим занимались боты - за счет огромного количества вариаций ответов и существенно лучшей разметки, чем могли позволить себе обычные базы данных.
Не обходится и без конфузов - на экране известный пример разговора чатбота-рекрутера с соискателем. Заказчику надо было ограничить ветки разговоров.
.
Слайд 11
составление правдоподобных текстов существенно изменило ландшафт копирайт/рерайт/транслейт услуг.
Конечно, нейросети сейчас работают как достаточно посредственные копирайтеры, переводчики и редактора, но ситуация улучшается с каждым месяцем.
Слайд 12
Уже сейчас в крупных графических пакетах не осталось инструментов, которые бы в той или иной степени не использовали AI. Тот же Фотошоп сейчас и пару лет назад - совершенно разные инструменты.
Есть и генеративные сетки, которые при определенных навыках позволяют оставить без работы иллюстраторов
Слайд 13
Изображения создаются в разных стилях с разной экспрессией, в разной цветовой гамме.
С каждым обновлением моделей нейросетей создавать иллюстрации становится все проще.
Слайд 14
Уже можно не запариваться с промтами и готовить иллюстрации по референсу
Слайд 15
Уже очень просто создавать персонажей, которые будут консистентными из генерации в генерацию
это выводит генеративные нейросети из разряда игрушек.
можно Менять элементы внутри генерации
это существенно проще, чем даже полгода назад.
Слайд 16
Формат презентации не очень подходит для демонстрации того, что умеют нейросети в сфере аудио.
Умеют очень многое -
- клонирование голосов
- интонаций,
- создание музыкальных треков и даже песен
Это уже сейчас существенно меняет музыкальную индустрию.
В 2023 году число композиций залитых на стриминговые сервисы увеличилось в 4 раза по сравнению с 2022 годом. Нейросетевые песни и треки - это уже не экзотика, а данность.
Слайд 17
Видео - это пока единственная часть, где нейросети в основном не справляются.
Здесь пока нет крупных игроков, есть или специализированные решения для киностудий и профессионального продакшна, или “игрушки” для широких масс.
Слайд 18
Здесь мы можем убедиться, что пока сфера применения нейронок в видео достаточно ограничена в генерации
объекты морфятся прямо в видео, какие-то быстрые движения у нейросетей пока не получаются.
Слайд 19
Собственно, смотрим
Слайд 20.
Более-менее уверенно нейросети пока чувствуют себя во вспомогательных задачах -
например, обработке существующих видео - стилизации и добавлении разных объектов (дипфейк - тоже объект)
Дзюба в стилистике аниме.
Слайд 21
Дзюба в стилистике пиксар
Дзюба в пост-апокалипсис стилистике.
Здесь мы видим, что нейросетям требуется существенно больше данных, на которых они должны учиться. И в десятки-сотни раз больше вычислительных мощностей.
Так что только через лет пять мы сможем с нуля генерировать фейк-видео,
где наш оппонент совершает преступление, авторизуется в онлайн-банкинге, подтверждает свою личность на разных сервисах с помощью видео в реалтайм.
Время еще есть, но его не так много