ИИ будет петь голосами

прочитано

Автор Серафима Бабичева

редактор

Автор Екатерина Тиме

выпускающий редактор ProКачество

Беседовали с Валентином Марченко

руководителем проекта «Нейрокаст» студии «Кириллица»

#инновации #эффективность бизнеса #интервью #кейс

В поисках маркетинговых инструментов, которые все еще цепляют аудиторию, бизнес все чаще обращается к аудио- и видеоформату. Кол-центры, службы поддержки, голосовые помощники уже разговаривают с нами синтезированными голосами. Как еще бизнес может использовать технологию синтеза речи, откуда эти голоса берутся и как оценивается качество записей – обсудили с руководителем проекта «Нейрокаст» студии «Кириллица» Валентином Марченко.

2 14/05/2024

Валентин Марченко

руководитель проекта «Нейрокаст» студии «Кириллица»

ProКачество: Как появилась идея вашего продукта «Нейрокаст»? Кто сейчас ваш основной заказчик?

Валентин Марченко: Студия «Кириллица» – одна из крупнейших студий дубляжа в постсоветском пространстве. В настоящее время мы выходим и на зарубежные рынки. За пятнадцать лет на рынке всегда имели дело с так называемым игровым контентом. Это сериалы, фильмы, мультфильмы, игры, документальное кино.

Несколько лет назад мы поняли, что потребность локализации не ограничивается этими типами контента: качественно переводить на иностранные языки можно не только фильмы и сериалы. Есть еще большой пласт контента, с которым мало кто работает, – образовательные ролики различного рода.

Например, курсы, корпоративные образовательные ролики, как внутренние, так и внешние, то есть видео:

по безопасности на производственных площадках;
как использовать продукт для внутренних сотрудников;
как использовать продукт для внешних пользователей – как один из маркетинговых каналов.

Существует множество маркетинговых продуктовых, видео, которые снимают небольшие студии, и нужно их протестировать перед запуском на рынок, будет ли реакция и спрос. Такие заказчики нечасто осмеливаются делать локализацию, потому что это дорого, долго и прочее. Идете в студию локализации, вам считают: нужно пять голосов, они стоят условно пять миллионов, работа займет три месяца...

Устремились в эту нишу: она огромна и пока никем не занята, а мы эксперты в области звука, ИИ развивается. Начали пробовать синтез речи. В порядке теста сделали несколько голосов, дали послушать знакомым звукорежиссерам, попросили оценить: звучит – не звучит, подробностей не уточняли. Те отвечают: актеры уставшие, звучит странновато, но в целом пойдет, нормально. Мы продолжили прорабатывать это направление, и в итоге нам удалось очень серьезно сократить затраты на производство, озвучку и локализацию определенного типа контента. Сегодня мы работаем с блогерами, с производителями документального контента, с корпорациями, делаем для них как озвучку, так и локализацию. Это основное наше рутинное направление.

А вот с точки зрения развития этого инструмента и что нам кажется очень важным – мы работаем с аудиодескрипцией – это озвучание контента для слабовидящих людей, когда голосом описывается происходящее на экране, чтобы они понимали, о чем собственно идет повествование. В России с этим тоже очень немного кто работает. Есть фонды, с одним из них мы взаимодействуем. Наше видение, что технология синтеза речи может сделать качественную аудиодескрипцию более доступной и более перспективной для производителей контента.

ProКачество: Технологически как работает нейросинтез?

Валентин Марченко: В настоящее время у нас есть два предложения, с которыми мы идем в рынок.

Первое – это то, с чего мы начинали, так называемый human in the loop, то есть «человек в процессе». Этих людей мы называем дизайнерами синтеза. Мы верим, что синтез речи как технология может оптимизировать, автоматизировать большую часть работы озвучки для определенного типа контента. При этом добиться полностью человеческого звучания, пока по крайней мере, с нынешним уровнем развития технологии, не так-то просто. Поэтому и нужен этот специалист, который находится на рубеже нескольких индустрий: звукорежиссура, знание языка, понимание, как работают модели синтеза речи. Этот человек берет текст, видео, синтезирует – это то, что называется английским термином cherry picking, а мы называем «франкенштейнинг». То есть он берет, например, фразу на десять секунд, десять раз ее синтезирует, склеивает разные куски, вставляет несколько строчек кода в эту фразу из десяти слов – в общем, работает с ней для того, чтобы добиться более четкого произношения.

Например, слово «молоко». Условно вбиваем в программу это слово, и синтезированный голос говорит: «мо-ло-ко». Но так же не говорит никто! Надо же, чтобы было «малако». Дизайнер синтеза сидит и придумывает, как ему сделать так, чтобы слово «молоко» звучало как «малако», а не «мо-ло-ко». Это достаточно кропотливый процесс, но тем не менее все равно это быстрей и дешевле, чем загонять актера в студию и с ним 50 раз все переписывать.

Мы надеемся, что когда-нибудь этот термин human in the loop станет стандартом индустрии.

У нас есть еще второй подход, полностью автоматизированный. Он как раз подходит для наших B2C-клиентов: когда достаточно просто закинуть видео или ссылку на это видео, указать нужный язык, и дальше машинный перевод, озвучка, сведение. Все происходит автоматически. Да, бывают ошибки, могут быть неточности, голос звучит не так круто. Но вот тем не менее это быстро, дешево и сердито, в лучших традициях быстрой проверки гипотез.

И эта технология состоит из нескольких этапов, в каждом из которых собственный технологический «прикол». Компания «Кириллица» намеревается развивать эти направления дальше и углублять автоматизацию всех процессов. Достаточно трудоемкие процессы сведения и тем более разведения звука и голоса. Например, видео, на котором играет музыка, взрывы гремят, птички поют, что-то еще происходит. И на этом фоне говорит человек. Для того чтобы правильно вытащить голос, оставить закадровые звуки все и поставить перевод, нужно развести звук. Это одна из частей нашей технологии, которую мы тоже планируем дальше развивать. И так с каждым технологическим этапом в нашей цепочке.

ProКачество: Как бизнес использует ваш продукт? Какой может быть экономический эффект?

Валентин Марченко: Профессиональное использование технологии синтеза речи обойдется бизнесу сильно дешевле. В среднем процентов на 30%, может и до 70% доходить. Плюс к этому все процессы, связанные с озвучанием, переводом, ускорятся процентов на 60.

Кейс. Крупная международная компания переводила образовательные видео «Как использовать продукт» с помощью субтитров. Продукт сложный, на видео – то, как им необходимо пользоваться. Если человек не знает английский в достаточной степени, он вынужден читать субтитры. А на картинке в этот момент что-то происходит. Замеряли усвояемость материала, какой процент зрителей досматривает это видео и успешно проходит тест. Оказалось, чуть ли не один процент доходимости. Даже тестовый заход с нашими возможностями показал, что процент досмотра видео до конца, прохождения тестов и, как следствие, более полного погружения в продукт вырос почти на 20%. Это достаточно серьезный результат, если мы говорим о миллионах пользователей.

Другой пример: делаем клиенту видео о безопасности на производственной площадке. Производство находится в разных частях света, и далеко не все работники этих производств «голубые воротнички», не все разговаривают на английском языке. Мы перевели их видео на нужные языки, результат пока не замеряли, но очевидно, когда человек смотрит видео на своем языке, он с большей долей вероятности поймет, что надо делать, чтобы не оторвало руку. И это тоже на самом деле экономический эффект для компании: ведь если ему оторвет руку, он пойдет судиться, выиграет дело по производственной травме, компании придется платить компенсации.

ProКачество: Какие еще есть возможности использования синтезированной речи?

Валентин Марченко: Создание брендовых голосов, создание голосов для технической озвучки. Например, все знают голос «Алисы», понимают, что это голос «Яндекса». Брендовые голоса используют кол-центры, службы поддержки, голосовые помощники.

Создается это следующим образом. Договариваемся с актером, который готов, чтобы его голос представлял определенную компанию. В студии по специально заготовленным и размеченным текстам записываем 50-60 часов голоса актера. В работе участвуют специалисты, например, голос-коуч, который правит речь в процессе при необходимости. Записанный голос вычищается и синхронизируется с текстом. Дальше две эти сущности – записанный голос и синхронизированный с ним текст, размеченный особым образом, – отдаются в машину, модель. Она, очень грубо говоря, слушает запись, смотрит на текст и фактически учится говорить, соединяя образы и фонемы, воспроизводя их. Мы получаем готовую запись и отдаем клиенту для дальнейшей работы.

Отдельной строкой – озвучание корпоративных видео для презентации компании, например, на международных выставках. Частый запрос: озвучить презентацию на языке той страны, куда едет компания. Это тоже дает бонусы для самого бренда, потому что видеоконтент сейчас очень востребованный, люди отвыкают читать.

ProКачество: А по каким критериям вы оцениваете качество готового продукта?

Валентин Марченко: Ответ на этот вопрос очень сложно формализовать. Например, мы исследуем спектрограмму синтезированного голоса: насколько она совпадает с такой же репликой реального голоса. В компании есть система и группа отслеживания всего контента. Все, что выходит из студии, проходит контроль качества. На каждом этапе, от прямой работы с актерами дубляжа до непосредственно синтеза речи, мы все контролируем с помощью отдела технического контроля. Редактура, оценка режиссуры, пометки, брак записи, посторонние звуки, недопроизнесенные слова – если специалист что-то услышал, он отправляет продукт на доработку.

Наша работа творческая, безусловно, но в ней много технических составляющих. Мы 15 лет на рынке в качестве «Кириллицы» и еще столько же работаем со звуком, со звуковым контентом. И в том числе доверяем собственному профессионализму. Мы знаем, как должен звучать хороший голос.

ProКачество: Какие сейчас наиболее востребованные языки и локализации?

Валентин Марченко: Есть два процесса: локализация – то, что производится на русском языке, и глобализация – другие языки. Непосредственно с синтезом речи мы работаем с 35 языками. А с живой озвучкой – почти со всеми, которые существуют. По крайней мере у нас есть возможность найти практически любой язык, если он понадобится. Понадобится кхмерский, мы, значит, найдем актера на кхмерском.

На локализацию идет очень много проектов с корейского, турецкого, в целом азиатских языков. По глобализации – английский по-прежнему остается основным. Не так давно делали несколько проектов на корейском, арабском, китайском. Европейские языки до сих пор востребованы. Особенно если дело касается YouTube.

Бывают необычные заказы, например, не через нейросинтез, но был заказ сделать озвучку на арабском языке с испанским акцентом. Благодаря широкой сетке контактов находим и таких актеров дубляжа.

Пример по нейросинтезу: сейчас есть в работе голос один на амхарском языке, это государственный язык Эфиопии, или еще – голос из Средней Азии на каракалпакском языке, на котором говорят 600 тысяч человек. Мы в итоге нашли диктора на радио, который работает на этом языке, и записали его. Искать было нелегко, выйти на комьюнити, найти человека, объяснить нашу задачу...

ProКачество: Как думаете, возможно ли, что ИИ в будущем уже будет генерировать голоса без участия человека, как лица сейчас? Заменит ли синтезированная речь работу живых актеров?

Валентин Марченко: Теоретически это возможно, но опять-таки с использованием корректировки: например, берем пять голосов реальных, смешиваем, корректируем. Получается абсолютно новый синтезированный. Полностью синтезировать голоса, наверное, будет возможно когда-то. Не берусь оценить…

При этом ИИ все же не сам креативит, а анализирует огромные базы данных, которые есть.

Уверен, что это синтез речи автоматизирует, оптимизирует, сделает все дешевле, быстрее и прочее, но убежден также, что профессия актера озвучания никогда не умрет, по крайней мере в ближайшей, вероятно даже, среднесрочной перспективе. Это не та профессия, которую можно полностью автоматизировать. Потому что есть человеческие эмоции. У актера есть свои эмоции, умение работать голосом. В конце концов, он потратил 20 лет на то, чтобы этот голос совершенствовать и с этим голосом работать. Поэтому его автоматизировать не удастся. Но часть задач, которые связаны с этим голосом, автоматизировать можно: те же продуктовые видео, короткие ролики, небольшие документалки, которые не требуют актерской игры.

Кейс. Наде нравится озвучивать Марго Робби и фильмы про Барби. Это круто, там требуется актерское мастерство. Наде не очень нравится озвучивать документалки, ей скучно, но приходится, так как это приносит деньги. С технологией синтеза речи и той площадкой, которую мы готовим, Надя может сделать пять-десять моделей голосов: одна используется, чтобы озвучивать документалки, вторая – для того, чтобы озвучивать маркетинговые видео, третья – для того, чтобы озвучивать образовательные видео, а сама Надя продолжит озвучивать Марго Робби, получая деньги за все направления.

ProКачество: Какие перспективы вы видите для развития в будущем продукта?

Валентин Марченко: Голоса, которые мы – и другие студии – используем, это не просто голоса, взятые откуда-то, они принадлежат реальным людям. И одно из направлений, которые мы считаем важным развивать, – дать возможность этим людям монетизировать собственный голос. Хотим сделать так, чтобы Надя, которая приходит к нам и записывает свой голос, могла нам доверять. И чтобы она за каждую минуту, которую мы с помощью ее голоса озвучиваем, получала роялти.

Мы считаем действительно важным создать систему, площадку голосов, за использование которых актеры озвучания будут получать роялти и иметь возможность отслеживать, где их голоса используют.

Была ли статья полезна? Да Нет

распечатать статью