Краденый голос: почему дикторы бунтуют против нейросетей

26.10.2023, 10:00

Видео программы «Чудо техники»

Профессиональные дикторы скоро могут остаться без работы, так как ее воруют нейросети. Современные технологии позволяют довольно легко взять и сымитировать даже чей-то конкретный голос. Его обладателю, естественно, никто не заплатит. Серьезна ли проблема? Что реально происходит на рынке озвучки?

Для профессиональной актрисы озвучания и дубляжа Алёны Андроновой голос — визитная карточка. Потерять его — это лишиться работы. Но Алёна даже не подозревала, какой неожиданный поворот может приготовить ей судьба.

Алёна Андронова, актриса озвучания и дубляжа: «В какой-то момент ко мне подошел мой друг и сказал, что слышал мой голос в рекламе „18+“, и спросил, я ли озвучивала? Нет! А он говорит: это точно твой голос, это твои интонации, твой тембр. Я говорю: быть такого не может».

Оказалось, что может. Пока Алёна выясняла, что произошло, реклама сомнительного содержания уже разлетелась по Сети, чат для анонимных знакомств предлагал испытать визуальное наслаждение прямо сейчас. Оказалось, конструктор с голосом за более чем скромные 820 рублей (в расчете на 400 страниц какого угодно текста) продается на сайте банка, с которым Алёна действительно сотрудничала — записывала фрагменты для создания будущего виртуального помощника. Этот помощник так и не появился, зато наплодилось много другого, на что актриса сама бы никогда не согласилась.

Банк теперь ссылается на договор, подписанный с Алёной, согласно которому она передала права на свои записи, а как их использовать — уже дело компании. Адвокаты актрисы теперь оспаривают это в суде и требуют компенсации морального ущерба в размере почти 6 миллионов рублей.

Актриса создала петицию о защите голосов от воровства и мошенничества. К этому воззванию уже присоединились более 24 тысяч человек. Союз дикторов просит Госдуму разработать законы о синтезе голоса искусственным интеллектом. Под этим письмом поставил свою подпись и диктор с 25-летним стажем Александр Шаронов.

Александр Шаронов, диктор, бренд-войс телеканала: «Участилась, во-первых, кража голосов, несанкционированное использование, потом это влияет все-таки на культуру речи, потому что все эти движки голосовые сделаны фактически не то чтобы на коленке, но они сделаны непрофессионалами».

Чтобы диктора было приятно слушать, он всю жизнь тренирует свой голос и учится управлять тембром, дикцией, интонациями. Конечно, никому не хочется потерять годы, а то и десятилетия ежедневной работы, потраченные на оттачивание своего фирменного звука. Между тем украсть голос могут не только у дикторов и актеров, записи которых доступны в Сети благодаря фильмам и аудиокнигам.

Появились случаи мошенничества с использованием нейросетей. Одному топ-менеджеру из Гонконга позвонил человек, похожий по голосу на его директора, и велел провести сделку на 35 миллионов долларов. Тот, не сомневаясь, все выполнил, но деньги ушли на счета мошенников, а голос звонившего оказался поддельным. Полиция до сих пор расследует дело.

В Сети есть истории родителей, которым звонили якобы их дети с криком о помощи и просьбой срочно отправить деньги. Как же удается клонировать речь человека? Для начала надо собрать исходные данные — записи голоса. Например, когда компания создает цифрового секретаря, то диктору или актеру выдают тексты с разными эмоциями. В специальной программе звуки сопоставляют с буквами, как в караоке, и отдают материал нейросети.

Программисты учат компьютер правильно расставлять эмоции — для него это всплески на спектрограмме. Результат оттачивают до тех пор, пока он не станет более-менее естественным. Программы, с помощью которых это можно сделать, есть и в открытом доступе. Мы все в зоне риска. После случившегося актриса Алёна Андронова, например, ввела новые правила в общении с близкими.

Алёна Андронова: «Мы с родителями уже обсудили, у нас есть кодовые слова на случай, если я позвоню и скажу, что попала в беду, попрошу денег. Надо будет его назвать, чтобы они точно понимали, что это я. Так как мой голос легко синтезировать, найти и использовать, это однозначно важно».

Многие еще боятся, что злоумышленники могут записать из телефонных разговоров слова «да» или «нет» и потом используют, чтобы украсть деньги при звонке в банк. На самом деле так не бывает, для проведения операций всегда запрашивается и другая информация. Банки создают все более новую защиту от голосового мошенничества.

В Петербурге компания — разработчик продуктов на основе разговорного искусственного интеллекта сейчас совершенствует такую технологию. Специальную программу учат отличать, звонит ли сам человек или звучит его записанная речь либо синтезированный голос. Чтобы протестировать систему, попробовали проверить и угадать: это действительно был голос или результат работы компьютера?

Олег Петров, директор научно-исследовательского департамента компании-разработчика продуктов и решений на основе разговорного искусственного интеллекта: «Система вас идентифицировала, на графике антиспуфинга видно, что это был живой разговор. Все верно».

Можно усложнить задачу и попросить разработчиков включить аудиофайл, не сказав, что на записи. Определит ли искусственный интеллект?

Олег Петров: «Голос успешно идентифицирован как голос. Но график показывает, что это похоже на попытку атаки, есть подозрение, что это синтез».

Правильно, это был аудиоклон. Для теста его сделал ИТ-специалист, который раньше подобным не промышлял и разобрался с бесплатной программой специально для съемок, заплатив только за сервер и облачное хранилище около 3000 рублей. Нейросеть обучалась на студийных записях, причем она делала все сама. Понадобилось всего около недели, чтобы добиться схожести без ярких роботизированных ноток. Это впечатляет.

Хорошо, что синтезирование речи применяется не только во зло, но и во благо. Например, с помощью этой технологии возвращают голоса после травм или болезней. Парализованная после инсульта американка Энн Джонсон смогла заговорить спустя 18 лет. Ей в голову установили нейроимплант, который распознает сигналы мозга и переводит их в слова, а озвучивает желаемое виртуальный аватар.

Исследователи из Калифорнийского университета использовали записи речи Энн с ее свадьбы и, взяв их за основу, клонировали голос. Немногочисленных записей (всего 4 минуты) хватило, чтобы в рекламе одного российского банка заговорил на современный лад Жорж Милославский из фильма «Иван Васильевич меняет профессию». Это стоило дорого. А если вложить не так много усилий, то результат окажется скорее комичным, как синтезированная нейросетями цифровая ведущая прогноза погоды Снежана Туманова на одном из ставропольских телеканалов.

Получится ли с помощью доступных программ превратить одного человека в другого? Перевоплотить решили Олесю Массальскую в ее коллегу Елену Образцову, которая регулярно читает своей дочке Ксюше сказки перед сном. Удастся ли искусственному интеллекту подделать голос мамы? Обнаружит ли ребенок подмену? Установили в спальне камеры и попросили Лену, не уходя из комнаты, включить аудио, якобы записанное ею. Чуткий слух ребенка обмануть не удалось, но и сказки — не самый простой материал. Их читают с выражением, а искусственному интеллекту пока сложно как следует передать эмоции человека. В этом убедились во время эксперимента с клонированием речи харизматичного диктора Александра Шаронова. Он легко узнал, где его натуральный голос, а где синтезированный.

Александр Шаронов: «Нет, вы сами все слышите? Это выбьет из профессии начинающих и не шибко профессиональных».

Спасение, как всегда, в личности. Надо быть реалистами. Хотя синтез речи пока еще не может полноценно заменить всех дикторов, он уже отлично внедряется туда, где важна информация, а не подача. Объявления в аэропортах, голоса автоинформаторов, чат-ботов, даже несложные рекламные песни уже вовсю производятся искусственным интеллектом. Технологии развиваются, даря некоторым дикторам фактически цифровое бессмертие, которому, правда, не все рады, потому что платят за это далеко не всегда.

Все выпуски программы «Чудо техники».

Связанные новости

Байден поразился, как нейросеть сымитировала его голос

Читайте также