19-10-2023
Клонирование голоса (англ. voice changing, voice cloning) — это технология, реализующая изменение голоса человека, производимая с помощью программно-аппаратных средств, в режиме как реального времени, так и в отложенном пакетном режиме.
Технология позволяет моделировать персональные характеристики речи человека с достаточно полным совпадением с оригиналом, называемым «мишенью копирования».
Содержание |
В настоящее время сравнительно хорошо развиты системы распознавания речи. Они используются в голосовом управлении различными бытовыми приборами (в телефонах, автомобильных аудиосистемах, и заканчивая стиральными машинами). Обратный процесс, извлечение слов из аудио сигнала и синтез речи встречает ряд трудностей.
Программы считаются принадлежащими категории «Voice Changing Software», или «Voice changer»:
Также SDK пакеты:
Ранее, некоторые компании (http://clonevoice.com, http://voice-change.foxcom.su, англ. voice change) предлагали на коммерческой основе услугу изменения голоса абонента по телефону в режиме реального времени. Производилось это следующим образом:
Описание технологии
Технология клонирования речи в условиях телефонного разговора в режиме реального времени базируется[1] [2, 4]. При этом используются методы DFT анализа частот в дискретном сигнале (методом специального преобразования Фурье), полученном оцифровкой аналогового телефонного сигнала с применением узкополосного речевого кодека G.729[2] [5, 6, 7, 8]. Синтез измененной речи на основе сигнал-носителя, то есть получившийся «клонированный голос» реализует возможность максимального сохранения персональных акустических характеристик копируемого исходного голоса: фонетических особенностей произношения, акцента и даже артефактов такого рода, как заикание[3] [9]. Таким образом идентифицировать искусственность говорящего невозможно даже при специальной обработке и математическом анализе исходного телефонного сигнала. Незаконное использование технологии клонирования речи строго исключается в соответствии со специальной программой защиты он-лайн сервиса, предоставляющего данную услугу. Описываемая технология клонирования голоса в телефонных сетях являлась, по утверждению создателей, новейшим продуктом, не имевшим аналогов ранее.
на известных алгоритмах математической обработки сигнала-носителя голосаПредшествующий уровень
Существующие сейчас системы создания машинной речи хорошо зарекомендовали себя в определенных технических нишах: в навигационных системах автомобилей, наручных часах, электронных «читающих» словарях-переводчиках и так далее. В подобных системах не ставится задача подражания голосу конкретного человека, поэтому получаемая машинная речь также не является персонифицированной, и легко узнается по причине своего ярко выраженного искусственного происхождения.
Ранее попытки синтезировать речь конкретного человека базировались на принципе создания «ядра» речевого клона, который содержит полный набор акустических, фонетических и просодических признаков — индивидуальных особенностей речи. Для этого требовалось наличие довольно подробной персонифицированной базы данных «копируемого» голоса. Человеку, голос которого требовалось скопировать, необходимо было прочитать длинный подготовленный текст, специально разработанный и содержащий в себе большое количество фонем, для максимального выявления особенностей речи говорящего.
Это представляло определенные трудности, так как известно, что обычный человек утомляется даже после 15-ти минут непрерывного чтения, а после 20 минут чтения его голос может и вовсе сорваться. Даже для профессионального диктора 45 минут непрерывного чтения с сохранением всего комплекса индивидуальных характеристик речи — довольно трудная задача. Требования к качеству записи голоса также предъявлялись весьма высокие — требовалось исключение различного рода шумов, способных помешать моделированию. Полученная таким образом персонифицированная запись исходного голоса подвергалась частотному анализу и математической обработке, причем вычислительный процесс часто занимал не одни сутки. После этого индивидуальная база данных голоса конкретного человека могла использоваться синтезатором речи. Естественно, длительность процесса кодирования и главное — необходимость записи эталонной речи в условиях студии существенно сужало спектр применения системы копирования речи в обычных условиях.
В настоящее время наиболее ярким примером коммерческого применения инновационной технологии клонирования речи может являться игровая индустрия. Звоня абоненту и общаясь с ним голосом другого лица (например, вашего общего знакомого) вы можете разыграть его, или выяснить его мнение о вас самих. Дети получат возможность слушать сказки, которые изначально были озвучены профессиональными дикторами, но переозвученные родительским голосом. Следует отметить, что подобная технология открывает простор для широкого спектра злоупотреблений, попадающих под различные статьи уголовного кодекса.
Клонирование голоса.