ivdon3@bk.ru
Аннотация: Целью данной статьи является создание модели сверточной нейронной сети идентификации и прогнозирования аудио-дипфейков путем классификации голосового контента с применением алгоритмов глубокого машинного обучения, библиотек языка программирования «python». Наборы данных аудиоконтента являются базовыми для процесса обучения нейронной сети и представлены мел-спектрограммами. Обработка графических изображений аудиосигнала в формате тепловой карты формируют базу знаний сверточной нейронной сети. Результаты визуализации мел-спектрограмм в соотношении величины измерения частоты звука и мела определяют ключевые характеристики аудиосигнала и обеспечивают процедуру сравнения между реальным голосом и искусственной речью. Современные синтезаторы речи используют комплексную подборку и ведут формирование синтетической речи на основании записи голоса человека и языковой модели. Отметим значимость мел-спектрограмм, в том числе, для моделей синтезации речи, где данный вид спектрограмм используется для записи тембра голоса и кодировки оригинальной речи говорящего. Сверточные нейронные сети позволяют автоматизировать обработку мел-спектрограмм и выполнить классификацию голосового контента: оригинальный или фейковый. Проведенные эксперименты на тестовых голосовых наборах доказали успешность обучения и применения сверточных нейронных сетей, использующих изображения мел-кепстральных коэффициентов MFCC, для классификации и исследования аудио контента, и применения данного вида нейронных сетей в области информационной безопасности для выявления аудио дипфейков.
Ключевые слова: нейронные сети, выявление голосовых дипфейков, информационная безопасность, модели синтезирования речи, глубокое машинное обучение, категориальная кросс-энтропия, функция потерь, алгоритмы выявления голосовых дипфейков, сверточные нейронные сети
2.3.5 - Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей , 2.3.6 - Методы и системы защиты информации, информационная безопасность
В статье рассмотрены математические модели по сбору и обработке голосового контента, на основании которых разработана принципиально-логическая схема системы прогнозирования синтетических голосовых дипфейков. Проведены эксперименты выбранных математических формул и наборов библиотек языка программирования python, позволяющих проводить в режиме реального времени анализ звукового контента в организации. Рассмотрены программные возможности нейронных сетей по выявлению голосовых фальшивок и сгенерированной синтетической (искусственной) речи и определены основные критерии исследования голосовых сообщений. По результатам проведенных экспериментов сформирован математический аппарат, необходимый для положительных решений задач по выявлению голосовых дипфейков. Сформирован перечень технических стандартов, рекомендованных для сбора голосовой информации и повышению качества информационной безопасности в организации.
Ключевые слова: нейронные сети, выявление голосовых дипфейков, информационная безопасность, синтетическая голосовая речь, голосовые дипфейки, технические стандарты сбора голосовой информации, алгоритмы выявления аудио дипфейков, клонирование голоса
2.3.1 - Системный анализ, управление и обработка информации , 2.3.6 - Методы и системы защиты информации, информационная безопасность