ИИ не может подделать голос — мозг распознает дипфейк

Ученые Цюрихского университета показали, что мозг человека реагирует на синтезированный голос не так, как на голос реального человека. По крайней мере две области мозга уверенно распознают дипфейк.
ИИ не может подделать голос — мозг распознает дипфейк
Unsplash
Нейросети уже давно создают портреты несуществующих людей. При этом человек не может уверенно отличить, что перед ним — фотография реального человека или изображение синтезированное нейросетью. Реакции мозга в обоих случаях идентичны. А вот с голосом все совсем не так.

Синтез голоса по прототипу, — это одна из первых возможностей, которая была реализована нейросетью. Но до сих пор, несмотря на огромный прогресс, во всех ИИ-моделях, где нужно голосовое общение, используются голоса-прототипы, принадлежащие реальным людям. Все «поющие» и «говорящие» модели используют реальные голоса. На сегодня не существует ИИ-моделей, которые настолько точно синтезируют «несуществующий» голос, что человек принимает его за реальный, особенно при многократном прослушивании. ИИ может как угодно модифицировать реальный голос, но что-то главное создать не удается.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Это эмпирическое наблюдение стало предметом исследования ученых Цюрихского университета. Он решили проверить, как наш мозг реагирует на синтезированный и реальный голоса.

Как мозг обрабатывает голос

Модели нейронной активности. Слева — активность прилежащего ядро. Справа — правая слуховая кора и левая слуховая кора. На карте помечены области активности t. Активность особенно отличается при реакции правого прилежащего ядра на естественный голос. 
Модели нейронной активности. Слева — активность прилежащего ядро. Справа — правая слуховая кора и левая слуховая кора. На карте помечены области активности t. Активность особенно отличается при реакции правого прилежащего ядра на естественный голос.
https://www.nature.com/articles/s42003-024-06372-6
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

25 добровольцам было предложено распознать является ли голос синтезированным или реальным. Они справились с задачей практически безошибочно. При этом проводилось фМРТ-сканирование мозга. Как показали измерения, при восприятии разных типов голоса активность мозга отличается.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Во-первых, иначе реагирует слуховая кора. Это означает, что существующие на сегодня методы синтеза и воспроизведения искусственного голоса не дают точной картины. В чем состоят эти отличия ученые пока сказать не могут, но слуховая кора надежно отличает синтезированный голос

Другая область мозга, которая демонстрирует различия при восприятии разных типов голоса, — это прилежащее ядро (NAcc). Эта область участвует в формировании вознаграждения и важна при обучении с подкреплением. Ученые считают, что дипфейковые голоса не вызывают чувства узнавания (и соответственно вознаграждения), которое дают естественные голоса.

Ученые пришли к выводу, что сегодня синтез реального голоса практически невозможен. Но прогресс нейросетей настолько впечатляющий, что это может стать возможным в будущем.