ИИ не может подделать голос — мозг распознает дипфейк
Синтез голоса по прототипу, — это одна из первых возможностей, которая была реализована нейросетью. Но до сих пор, несмотря на огромный прогресс, во всех ИИ-моделях, где нужно голосовое общение, используются голоса-прототипы, принадлежащие реальным людям. Все «поющие» и «говорящие» модели используют реальные голоса. На сегодня не существует ИИ-моделей, которые настолько точно синтезируют «несуществующий» голос, что человек принимает его за реальный, особенно при многократном прослушивании. ИИ может как угодно модифицировать реальный голос, но что-то главное создать не удается.
Это эмпирическое наблюдение стало предметом исследования ученых Цюрихского университета. Он решили проверить, как наш мозг реагирует на синтезированный и реальный голоса.
Как мозг обрабатывает голос
25 добровольцам было предложено распознать является ли голос синтезированным или реальным. Они справились с задачей практически безошибочно. При этом проводилось фМРТ-сканирование мозга. Как показали измерения, при восприятии разных типов голоса активность мозга отличается.
Во-первых, иначе реагирует слуховая кора. Это означает, что существующие на сегодня методы синтеза и воспроизведения искусственного голоса не дают точной картины. В чем состоят эти отличия ученые пока сказать не могут, но слуховая кора надежно отличает синтезированный голос
Другая область мозга, которая демонстрирует различия при восприятии разных типов голоса, — это прилежащее ядро (NAcc). Эта область участвует в формировании вознаграждения и важна при обучении с подкреплением. Ученые считают, что дипфейковые голоса не вызывают чувства узнавания (и соответственно вознаграждения), которое дают естественные голоса.
Ученые пришли к выводу, что сегодня синтез реального голоса практически невозможен. Но прогресс нейросетей настолько впечатляющий, что это может стать возможным в будущем.