ИИ превзошел человека в распознавании речи
Следить за человеческой речью и успевать быстро ее расшифровать — одна из самых сложных задач для искусственного интеллекта. В процессе разговора люди могут прерываться, исправляться, заполнять время между словами и фразами различными звуками. Все это мешает понимать смысл сказанного не только программам, но и людям.
Теперь ученые из Технологическгого института Карлсруэ создали программу, которая способна точно распознавать большую часть сказанных человеком фраз. Программу уже испытали на практике, позволив ей переводить университетские лекции с немецкого или английского на языки, на которых говорят иностранные студенты.
Согласно ученым, если человек распознает речь живого собеседника, он в среднем допускает примерно 5,5% ошибок за разговор. Для разработанного исследователями алгоритма этот показатель составляет около 5,0%. Ранее проблемой программы была довольно сильная задержка в обработке звука, однако в новой версии ученые смогли снизить этот показатель всего до одной секунды. На сегодня это самая низкая задержка для программ распознавания речи.
«Быстрое и точное распознавание человеческой речи является важным шагом для компьютерной обработки живого языка. Это позволит нам улучшить коммуникацию между людьми и искусственным интеллектом, сделать голосовой перевод более точным и обеспечить лучшее взаимодействие между людьми и машинами», — говорит один из авторов работы Алекс Вайбел, профессор информатики Технологического института Карлсруэ.