Алгоритмы Alibaba и Microsoft лучше человека справились с тестом на понимание
Стэнфордский тест на понимание текста состоит из сотни тысяч вопросов на разные темы, сформулированным в соответствии с текстом Википедии. Чтобы ответить на вопрос, алгоритм должен уметь его сформулировать и понять, что из результатов поисковика — ответ на вопрос. Оценивается точность ответа.
Вопросы в Стэнфордском тесте примерно такие: когда умер Чингиз-хан? Какая группа чаще всех выступала на финале Суперкубка? Сколько гугенотов бежало из Франции к 1700 году? Кто построил здание шотландского парламента?
Третьего января ИИ компании Microsoft, а пятого — китайский алгоритм из Alibaba поставили новый рекорд в понимании текста, получив 82.650 и 82.440 баллов, соответственно. Средняя человеческая отметка в этом тесте — 82,3.