Как заставить ИИ понимать человека: проверка сочинений вместо ядерного апокалипсиса
Юрий Чехович, исполнительный директор компании Антиплагиат, не верит, что компьютер сможет начать мыслить. Он рассказал, почему скепсис по отношению к т.н. «мыслительным возможностям» вычислительных систем не помешал его компании принять участие в конкурсе Up Great ПРО//ЧТЕНИЕ, в котором победившая система должна понимать и оценивать текст сочинения ЕГЭ не хуже специалиста в данной области.
Конкурс Up Great ПРО//чтение: проверить за 60 секунд
С чего начать создание универсального искусственного интеллекта? С общения, конечно! Если он все умеет, то в первую очередь должен понять нашу естественную речь и ответить не в виде ноликов и единиц, а в понятной нам форме. Организаторы конкурса Up Great ПРО//чтение формализовали эту задачу — победитель должен создать программу, умеющую выявлять фактические и смысловые ошибки в академических эссе за 30 секунд не хуже, чем специалист. Конкурс продлится до 2022 года, а наградами станут по 100 млн рублей (!) за создание вышеуказанных систем для работы с текстами на русском и английском языках.
Организовавшая конкурс Российская венчурная компания (РВК) признает, что столь заметная сумма вызвана сложностью задачи — на данный момент в мире не известно ни одного решения, и фактически участникам приходится проводить научное исследование. Для поощрения участников могут быть выданы менее значительные денежные призы за решение промежуточных задач.
От теста Тьюринга к прочтению текстов
Юрий Чехович рассказал, что основным мотивом участия в конкурсе были вовсе не деньги. «Мы хотели показать возможности технологий, применяемых в системе "Антиплагиат". Часто ее воспринимают как карательную, но на самом деле в нее заложен исследовательский потенциал, который позволит создавать автоматических помощников для написания текста человеком».
Что касается, конкурсного задания, то Чехович сравнивает его с современным тестом Тьюринга: «Задача участников конкурса — сделать алгоритм, который наилучшим образом будет моделировать деятельность преподавателя. Фактически мы проходим специфический тест Тьюринга – в идеальном случае сторонний наблюдатель не отличит результат работы машины от результата учителя».
Тест Тьюринга был придуман в 1950-х годах, ученый считал его стандартом на «понимание» человека компьютером. Фактически он сводится к «чату» судей с испытуемыми и машинами. При этом члены жюри не знают, кто с ними общается, если в 30% случаев они принимают машину за человека, тест считается пройденным. В своем классическом виде он был пройден в 2014 году, программу создали выходцы из России.
Но наше восприятие меняется. В 50-е годы и игра компьютера в шахматы на уровне чемпиона мира считалась невозможной. В конце 20 века эта задача была решена, а в начале 21 века началось бурное развитие искусственного интеллекта во многих других направлениях. Вычислительные мощности настолько подешевели, что стало возможным создавать многослойные нейросети и применять к ним глубокое обучение. В результате компьютерные системы смогли превзойти человека в распознавании изображения, настольных и компьютерных играх.
Упростилось и обучение ИИ — в систему загружались примеры, а она училась на их базе создавать что-то новое. Например, на базе алгоритмов обработки естественных языков GPT-3 удалось научить компьютеры писать сочинения, сравнимые с творением школьника. В таких условиях сделать чат, в котором машина ведет себя похоже на человека, стало уже решаемой задачей. Тем более что разработчики шли на всякие хитрости: машина пускалась шутить или возмущалась, когда алгоритмы не могли дать четкого ответа.
Настала пора взойти на новую ступень — не просто проанализировать текст, но и дать понятные замечания по обнаруженным ошибкам. Чего удалось достичь и почему учителям все еще приходиться проверять школьные сочинения?
Как ЕГЭ помог искусственному интеллекту
«Школа — естественное расширение нашего формата», — считает Чехович. Он добавляет, что там пока нет большой необходимости в системе «Антиплагиат», зато нужна обработка текстов. И для нее подходят уже применяемые в компании алгоритмы. Разумная работа с естественными языками — давняя мечта человечества, исполнение которой приблизилось с внедрением глубокого обучения. Для обучения в программу загружаются эссе, в которых ошибки уже отмечены специалистами. Сейчас организаторами размечено около 2400 эссе на русском и английском языках.
Обучившись даже на такой скромной обучающей выборке, ИИ показывает неплохой результат. Юрий показывает пример эссе по «Войне и миру» — большая часть замечаний как будто написана учителем. И только парочка невразумительных комментариев выдают программу. Например, фразу «Вернувшись обновленным в Лысые горы ... князь Андрей теряет жену» искусственный интеллект помечает как ошибку. И даже уточняет, что Андрей приехал туда вместе с женой. Однако здесь есть доля вины разработчиков, которые не учли тот факт, что однотипных событий вида «князь Андрей приезжает в Лысые горы» может быть несколько и алгоритму стоило бы продолжить проверку фактуры по тексту.
Юрий Чехович объясняет, что повысить качество проверки эссе можно, увеличив обучающую выборку в сотни и тысячи раз. Сейчас это главное препятствие на пути повышения качества. Но выборка должна быть стандартизирована, чтобы обучение прошло эффективно. Здесь идеально подошли бы оцифрованные сочинения и рефераты по истории для ЕГЭ, а также результаты их проверки в том же цифровом формате.
«Сейчас благодаря ЕГЭ появилась формализация, ведь каждый год российские школьники создают сотни тысяч текстов, отвечающих достаточно четким требованиям. И их конечно проверяют преподаватели, есть набор правил, которые должны отслеживаться», — объясняет Юрий Чехович. По его оценкам, оцифровка миллионов работ для ЕГЭ и результатов их проверки может дать принципиальный скачок в развитии алгоритмов. Пока, правда, такого количества оцифрованных сочинений, результаты проверки которых тоже оцифрованы, еще нет. В то же время образование все больше переходит в цифровую среду — очередные подвижки в этом направлении произошли в пандемию. Возможно, именно она подтолкнет к тому, что сочинения будут набираться на клавиатуре и проверяться с компьютеров.
При этом Чехович добавляет, что есть много моментов, которые не дают перейти полностью на компьютерную проверку результатов. Детям важно писать ручкой, чтобы развивать мелкую моторику. Есть и чисто технологические моменты: «Я против проверки текста и вынесения окончательного решения исключительно по результатам работы системы. В этом случае система возносится до вершительницы судеб. У ученика обязательно должно быть право потребовать комментарий от "живого" преподавателя. Есть масса ситуаций, в которых алгоритм может ошибиться, например, ошибка в базе данных или рассмотрение случая, на котором алгоритм еще не обучался. Окончательное решение в спорных ситуациях всегда должен принимать человек».
Как проверить сочинение
Чехович считает, что пока создана скорее альфа-версия будущей программы для проверки эссе. Но пока недостаточно просто загрузить обучающую выборку сочинений в нейросеть, чтобы она сумела проверять новые. Нужно фактически создать модель знаний проверяющего: загрузить в базу произведения по литературе, истории, обществознанию и другим предметам. При этом нельзя все сделать каким-то одним алгоритмом, тем же GPT-3, чтобы проверить все и дать пояснение к правке. Например, для вылавливания повторов однокоренных слов достаточно статистических методов. А вот для оценки стиля и фактологии уже нужны алгоритмы машинного обучения (входят в технологию искусственного интеллекта).
В разработанной системе каждое сочинение обрабатывается композицией алгоритмов, то есть для поиска каждого типа ошибок используется свой по-особому настроенный алгоритм. В конце результаты работы всех алгоритмов сводятся воедино. Как говорилось выше, для проверки сочинений подходят принципы, которые применяются в работе системы «Антиплагиат». Там тоже повторы обнаруживаются статистическими алгоритмами, а вот переводной плагиат отлавливается уже с помощью технологий машинного обучения (также включены в понятие искусственный интеллект). В результате «пришлось перетасовать блоки», что-то перенастроить, но в целом хороший результат проверки во многом обязан опыту, полученному на проверке сотен миллионов текстов на заимствования.
Пока система проверки эссе не очень уверенно себя чувствует в человеческих моментах. Не улавливает сарказм фраз вида «ну да, конечно», приемы усиления в текстах «как говорил Пушкин, как говорил Толстой», контекст сообщений: «Дантес убил Пушкина. В его честь был назван музей». Но и живой читатель вряд ли поймет, про кого эта фраза — кто вам сказал, что музея имени Дантеса не может существовать?
Чехович считает, что во многих случаях искусственный интеллект поступит таким же образом, как преподаватели, которые готовили обучающую выборку: допускать ли выражения гипербатоном (а-ля речь Йоды из «Звездных войн), считать ли ошибкой фразы "пароход обогнал теплоход", если происходящее ясно из контекста, и т.п. Здесь мы опять возвращаемся к тому, что надо увеличивать обучающую выборку, чтобы в ней было отражено как можно больше потенциальных ситуаций разбора.
Скорее всего, системы, созданные в рамках конкурса, будут внедрятся в начале в формате мелких пилотных проектов. Полномасштабная инфраструктура, необходимая для использования большим количеством учителей и школьников — это отдельная, не входящая в конкурс задача. Цель конкурса — перевести невозможную сегодня задачу в разряд технически сложных, но вполне реальных. Мы надеемся, что частные компании из числа участников конкурса выведут на рынок разные продукты, возможно конкурирующие друг с другом. Отмечу, что аналогичных продуктов нет пока нигде в мире, поэтому до повсеместного внедрения пройдет как минимум несколько лет. Если посмотреть на существующие рыночные продукты, такие как сервис grammarly.com, то они решают существенно более простые задачи — выявляют речевые ошибки и бедную лексику. Тем не менее, неслучайно результаты ПРО//ЧТЕНИЯ для английского языка заметно лучше русскоязычных; большая часть разработок по компьютерной лингвистике в мире делается именно для английского языка, поэтому стартовая база, с которой решается конкурсная задача участниками заметно выше. Тем не менее, думаю, что к концу 2022 года и для русского языка результаты будут очень хорошими, вполне достасточными для того, чтобы реально экономить время учителям и школьникам. – отмечает Юрий Молодых. Директор по развитию Технологических конкурсов UpGreat.
При этом созданную программу можно будет масштабировать. Например, можно увеличивать фактологическую базу. Сейчас сочинения не нужно сравнивать между собой, но это вполне реализуемо. Если понадобится, можно подключить агрегаторы новостей, чтобы проверять фактологию на соответствие современным реалиям. Что должно получиться на выходе?
Светлое будущее и неразумный ИИ
Чехович считает, что преподаватели и дальше будут проверять сочинения, но системы, подобные разрабатываемым в Up Great ПРО//чтение, станут помощниками и учителям, и ученикам. Просто представьте себе, что уже существующий продукт «Антиплагиат» сравнивает сочинение ученика с идеальным. Усовершенствование этого подхода создаст системы помощи, которые будут тренировать учеников не совершать ошибок. Подобные программы уже есть Китае.
Образование — огромный рынок, но его не сравнить с потенциальными оборотами бизнес-компаний. Их сотрудники постоянно обмениваются письмами. Уже есть программы, подсказывающие, как улучшить стиль письма на английском языке. А ведь можно проверять на ходу фактуру, менять стиль в зависимости от цели письма и адресата, создавать аналоги для русского и других языков.
Хотя машины умеют уже писать тексты на естественном языке, Чехович не верит, что они полностью заменят писателей: «Автор часто сам не знает, как развернутся дальше события». И вот эти развороты и неожиданные изменения и создают интригу в рассказе, которую ценит читатель. Или не ценит, если посчитал события неубедительными. Поэтому машина может помочь, но не заменить писателя. С другой стороны, есть жанры, в которых создание коммерчески успешных «машинных» писателей более вероятно. Это жанры с относительно узкой темой и относительно жесткой структурой. К таким, например, относится бульварное чтиво.
А вот в написание компьютерных программ искусственным интеллектом Чехович не верит. Самое сложное — это еще до написания кода сформулировать заказчику свои пожелания в виде четкого ТЗ — вспомните мем с качелями. При этом заказчик все равно может понять ТЗ как-то по-своему, затем задача может исказиться при написании разработчиками, а что-то может и вовсе оказаться невозможным. Поэтому и неизбежен итерационный процесс, в котором менеджер общается с заказчиком и программистами, добиваясь соответствия изначальной задумки конечному результату.
Не верит Чехович и в то, что искусственный интеллект «понимает» человека: «Считаю, что так говорить неправильно. Работают алгоритмы, которые закладывают и настраивают разработчики. Эти алгоритмы могут быть достаточно сложными, их результаты не очевидными, но они все равно остаются алгоритмами». В качестве примера он приводит поиск в «Яндексе»: если по запросу «пластиковые окна» выдаются варианты товара и предложения по ремонту, не значит, что поисковик «понял», что происходит ремонт — «это только алгоритм».
А значит, можно научить компьютер чему угодно, но всегда надо ставить задачу. Зато и в возможность ядерный апокалипсиса «по инициативе» искусственного интеллекта (как это было в фильмах о «Терминаторах») Чехович не допускает: сначала нужно, чтобы такую задачу поставил человек. А если вспомнить, что в реальности компьютерные программы пишутся с ошибками, то сначала программу надо будет отладить, несколько раз запустить ракеты, оценить результаты, поправить ошибки — «А кто позволит это сделать?», — улыбается Чехович.
Возможно, немного грустно, что герой этой статьи не допускает мысли о сознании искусственного интеллекта в привычном нам понимании. Зато он обещает, что мы стоим на пороге новых разработок, которые сделают искусственный интеллект помощником человека во многих повседневных задачах, и для его применения не надо будет изучать программирование. Достаточно будет сформулировать правильный запрос, и ИИ его выполнит. Или отметит допущенные ошибки.
Материал подготовила Мария Кристал