Патент недели: нейронная сеть устранит бумажную волокиту

С помощью нового алгоритма российских программистов можно значительно повысить качество и скорость обработки цифровых документов, создавая массивы информации — библиотеки, базы данных.
Патент недели: нейронная сеть устранит бумажную волокиту

При непосредственном участии Федеральной службы по интеллектуальной собственности («Роспатента») мы решили ввести на сайте рубрику «Патент недели». Еженедельно в России патентуются десятки интересных изобретений и усовершенствований — почему бы не рассказывать о них в числе первых.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Авторы: Cтанислав Семенов

Развитие электронного документооборота, перевод бумажных носителей в цифровые форматы — тренд последних лет, который только ускорился на фоне пандемии. В цифровые форматы переводятся не только документы последнего времени, но и многочисленные архивные документы. Каждый из документов содержит стандартные поля с информацией определённого вида.

Как правило, набор постоянных полей или разделов, которые заполняются подателями документов, имеют одинаковую структуру, определяемую набором правил. Например, адрес или название продукта. Или классы МПК/МКТУ в заявках, которые отправляются в Роспатент. Соответственно, автор документа заполняет их, используя предсказуемый набор символов и их порядок. Для адреса, в частности, это индекс из шести цифровых символов, типичные сокращения «г.», «ул.», «б-р», «наб.», «кв.» или «оф.» и тому подобное.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

На этих алгоритмах «пользовательского поведения» и построена новая разработка известной во всем мире российской компании ABBYY. Способ, который защищен патентом, основан на использовании при обработке текстов документов обучающихся нейронных сетей, иными словами — искусственного интеллекта. Распознавая документы, нейронная сеть изучает характерные способы заполнения одинаковых полей в документах.

Затем обученная нейронная сеть используется при проведении автоматического анализа цифрового документа, например, сравнения его с другим или вычленения из него нужной информации. Благодаря этому снижается вероятность ошибок при анализе неструктурированного текста цифрового документа, а также растет число возможностей по структурированию информации внутри больших массивов, что расширяет арсенал возможных аналитических построений или статистики.