Извлечение значимой информации из отсканированных чертежей

Краткое описание задачи

Техническая документация, такая как чертежи, как правило представляется в виде отсканированных изображений бумажных документов. Такие документы обычно сканируются в формате изображения и не содержат “вложенной” информации.

Извлечение значимых данных, таких как наименование, номер детали, номер версии чертежа и т.д., является важной задачей для автоматизации поиска, равно как и поиск по комментариям, таблицам и материалам!

Пример использования

Для извлечения информации из чертежа использовались различные методы. Одним из решений является полнотекстовое распознавание всех символов на документе (OCR).

Этот подход позволяет частично решить задачу полнотекстового поиска. Однако результатом такой обработки является все еще не структурированный документ.

Классификация данных OCR

EasyData практикует более комплексный подход к распознаванию чертежей.
Мы значительно улучшили качество и повысили количество извлекаемой из чертежа информации.
После распознавания чертежи обрабатываются с помощью наших методов искусственного интеллекта (AI). Это позволяет не только распознавать чертежи с высокой точностью, но и извлекать ключевые данные из документа, а также дает возможность, при необходимости, представить их в цифровом виде для структуризации вашего электронного архива.

Машинное обучение

Для разработки этих алгоритмов специалисты EasyData обработали и классифицировали миллионы чертежей и «сообщили» нейронной сети, какие значения важны для извлечения данных.

Наши клиенты довольны результатами работы нашей сети. Так как наши алгоритмы позволяют значительно ускорить обработку документов за счет уменьшения числа ошибок классификации и распознавания, что, как следствие, приводит к уменьшению ручного труда. При этом искусственный интеллект постоянно совершенствуется на каждом проекте, что позволяет решать все более сложные задачи.

Практическое использование

EasyData может относительно быстро реализовать индивидуальный проект. Скорость реализации проекта зависит от сложности и количества примеров, которые можно использовать для обучения.

Наши алгоритмы, которые применяются для понимания и распознавания чертежей, работают на стыке областей компьютерного зрения и машинного обучения. Оператор классифицирует документ и показывает системе, какие данные его интересует. Как итог, наша система обучается и автоматически находит эти данные на новых документах.

Не менее важно качественное распознавание текста. Распознанный текст может использоваться для работы алгоритма классификации, который позволяет определить к какой специфической области/детали следует отнести данный чертеж. С помощью наших технологий даже возможно преобразовать рукописный текст в читаемый!

Качество распознавания документов, скорость, с которой мы адаптируем наши алгоритмы под ваши задачи, а также спектр решаемых нами проблем делают нас уникальными специалистами в своей области.