Инновационное решение позволяет автоматически распознавать и обрабатывать рукописные данные в документах разного типа.
Функция распознавания русского рукописного текста появилась в новой версии платформы для интеллектуальной обработки информации ContentCapture. Обновленный релиз своего флагманского продукта представил российский разработчик ИИ-решений Content AI.
Программа с новой функциональностью способна с высокой точностью распознавать в документах заполненные от руки поля на русском языке. Ранее ContentCapture могла распознавать только рукопечатный текст, где каждая буква прописывалась в отдельных полях заполняемой формы, например, анкеты или опроса. В новом релизе эти возможности объединены: система автоматически определяет, как написан текст, и распознает символы.
Важное технологическое новшество – способность распознавать курсив, то есть фразы, написанные без отрыва ручки от бумаги. Это одна из самых сложных задач, с которой ранее OCR-редакторы справлялись менее успешно. Кроме того, в новом выпуске существенно оптимизировано качество распознавания рукописного английского текста.
В ходе тестирования новой функциональности ContentCapture подтверждена точность распознавания данных в документах определенного типа в диапазоне 85-95%: речь идёт о паспортах и других документах, удостоверяющих личность, тестовых формах, служебных записках, подготовленных в свободном стиле.
Качество распознавания в рамках данной задачи сильно зависит от разборчивости почерка и вида документа. Во внутренних тестах мы ориентировались на лучшие образцы технологий, имеющиеся на российском рынке. По ряду сценариев распознавание русского рукописного текста в ContentCapture демонстрирует самые высокие показатели среди всех протестированных продуктов. Мы готовы индивидуально обучать и настраивать систему для более точной обработки конкретного, даже самого редкого, типа документа, если у заказчиков будет такая необходимость.
технический директор Content AI Иван Волков.
Сценарии применения технологии распознавания рукописного текста востребованы в различных сферах, в которых ведется работа с документами, заполненными от руки, например в финансовых организациях и государственных структурах. Через специалистов этих ведомств ежедневно проходят десятки и сотни документов с элементами рукописного текста – паспортов, свидетельств, анкет, заявлений. Ввод данных в информационные системы зачастую осуществляется вручную. Автоматическая обработка и распознавание не только значительно повысит скорость работы сотрудников, но и сократит количество ошибок, которые могут быть допущены при ручном переносе данных.
генеральный директор Content AI Светлана Дергачева.
В основе технологии распознавания русского рукописного текста лежат собственные разработки Content AI в области нейронных сетей. Инновационные методики впервые применены для реализации этой функциональности.
В текущем релизе распознавание русского рукописного текста доступно в версии ContentCapture для Windows. До конца года планируется выпуск кросс-платформенной версии с возможностью использования на операционных системах на базе Linux.
В числе других обновлений релиза ContentCapture – редизайн интерфейса веб-станций. Он стал более легким и современным. При этом внутренняя структура продукта не претерпела значительных изменений, поэтому уже знакомые с платформой пользователи смогут приступить к работе без необходимости повторного обучения.
ContentCapture — универсальная платформа для интеллектуальной обработки информации из любых типов документов: отсканированных бумаг, фотографий, электронных документов, текстов писем и вложений. Решение распознает, классифицирует документы, извлекает данные, проверяет их корректность и передает в корпоративные информационные системы. C ContentCapture можно ускорить и упростить любые процессы, связанные с документооборотом. Входит в реестр отечественного ПО (№17 598).