Smart Document Engine (ранее Smart DocumentReader)

Продукт
Название базовой системы (платформы): Hieroglyph
Разработчики: Smart Engines (Смарт Энджинс)
Дата премьеры системы: 2019/05/22
Дата последнего релиза: 2024/02/26
Отрасли: Информационные технологии
Технологии: СЭД - Системы потокового распознавания

Содержание

Smart Document Engine (ранее Smart DocumentReader) - система для автоматической классификации, распознавания и выделения реквизитов из структурированных, слабоструктурированных и неструктурированных документов: справки по форме 2-НДФЛ, бухгалтерского баланса, платежного поручения и других.

2024: Создание ИИ, способного обнаруживать поддельные доверенности

Ученые Smart Engines обучили ИИ находить следы манипуляций, осуществленных с доверенностями, судебными приказами и другими официальными документами. Об этом разработчик сообщил 26 февраля 2024 года. Теперь проверить любой документ стало так же легко, как общегражданский паспорт РФ. По прогнозам экспертов, ИИ-решение с запатентованными алгоритмами поможет снизить число мошенничеств в России с поддельными документами и выявлять следы деятельности ОПГ.

Как уточнили TAdviser представители Smart Engines, ИИ встроен в систему Smart Document Engine. При обучении ИИ команда Smart Engines использовала подход one-shot learning. Это означает, что для добавления нового шаблона документа искусственный интеллект не нужно тренировать на сотне примеров и показывать всевозможные подделки. Алгоритмам необходимо всего одно изображение (эталон) документа, а затем они сами найдут аномалии – при наличии – на других образцах. Алгоритмы и механизмы, используемые в ПО, исследователи Smart Engines уже запатентовали в РФ. Только за 2023 год компания получила 12 патентов на изобретения в области проверки подлинности документов.

Программно-аппаратный комплекс, включающий софт Smart Engines и специальный мультиспектральный сканер, решает одновременно две ключевых задачи. Система мгновенно извлекает данные из документа и проверяет его на подлинность и действительность в трех диапазонах – оптическом, ультрафиолетовом (УФ), инфракрасном (ИК). На весь процесс сканирования и проверки уходит до 10 секунд.TAdviser выпустил Карту российского рынка цифровизации строительства 25.5 т

В последние годы изготовление поддельных документов вышло на новый уровень: ОПГ делают подделки такого качества, которые человек на глаз выявить не способен. За счет мультиспектральности и последних достижений искусственного интеллекта стало возможно предотвращать широчайший спектр мошеннических атак. А число этих атак все время растет: в 2023 году количество уголовных дел, в которых фигурируют поддельные документы, перевалило за 1,5 тыс.

Встроенный ИИ проверяет оригинальность и защищенность бланка документа (защитные флуоресцентные волокна, флуоресцентные чернила, специальную полиграфическую бумагу и т.д.), выявляет механические вмешательства в сам документ (механические исправления данных, переклейки, и перепечатки и т.д.), выполняя тем самым обязательные требования со стороны регуляторов.

Помимо доверенностей, разработанное решение осуществляет проверку на подлинность и других документов государственного образца размера А4: судебные приказы, акты гражданского состояния, дипломы, ПТС автомобиля и др. Системы на базе ИИ смогут использовать государственные структуры, банки, нотариусы, а также HR-службы любых компаний.

«
Число преступлений с использованием поддельных документов в последние годы неуклонно растет, причем речь не о паспортах или водительских удостоверениях, а о документах государственного образца А4. Нотариальная доверенность – это один из наиболее часто подделываемых злоумышленниками документов. Понятно, что есть специальный сервис Федеральной нотариальной палаты, с помощью которого можно узнать: существует доверенность или нет. Но информации о содержании доверенности вы там не найдете. Наш софт позволяет решить эту проблему и установить, были ли произведены какие-то манипуляции в тексте документа, – сказал генеральный директор Smart Engines, д.т.н. Владимир Арлазаров.
»

2023

Доступность на платформе Abanking

Компания Abanking заключила партнерское соглашение с разработчиком систем распознавания Smart Engines. Целью партнерства являются содействие развитию и продвижению технологий для банковской отрасли и финтеха. Об этом компания Smart Engines сообщила 31 октября 2023 года.

Клиентам Abanking, использующим платформу в своей ИТ-экосистеме, станут доступны все ключевые решения продуктовой линейки Smart Engines. Среди них флагманский продукт Smart ID Engine , Smart Code Engine и Smart Document Engine. Подробнее здесь.

Smart Document Engine 2.1.0

20 июля 2023 года AI-компания Smart Engines представила обновленную версию программных продуктов для распознавания банковских карт, QR-кодов, паспорта РФ и других удостоверяющих документов, а также для сканирования первичных, бухгалтерских и деловых документов.

Как сообщалось, в Smart Document Engine 2.1.0 скорость распознавания полнотекстовых документов выросла на 5%. Процесс сканирования справки о доходах физического лица (ранее 2-НДФЛ) на процессоре с архитектурой х86 стал быстрее в 1,4 раза.Подробнее здесь.

Smart Document Engine 2.0

23 мая 2023 года компания Smart Engines сообщила о выпуске системы обработки корпоративных документов следующего поколения. Smart Document Engine 2.0 распознает и проверяет цифровую подлинность документов, которые используют частные компании и госструктуры. Это документы первичного бухгалтерского, бухгалтерского и налогового учета, корпоративные и кадровые документы, а также типовые анкеты.

Smart Document Engine 2.0

По информации компании, Smart Document Engine 2.0 поддерживает распознавание 60 видов документов, использующихся в РФ. В обновленной версии программы доступно распознавание всех полей, товарной накладной ТОРГ-12, большинства полей ЕГРН, товарно-транспортной накладной, протокола согласования цен и других. Теперь программа считывает таблицы в акте сверки, формах КС-2, МХ-1, МХ-3, ОС4. Решение в обновленной версии распознает электронный паспорт транспортного средства (ЭПТС).

В целом Smart Document Engine 2.0 распознает 78 различных видов документов для ряда стран и государств, включая 60 документов для России, 13 документов для США, четыре – для Армении и один – для Белоруссии. Для всех распознаваемых документов в обновленной версии улучшена упаковка результатов в формат PDF/A.

«
Для нас это важная веха, обновленная система покрывает большинство потребностей в распознавании документов бухгалтерии и документооборота. Smart Document Engine 2.0 не только распознает данные, но и выявляет попытки мошенничества с корпоративными документами.

рассказал Владимир Арлазаров, генеральный директор Smart Engines кандидат технических наук
»

В Smart Document Engine 2.0 скорость детекции всех строк на полнотекстовом документе выросла в 2,5 раза. Процесс распознавания файлов стал осуществляться в 2 раза быстрее. Оптимизированы механизмы фильтрации ложных распознаваний и постобработки результатов распознавания. Искусственный интеллект автоматически осуществляет коррекцию символов в соответствии с языковой моделью.

«
Иногда OCR довольно трудно определить, присутствует в документе цифра 0 или буква "О", и она может ошибиться. Но если решение распознает поле, где должны быть только цифры, то благодаря постобработке оно автоматически выберет правильный символ. Такая возможность появилась в Smart Document Engine 2.0.

отметил Владимир Арлазаров
»

Все технологии Smart Document Engine созданы учеными Smart Engines. Это полностью российский программный продукт, он внесен в реестр российского ПО и представлен на маркетплейсе Минцифры "Руссофт".

SDK Smart Document Engine 2.0 на 102 языках доступна для встраивания через API в отечественные операционные системы, любые серверные, мобильные, десктопные и веб-приложения. Ей не требуется подключение к сторонним сервисам, внешним ресурсам и сети интернет. Все вычисления выполняются на центральном процессоре устройства. Персональные данные остаются под контролем клиента.

Технологиям Smart Engines доверяют большинство системно образующих кредитных организаций — фирменные системы распознавания документов и QR-кодов на май 2023 года используются девятью из 13 крупнейших банков.

2022

Выпуск системы распознавания текста следующего поколения

Российская компания Smart Engines объявила 27 декабря 2022 года о выпуске системы распознавания текста следующегого поколения. Она умеет находить документ на фотографии или скане и распознавать все текстовые данные на 102 языках. Решение является частью продукта Smart Document Engine, включенного в реестр российских программ. Собственная технология распознавания символов GreenOCR, используемая во всех продуктах компании, позволяет достигать высочайшей точности даже на некачественных фотографиях. ПО предназначено для замещения продуктов ABBYY и созданных на их основе решений, предлагаемых в России, а также другого иностранного ПО в корпоративном и государственном секторе

Полнотекстовое распознавание является ключевым элементом ввода документов в системах электронного документооборота, управления бизнес-процессами, электронных архивах и RPA-системах. От скорости и точности извлечения данных напрямую зависит трудоемкость и возможная глубина автоматизации процесса обработки документов. 

Разработанная система обеспечивает технологический суверенитет, так как в продукте для распознавания и обработки изображений не используется код Open Source и иностранные программные компоненты. На смартфоне весь процесс от фотографии до текста занимает 3-4 секунды, что делает планшетный сканер ненужным. Кроме распознавания система, автоматически обрезает, разглаживает сложенные документы и улучшает его изображение превращая телефон в мгновенный сканер. В серверных решениях на 32-х ядерном HPC без применения GPU скорость полнотекстового распознавания достигает 15 страниц в секунду.

«
Ранее в подобных задачах многие компании полагались на OCR решения компании ABBYY, но в начале 2022 года после 30 лет работы в стране она неожиданно покинула РФ, исключив ряд продуктов из реестра российских программ. Это событие стало "черным лебедем" для отечественного рынка, создав существенные риски при реализации проектов цифровой трансформации. В декабре 2022 года компания представила последний недостающий элемент и теперь в России есть все необходимые бизнесу технологии для распознавания документов,
сообщил генеральный директор Smart Engines кандидат технических наук Владимир Арлазаров.
»

Разработчикам и заказчикам технология распознавания текстовых документов доступна для встраивания в серверные, мобильные, десктопные и веб-приложения в составе программного продукта Smart Document Engine. Система функционирует без подключения к сторонним сервисам и внешним ресурсам, не требует GPU. Для распознавания не нужно наличие сети Интернет, все вычисления выполняются на центральном процессоре устройства и не требуют использования видеокарт.

Кроме привычных языков, базирующихся на кириллических и латинских алфавитах, распознает арабский, армянский, греческий, грузинский, иврит, китайский, корейский и японский. Smart Document Engine поддерживает ALT Linux, Astra Linux, Ред ОС и другие ОС семейства Linux, Windows, macOS, iOS, Android, ОС Аврора.

ИИ для мобильного и потокового ввода первичных документов

2 июня 2022 года компания Smart Engines выпустила систему распознавания первичной бухгалтерской и финансовой документации на мобильных телефонах с качеством, которое ранее было доступно только с использованием систем ручной верификации. Продукт Smart Document Engine позволяет добавить автоматический ввод сложноструктурированных документов в мобильные приложения заменяя полноценный центр ввода. Характеристики продукта позволяют реализовать концепцию мобильного бэкофиса, когда сотрудники сканируют и вводят данные первичных документов при помощи смартфона или планшета решая бизнес задачи в режиме реального времени. 

Снимки экрана смартфона с распознанным многостраничным счетом-фактурой

По информации компании, обновленная версия "из коробки" автоматически классифицирует и распознает счета-фактуры, ТОРГ-12, УПД, товарно-транспортные накладные, акты и счета на оплату. Оцифровка документов со Smart Document Engine обеспечивает ввод информации из документов и форм в ERP-систему или любую другую учетную информационную систему с возможностью проверки комплектности и кросс-верификации данных в рамках одного комплекта. Теперь, распознавание первичного документа на современном телефоне в мобильном приложении в зависимости от его типа и сложности занимает 1-3 секунды на страницу.  В серверном режиме на 32-х ядерном HPC без применения GPU скорость распознавания Smart Document Engine при потоковом сканировании в традиционных центрах ввода может достигать 600 страниц в минуту.

«
Мы разрабатываем алгоритмы распознавания исключительно на базе собственного стека ИИ-технологий для обучения сверхлегких нейронных сетей. Применяя их, мы смогли достичь того, что даже мобильный телефон способен распознавать в режиме реального времени поток до 30 страниц в минуту. Теперь сотрудники могут выполнять сканирование и извлечение данных мобильным телефоном не только в единых центрах ввода, куда централизованно поступают на обработку бумажные документы, но и непосредственно при приеме документов от контрагентов.

рассказал Владимир Арлазаров, кандидат технических наук, генеральный директор Smart Engines
»

Smart Document Engine поддерживает распознавание данных на сканах и фотографиях не только в мобильных приложениях, но и может использоваться для замены серверных систем распознавания первичных документов, реализованных на базе отозванных из Реестра или разработанных ушедшими из России компаниями программ. Провести миграцию с них на Smart Document Engine в этом случае разработчики могут с помощью удобного SDK, не меняя логики работы текущей системы ввода. 

Smart Document Engine включена в Реестр российского ПО и может работать на ОС семейства Linux (включая отечественные дистрибутивы), Windows, iOS, Android, ОС Аврора и Эльбрус. Система не содержит динамически подгружаемых компонент других разработчиков, а для распознавания символов в системе применяется своя фирменная технология распознавания печатного текста GreenOCR. В процессе распознавания в Smart Document Engine для ввода данных не используются верификаторы из сторонних сервисов коллективной работы или краудсорсинговых платформ. 

Поставка Smart Document Engine для интеграции возможности распознавания первичных документов в инфраструктуру и приложения клиентов включает автономный SDK, документацию к API распознавания документов и примеры интеграции для C, C++, C#, Java, Python, PHP, Objective C и Swift. Протестировать распознавание первичных документов можно установив бесплатное демонстрационное приложение Smart Document Engine, доступное в App Store или Google Play.

Выход версии 1.10.0 с улучшенной скоростью идентификации и распознавания документов

Компания Smart Engines - представитель российского рынка систем автоматического распознавания документов 15 марта 2022 года сообщила о выходе релиза версии 1.10.0 для всей линейки своих продуктов.

Среди ключевых обновлений стоит отметить:

  • повышена точность распознавания текстовых полей на основе латиницы и кириллицы;
  • улучшена скорость идентификации и распознавания документов;
  • добавлены типы документов.

Smart Document Engine создан на базе собственного движка OCR, который раньше обеспечивал высокую точность в распознавании паспорта РФ, что гарантирует четкость при автоматическом распознавании деловых документов и форм.

Технология распознавания Smart Engines - собственная разработка российских ученых компании и не содержит внешних компонентов, а все продукты компании входят в Реестр российского программного обеспечения, поддерживают отечественные вычислительные платформы и не требуют GPU.

Программные решения Smart Engines выполняют распознавание документов в режиме реального времени непосредственно на устройстве ввода (пользователя или в контуре клиента, без передачи данных в сторонние сервисы) и не требуют сетевого соединения, наличия графических процессоров или мощных вычислительных ресурсов на стороне заказчика, а использование собственной OCR и алгоритмов ИИ гарантируют высокую точность и скорость распознавания данных.

Решения Smart Engines доступны для интеграции в мобильные, десктопные и серверные приложения, работают автономно, обеспечивая безопасность обработки персональных и чувствительных данных и поддерживают наравне с Windows, Linux, iOS, Android все ключевые российские операционные системы: Astra Linux, Альт Линукс, РЕД ОС, Эльбрус ОС, мобильную ОС Аврора и др.

Про ключевые изменения в продуктах Smart Code Engine и Smart ID Engine читайте здесь и здесь соответственно.

2021

Совместимость с «Ред ОС»

Российский разработчик «РЕД СОФТ» и научно-исследовательская компания Smart Engines подтвердили корректность совместной работы операционной системы РЕД ОС и систем распознавания документов Smart ID Engine, Smart Code Engine, Smart Document Engine. Об этом 11 августа 2021 года сообщила компания «Ред Софт». Подробнее здесь.

Представление технологии распознавания в браузере

21 июня 2021 года компания Smart Engines представила промышленные технологии распознавания документов в браузере, не предполагающие пересылку исходных, промежуточных или справочных данных с клиентского устройства. Данное решение подходит для персональных устройств, объектов интернета вещей (IoT) и позволяет минимизировать риск утечки изображений с паспортными данными клиентов через Интернет. Исследователи компании решили сложную научно-техническую задачу разработки алгоритмов ИИ режима реального времени для полноценного распознавания в браузере и предложили альтернативу сервисам распознавания для пользователей, разработчиков и бизнеса.

Используя программные продукты Smart Engines, пользователи могут быстро извлекать данные и заполнять онлайн-формы, а изображения их документов не будут покидать периметра браузера, установленного на их устройстве. Разработчики получили инструмент, который позволяет без создания специальных приложений внедрить распознавание документов на окружающих человека гаджетах, включая умные IoT-устройства. Для бизнеса распознавание в браузере паспортов, других документов, банковских карт и баркодов означает развитие дистанционных каналов обслуживания клиентов на принципах омниканальности без угроз приватности и безопасности.

Браузер является наиболее универсальным интерфейсом взаимодействия человека и устройства, подключенного к сети Интернет. Работа программы в браузере — это возможность предоставить клиентам единые стандарты обслуживания, независимо от того, с каким устройством работает пользователь и какая программная среда на этом устройстве используется. С помощью технологий Smart Engines функциональность распознавания данных паспорта РФ, водительских прав, СНИЛС, банковской карты, 2-НДФЛ, бухгалтерской отчетности или QR-кода стала доступна в веб-приложениях для мобильных телефонов, планшетов, ноутбуков, настольных компьютеров, а также телевизоров, умных часов, устройств в системе умного дома и любых других умных устройств, оснащенных камерой и браузером.

Надежная и быстрая работа алгоритмов распознавания в браузере достигнута за счет применения фирменной технологии GreenOCR, в основе которой лежат результаты научных разработок исследователей Smart Engines в области малобитных архитектур нейронных сетей. Использование специализированных алгоритмов компьютерного зрения и оригинальных целочисленных 8- и 4-битных моделей вычислений нейросетевых архитектур для исполнения, а также проведенная инженерами компании глубокая алгоритмическая и программная оптимизация позволили обеспечить высокую скорость распознавания в браузере.

Для извлечения данных пользователи могут делать фотографии или распознавать документ в видеопотоке, вызывая камеру устройства на веб-странице. Технически для распознавания с помощью технологий Smart Engines на устройстве пользователя должен быть установлен любой поддерживающий технологию WebAssembly веб-браузер и камера с разрешением не менее 640х480. WebAssembly позволяет запускать код программы прямо на веб-странице и выполнять все вычисления в браузере, пользуясь при этом низкоуровневыми оптимизационными возможностями платформы, на которой он запущен.

«
В 2015 году мы представили решение для безопасного распознавания паспорта РФ в мобильных приложениях в режиме реального времени, которое не отправляло изображения в сервисы и работало на телефоне или планшете пользователя. Теперь мы открываем очередную главу в распознавании документов в сети Интернет.

Разработанные нами алгоритмы ИИ позволяют в реальном времени безопасно распознавать паспорт РФ и другие документы в веб-приложениях. Как и в случае с мобильными приложениями, наши продукты полностью автономны, работают прямо в браузере пользователя и не передают изображения на обработку в сервисы, построенные на базе машинного обучения и/или использующие ручной ввод верификаторов. С точки зрения бизнеса распознавание данных в браузере — это не только вопрос заботы о сохранности клиентских данных, но и возможность снизить затраты на разработку кросс-платформенных приложений на пути к построению клиентского сервиса, в основе которого лежит омниканальность и future-proof подход, — комментирует генеральный директор Smart Engines к.т.н. Владимир Арлазаров.

»

«
Предлагаемая нами парадигма работы с персональными и чувствительными данными в Интернете призвана не только обеспечить безопасное для потребителей взаимодействие в уже созданных веб-приложениях, но и заложить основу для появления различных цифровых каналов обслуживания и организации кросс-продаж за счет подключения мира IoT-устройств. Определенно, технологии искусственного интеллекта Smart Engines к вызовам эпохи интернета вещей полностью готовы, — комментирует технический директор Smart Engines к.ф.-м.н. Дмитрий Николаев.
»

Включение в реестр российского ПО

Программные продукты Smart Engines для распознавания банковских карт, баркодов и типовых документов внесены в реестр российского ПО. Об этом разработчик сообщил 19 марта 2021 года.

Программные продукты Smart Code Engine и Smart Document Engine включены в класс ПО, к которому относятся лингвистическое программное обеспечение и библиотеки подпрограмм (SDK).

Решения Smart Engines базируются на разработках исследователей компании в области создания энергоэффективных архитектур нейронных сетей. Их применение в процессе машинного обучения и алгоритмах распознавания позволило достичь высокой скорости и качества автоматического извлечения данных. Smart Document Engine и Smart Code Engine работают автономно и не передают изображения на обработку в сторонние сервисы или третьим лицам для ручного ввода, что позволяет компаниям обеспечить безопасность обработки персональных и чувствительных данных клиентов в своих приложениях и системах.

Инструментарий Smart Document Engine и Smart Code Engine обеспечивает многоплатформенность и позволяет разработчикам встраивать распознавание документов, банковских карт и баркодов в программах написанных для операционных систем: iOS, Android, Sailfish Mobile, МОС «Аврора», Linux, Windows, macOS, ОС Эльбрус, РЕД ОС, Astra Linux, ОС Атликс, ОС Альт Линукс и др. Поддерживаются аппаратные архитектуры «Эльбрус», SPARC, MIPS, ARM и x86.

Включение Smart Document Engine и Smart Code Engine в реестр отечественного ПО подтверждает их соответствие установленным правилам и требованиям российского законодательства.

2020

Smart Document Engine: Автоизвлечение данных из типовых документов, форм строгой отчетности

18 ноября 2020 года компания Smart Engines представила следующее поколение систем распознавания паспортов, других удостоверений личности, банковских карт, баркодов и документов с возможностью аутентификации и биометрической верификации. Компания стала единым поставщиком технологий для извлечения данных, аутентификации документов с проверкой «живости» (document liveness detection) и признаков компрометации (computational document forensics), распознавания лиц (face matching) для верификации пользователей. Все продукты данной линейки: Smart ID Engine, Smart Code Engine и Smart Document Engine разработаны в соответствии с принципами ответственного ИИ и призваны вывести защиту пользователей и бизнеса от мошеннических действий с документами. Подробнее здесь.

По информации компании, Smart Document Engine решает задачи автоматического извлечения данных из типовых форм документов, форм строгой отчетности, первичных бухгалтерских, финансовых, налоговых, юридических, нотариальных и других документов, используемых в документообороте, различных тестов и опросников, на сканах и фотографиях. Система позволяет автоматически обрабатывать одно- и многостраничные документы с фиксированным положением реквизитов, документы с плавающим расположением блоков и реквизитов, неструктурированные текстовые документы и блоки, таблицы, надписи или даже отдельные строки и метки.

Программный продукт позволяет не только быстро распознавать данные из анкет, форм и документов, но и проверять их на соблюдение формальностей. Smart Document Engine может проверить, есть ли подпись, печать или логотип, правильного ли они цвета, находятся ли они в нужном месте документа, и проверить, что надписи, которые должны быть сделаны от руки, действительно рукописные. Кроме того, в процессе обработки возможна проверка целостности и неизменности бланка, документа или его части. За счет применения технологии GreenOCR второго поколения время обработки 1 страницы документа А4 на AMD Ryzen 7 3700X составляет порядка 2 секунд.

В коробочном варианте поставки Smart Document Engine поддерживает распознавание справки по форме 2-НДФЛ, формы бухгалтерского баланса (ОКУД 0710001), отчет о финансовых результатах (ОКУД 0710002), свидетельства ИНН и платежное поручение (ОКУД 0401060).

Внедрение в модуль Базис.Документы

3 марта 2020 года Smart Engines сообщил, что Центр финансовых технологий «Базис» (ЦФТ «Базис»), представляющий комплексные цифровые решения в сфере ипотечного кредитования, запустил сервис автоматизации ввода данных справок по форме 2-НДФЛ. Решение позволяет значительно снизить риски ошибочного ввода данных и в 2,5 раза ускорить обработку клиентских документов.

За автоматическую часть сервиса отвечает технология Smart DocumentReader, разработанная компанией Smart Engines, а процесс верификации и типизации документов основан на собственном решении ЦФТ «БАЗИС» - Базис.Документы. Подробнее здесь.

2019: Представление Smart DocumentReader

22 мая 2019 года Smart Engines представила систему Smart DocumentReader, способную распознавать сложные документы с таблицами на фотографиях и сканах даже на мобильных устройствах, не перегревая их. Данная технология реализована на базе ИИ-платформы Hieroglyph, разработанной специалистами Smart Engines. Первым документом, доступным для распознавания в Smart DocumentReader, стала справка по форме 2-НДФЛ.

Теперь банки и финтех могут предложить клиентам иной пользовательский опыт при вводе данных из 2-НДФЛ в мобильных приложениях и интернет сервисах. Для этого достаточно сфотографировать документ или выбрать/загрузить уже имеющееся фото. С точки зрения программной архитектуры данная функциональность дополняет возможности продукта компании Smart IDReader в части распознавания паспорта РФ и других удостоверяющих документов при роботизации кредитного конвейера в финансовых организациях. Информация из 2-НДФЛ используется для оценки заемщиков при оформлении ипотеки и других финансовых продуктов, а также в сервисах оформления комплекта документов для получения налоговых вычетов.

Smart DocumentReader позволяет настроить распознавание данных на любых сложноструктурированных документах. Их отличием от «одинаковых на просвет» документов является отсутствие регламентов, определяющих не только состав реквизитов, но и их точное расположение на форме документа. В общем случае это могут быть одностраничные и многостраничные документы, в том числе с табличной частью, размером до А4 включительно. Наиболее распространенными такими документами являются: Счет, Счет-Фактура, Акт, ТТН, ТОРГ12, УПД, Устав, Договор, Инвойс, Анкета, Заявления и другие.

Smart DocumentReader позволяет извлекать на справке 2-НДФЛ от нескольких десятков до сотен атрибутов, включая все данные табличной части, даже когда она размещается на 2-ух страницах. Используемые алгоритмы вычислительно эффективной зрительной памяти позволяют исправлять проективные искажения и добиваться высокого качества распознавания даже на фотографиях, сделанных пользователями при различном освещении. В случае встраивания библиотеки в мобильное приложение распознавать документы можно в реальном времени, выполняя все вычисления автономно на мобильном устройстве без передачи данных на обработку во внешние сервисы.

Вся алгоритмическая база Smart DocumentReader, начиная от методов предпроцессинга изображений и заканчивая оптическим распознаванием символа (OCR), является собственной разработкой Smart Engines. Для решения задач детекции, классификации и распознавания документов применяются сверхлегкие глубокие целочисленные нейронные сети. Для оптимизации быстродействия нейронных сетей на уровне платформы HIEROGLYPH используется целочисленная арифметика. Вычисление ответа глубоких нейронных сверточных сетей в 8-битном тракте и реализованные программно-аппаратные оптимизации позволяют избежать перегрева при распознавании 2-НДФЛ даже на мобильных телефонах среднего ценового сегмента.

Владимир Арлазаров прокомментировал выпуск решения:

«
Распознавание таких документов со сложной структурой как справка 2-НДФЛ, счет-фактура или счет на оплату в технологическом плане отличается как от распознавания произвольных текстов, так и от распознавания документов с жесткой структурой. Из существенных особенностей можно выделить использование механизма особых текстовых точек, состоящих из результатов распознавания знакомест с привязкой к координатам. Оценка взаимного расположения двух особых текстовых точек является ключевой научной задачей, решенной нами в Smart DocumentReader с помощью инструментов ИИ.
Владимир Арлазаров, генеральный директор Smart Engines к.т.н.
»

Smart DocumentReader является многоплатформенным решением и представляет собой инструментарий для разработчика, с помощью которого в мобильные, серверные и десктопные приложения можно встроить алгоритмы распознавания сложных документов. Технология поддерживает аппаратные платформы «Эльбрус», «КОМДИВ», SPARC, MIPS, ARM, x86 и совместима с операционными системами Sailfish Mobile OS RUS («Аврора»), iOS, Android, «Эльбрус», Linux, Windows, macOS, Solaris.

На май 2019 года функциональность распознавания справки 2-НДФЛ на базе Smart DocumentReader доступна для тестирования только клиентам компании, использующим технологию распознавания удостоверяющих документов Smart IDReader или технологию распознавания банковских карт Smart CardReader.





Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год