2020/07/20 14:15:57

Видеоаналитика
термины, сферы применения, технологии
Video Content Analysis

Интеллектуальное видеонаблюдение

Intelligent Video Surveillance (IVS)

Видеоаналитика — технология, использующая методы компьютерного зрения для автоматизированного получения различных данных на основании анализа последовательности изображений, поступающих с видеокамер в режиме реального времени или из архивных записей. Видеоаналитика представляет собой программное обеспечение (ПО) для работы с видеоконтентом. В основе программного обеспечения лежит комплекс алгоритмов машинного зрения, позволяющих вести видеомониторинг и производить анализ данных без прямого участия человека. Алгоритмы видеоаналитики могут быть интегрированы в различные бизнес-системы, чаще всего используются в видеонаблюдении и других сферах безопасности.

Материал входит в обзор TAdviser «Видеоаналитика»
Системы видеоаналитики - Каталог систем и проектов видеоаналитики

Содержание

Определения
Типы платформ видеоаналитики
История развития
Стандарты
- 2020: В России разработан стандарт ИИ для ситуационной видеоаналитики
Функциональные возможности
Сферы использования видеоаналитики
- Системы Умного Города
- Индустриальное применение
Научные исследования в области видеоаналитики
Хроника
- 2026
  - Конец классической видеоаналитики? Почему MLLM меняет правила игры.
  - Трагические ошибки при выборе системы видеоаналитики: как видеонаблюдение маскируют под «ИИ»
Системы видеонаблюдения и аналитики
Смотрите также
Робототехника
Примечания

Определения

Видеоаналитика (VCA, Video Content Analysis) – компьютеризированная обработка и автоматический анализ видеоконтента, который поступает на видеосервер от видеокамер, носимых устройств и устройств Интернета вещей IoT, оснащённых веб-камерами.

Видеоаналитика - это технология, использующая методы компьютерного зрения для автоматизированного получения различных данных на основании анализа последовательности изображений, поступающих с видеокамер в режиме реального времени или из архивных записей.
Видеоаналитика представляет собой программное обеспечение (ПО) для работы с видеоконтентом. В основе программного обеспечения лежит комплекс алгоритмов машинного зрения, позволяющих вести видеомониторинг и производить анализ данных без прямого участия человека.
Традиционное решение, включающее в себя функции какой-либо видеоаналитики строится по схеме: камера + back-end аналитика. Т.е. камера просто гонит поток видео на сервер, а специальное ПО на сервере уж делает весь видеоанализ.

Во время видеонаблюдения в промышленности, городском и жилищном хозяйстве, а также в различных социальных медиа, генерируется огромное количество видеоданных, для которых требуется системы хранения данных (СХД) с высокой ёмкостью. Разрешающая способность видеоизображений всё время возрастает, и количество хранимого контента растёт экспоненциально. Импортозамещение ПО в России: ключевые поставщики, крупные проекты, оценки и перспективы. Обзор TAdviser 33.8 т

Видеоаналитика в последние годы набирает всё большую популярность по многим причинам. Она позволяет гибко управлять видеопотоками при анализе их контента «на лету», при автоматизации аналитических функций. Это позволяет персоналу концентрироваться на определённых инцидентах на видеозаписи, а не тратить время на просмотр длинных однообразных видеопотоков, что позволяет сократить затраты и численность персонала. Интеллектуальные системы безопасности с видеоаналитикой могут начинать запись, например, только при начале какого-то движения в зоне обзора камеры. При этом снижается нагрузка на сеть и экономится пространство в системе хранения.

При помощи систем видеоаналитики, можно получить ценную информацию о качестве работы персонала предприятия (например, продавцов-консультантов в торговом зале), таким образом, можно сделать более адекватные оценки его работы.

Системы видеоаналитики не требуют чрезмерно громоздкой инфраструктуры и даже небольшие предприятия, магазины и пр. вполне могут себе позволить её использование. Интенсивность использования функций видеоаналитики можно гибко регулировать по мере потребностей бизнеса, выбирая именно те функции, которые нужны в конкретном случае. Это позволяет создавать кастомизированные решения.

Типовая системная архитектура VCA показана на рисунке ниже.

Рис. 1- 1. Типовая системная архитектура видеоаналитики (источник: wizr.com).

Видеоаналитика автоматизирует процесс видеонаблюдения, делает его удобным в использовании и значительно сокращает затраты на мероприятия, в которых используется видеонаблюдение. Потребность в видеоаналитике растет в различных отраслях экономики, таких как финансовый сектор и услуги, розничная торговля, транспорт, добыча и транспортировка ископаемых, производство и др. К тому же, рост требований к IP-системам безопасности и их инфраструктуре, а также повышение важности безопасности в повседневной жизни, также приводит к росту рынка видеоаналитики.

Существует также термин «компьютерное зрение» («машинное зрение», техническое зрение»). Эту технологию часто путают с видеоаналитикой. Однако, они неравнозначны. Можно сказать, что видеоаналитика является составной частью компьютерного зрения в части анализа изображения.

Компьютерное зрение (Computer Vision) – это технология (а также область исследований) по автоматизации понимания того, что мы видим в окружающем мире.

Видеоаналитика (VCA, Video Content Analysis) – это частные приложения компьютерного зрения, которые извлекают информацию и знания из видеоконтента, то есть дают ответы на вопросы:

Кто: распознавание и идентификация людей;
Что: объекты, действия, события, поведение, взаимоотношения;
Где: геолокация, пространственная (3D) и планарная (2D) локация;
Когда: маркировка даты и времени, сезона.

Три основных типа приложений видеоаналитики:

Ретроспектива: что уже случилось, т.е. управление архивами видеозаписей, поиск, сортировка, получение юридических доказательств;
Настоящий момент: что происходит сейчас, т.е. контроль ситуации, получение предупреждений в реальном времени, кодирование, компрессия видеопотока;
Взгляд в будущее: что может или скорее всего произойдёт, т.е. предсказания на основе событий прошлого и настоящего, прогнозирование событий или активности, детектирование намечающихся аномалий.

Типы платформ видеоаналитики

Видеоаналитика на выделенном сервере

Например, это может быть сервер интеллектуального видеонаблюдения IVS (Intelligent Video Surveillance) и сервер автоматического распознавания номеров автомашин ALPR (Automatic License Plate Recognition). Такой сервер хорошо масштабируется при увеличении числа камер и позволяет ввод новых функции анализа видеоизображений. Видеоданные в этом случае хранятся на сервере и могут быть извлечены через удалённую программу-клиент.

Видеоаналитика на сетевом видеорекордере NVR

Сетевой видеорекордер NVR (Network Video Recorder) может обладать некоторыми встроенным функциями видеоаналитики. Однако, ввод новых аналитических функций в этом случае либо невозможен, либо сложен. Такое решение выгодно использовать если число камер невелико и функции фиксированы. Данные в этом случае хранятся на видеорекордере и могут быть извлечены через удалённую программу-клиент.

Видеоаналитика на камерах

Камеры видеонаблюдения могут также обладать встроенными функциями видеоаналитики. Преимуществом здесь является то, что такие возможности аналитики в таких камерах не зависят от полосы пропускания сети и времени отклика сервера. Такое решение выгодно там, где требуется высокая оперативность и немедленный отклик, например при слежении через купольные камеры PTZ. Видеоданные в этом случае хранятся на самих видеокамерах и могут быть извлечены через удалённую программу-клиент.

История развития

Существует легенда, что при помощи больших зеркал, установленных на верхней площадке Александрийского маяка, древние греки могли наблюдать корабли далеко в море.

Рис. 1- 2. Александрийский маяк (источник: pinterest.ru).

С появлением первых казино, их службы безопасности использовали сложные системы зеркал, чтобы вести наблюдение за игровыми комнатами. Можно сказать, что они были прототипами систем видеонаблюдения. Однако, развитие настоящих систем видеонаблюдения началось с появления иконоскопа – электронного устройства для передачи изображений.

Отцом современных видеосистем и изобретателем иконоскопа, устройства для захвата видеоизображений, считается Виктор Кузьмич Зворыкин, русский инженер, выпускник с отличием Санкт-Петербургского Технологического института 1911 года, ветеран Первой Мировой войны и офицер Белой Армии. Однако, работая в России, он успел лишь провести фундаментальные исследования в области удалённой передачи изображений, а само изобретение иконоскопа было сделано в США, куда Зворыкин эмигрировал после победы большевиков (точнее, не вернулся из очередной командировки в США, куда был послан командованием Белой армии для закупки радиостанций, не видя смысла возвращаться в Россию).

Во время научной работы в Санкт-Петербургском Технологическом институте, он вёл исследования вместе с профессором Борисом Розингом, создавшим неэлектронный вариант кинескопа, на который в то время удавалось передавать лишь самые простые изображения. Профессор Розинг умер в 30-х годах, находясь в ссылке в Архангельске, не имея возможности продолжать научные разработки.

Первой точкой телепередачи изображения стал 103-этажный небоскрёб Эмпайр Стейт Билдинг в Нью-Йорке в 1932 году. Видеосигнал с иконоскопа передавался передатчиком мощностью 2,5 кВт и был принят на кинескоп конструкции Розинга, находящийся на расстоянии 100 км в здании RCA (Radio Corporation of America).

Рис. 1- 3. В.К. Зворыкин демонстрирует первую в мире видеокамеру (источник: framemaster.tripod.com/index-2.html).

Таким образом, началом эры телевидения считается 1932 г., однако, это относится и к началу развитию систем видеонаблюдения.

Первое практическое использование т.н. «закрытой системы телевидения» CCTV (closed curcuit television), было осуществлено германским инженером Вальтером Брухом (Walter Bruch) в 1941 году в Пенемюнде, во время испытаний ракеты «Фау-2». Это первый известный в истории случай использования видеонаблюдения на практике. Оператор должен был неотлучно сидеть перед монитором, наблюдая за происходящим на стартовой площадке, т.к. видеозапись тогда ещё не была реализована. Так продолжалось до 1951 года, пока не появились первые видеомагнитофоны VTR (Video Tape Recorder).

С тех пор, системы видеонаблюдения совершенствовались практически каждые 10 лет.

Начало 1950-х годов: появление устройств, позволяющих передавать изображение на магнитной ленте;
Конец 1950 – начало 1960х: использование видеокамер для наблюдения на дорогах, важных объектах и в местах массового скопления людей;
1970-е годы: появление в продаже домашних видеомагнитофонов и видеокамер;
1990-е годы: появление цифровых видеосистем (DVR);
2000-е годы: появление сетевых систем видеонаблюдения;
2010-е годы: разработка и применение облачных видеокамер, которые могут работать без периферийного оборудования (серверов видеоаналитики, рекордеров, IP-систем) на площадке предприятия, отправляя видеоданные в облако.

Технологии продолжают развиваться, и в период 2020-2025 годов могут появиться алгоритмы и системы, которые будут способны различать объекты и даже события непосредственно в видеопотоке. Камеры будут способны распознавать нестандартные ситуации и предпринимать соответствующие действия – информировать оператора, самостоятельно вызывать спецслужбы и пр.

Стандарты

2020: В России разработан стандарт ИИ для ситуационной видеоаналитики

20 июля 2020 года стало известно о создании первого в России национального стандарта в области искусственного интеллекта для ситуационной видеоаналитики. Документ, подготовленный ООО «Видеоинтеллект» (развивает системы компьютерного зрения для использования в сложных условиях, общественных местах с большим скоплением людей, на объектах промышленности), представил технический комитет по стандартизации ТК 164 «Искусственный интеллект», созданный на базе РВК.

ГОСТ Р «Информационные технологии. Искусственный интеллект. Ситуационная видеоаналитика. Термины и определения» является первым в группе стандартов, устанавливающих нормативные требования в области ситуационной видеоаналитики. Они будут регламентировать эксплуатационные характеристики, методики испытаний и оценки качества и требования к размещению оборудования технических систем интеллектуального видеонаблюдения.

В России разработан первый национальный стандарт в области искусственного интеллекта для ситуационной видеоаналитики

Предполагается, что принятие стандарта в качестве национального позволит упорядочить нормативное регулирование в области ситуационной видеоаналитики и, в последующем, устранить технические барьеры при применении подобных «умных» информационных систем.

Современные системы видеонаблюдения немыслимы без применения интеллектуальных технологий обработки данных, позволяющих в реальном времени анализировать не только отдельные изображения, но и целые последовательности динамических событий и сцен, — говорит председатель технического комитета по стандартизации ТК 164 «Искусственный интеллект» Сергей Гарбук. — Отечественные и зарубежные разработчики предлагают целый спектр решений подобного рода. Однако отсутствие терминологического единства в этой области зачастую ставит заказчиков и интеграторов систем в сложное положение, затрудняя выбор решения, оптимального в каждом конкретном случае.

По его словам, введение стандарта, устанавливающего единые термины и определения в области ситуационной видеоаналитики будет способствовать росту эффективности применения подобных систем и, в конечном счете, – повышению заинтересованности рынка в использовании технологий искусственного интеллекта.^[1]

Функциональные возможности

На рисунке ниже показаны базовые функции видеоаналитики. На основе этих базовых функций и их комбинацией, могут быть созданы разнообразные услуги и новые функции аналитики.

Рис. 1- 4. Базовые функции видеоаналитики (источник: Intelligent Video Surveillance Solutions, advantecvh.com).

Улучшение изображений

В компьютерном зрении и в компьютерной графике применяются различные методы и алгоритмы восстановления и улучшения изображений, такие как шумоподавление (denoising) и устранение размытости (deblurring). Кроме того, используются методы повышения чёткости изображений при помощи нейросетей: т.е. «супер-разрешение» SR (Super Resolution) на базе нескольких изображений объекта, а также супер-разрешение на базе единственного изображения SISR (Single Image Super Resolution)^[2].

Детектирование движения

Детектирование движения – процесс обнаружения изменения положения объекта относительно его окружения или изменения окружения относительно объекта. При сравнении нескольких последовательных изображений сцены, система VCA может распознать начало движения какого-либо объекта внутри сцены.

Распознавание лиц

Распознавание лиц – практическое приложение теории распознавания образов, в задачу которого входит автоматическая локализация лица на неподвижном или движущемся изображении и, в случае необходимости, идентификация личности по характерным параметрам лица. Распознавание лиц людей и определение личности человека – одна из самых употребительных функций VCA, которая используется практически во всех современных системах безопасности на базе интеллектуального видеонаблюдения.

Рис. 1- 5. Определение личности человека по расстоянию между характерными точкам в iPhone 8 (источник: iguides.ru).

Распознавание бесцельного поведения (Loitering)

«Бесцельное поведение», праздношатание (Loitering) – это нахождение на одном месте или в пределах одной сцены в публичном пространстве в течение продолжительного времени без определённой цели. В ряде стран такое поведение запрещено законодательно. В любом случае, оно может косвенно свидетельствовать о противозаконных намерениях, поэтому лиц, проявляющих признаки такого поведения, бывает необходимо выявлять при видеонаблюдении. Системы VCA имеют гибко настраиваемые алгоритмы, определяющие Loitering-поведение субъектов. На рисунке ниже показан пример распознавания Loitering с отслеживанием перемещения субъекта (белая пунктирная линия).

Рис. 1- 6. Пример распознавания бесцельного поведения (источник: https://oxinsp.com).

Распознавание пропажи, либо оставленных без присмотра объектов

На рисунке выше также показан пример подозрительного объекта, оставленного без присмотра (Abandoned object). Такие объекты в системах VCA обычно выделяются рамками c соответствующим пояснением. Это может быть признаком готовящегося теракта, поэтому на основе данных видеоаналитики необходимо как можно быстрее задержать подозрительного субъекта, оставившего предмет, и выяснить, что именно он оставил в нём.

Аналогично может распознаваться пропажа (исчезновение) объекта, например, музейного экспоната. В этом случае система VCA немедленно выдаёт предупреждение тем или иным образом.

Закрытая зона

Примеры разграничения закрытых зон показаны на рисунке ниже. При проникновении людей в закрытую зону система выдаёт предупреждение, например выделяет нарушителя рамкой.

Рис. 1- 7. Примеры аналитики закрытой зоны (источник: https://slideplayer.com/slide/11409401/).

Детектирование проникновения

Детектирование проникновения – часть сервиса «Закрытая зона», пример показан на рисунке выше)

Распознавание автомобильных номеров

Автоматическое распознавание номерных знаков — это технология VCA, которая использует оптическое распознавание символов на изображениях для считывания регистрационных знаков транспортных средств для получения информации о местонахождении транспортных средств.

На рисунке ниже показан процесс распознавания номера автомобиля, состоящий трёх стадий: обнаружение номера (License Plate Detection), Обнаружение символов на номере (Character Detection) и распознавание символов (Character Recognition), при котором используются методы машинного обучения системы видеоаналитики.

Рис. 1- 8. Оптическое распознавание символов на автомобильных номерах (источник: http://www.sfu.ca/~jfa49/Files/Vehicle424.pdf).

Слежение за объектами

Слежение за объектами – вспомогательный сервис для услуги распознавания «бесцельного поведения» (Loitering), однако, он может использоваться и для иных целей. На рисунке ниже показан пример такого распознавания. Изображение посередине показывает подозрительное поведение, человека, идущего сзади. Обычно люди так («след в след») не ходят, и система видеоаналитики обучена производить распознавание такого поведения субъектов, с выдачей предупреждения о подозрительном поведении.

Рис. 1- 9. Слежение за объектами (источник: dvl.in.tum.de).

Интеграция функций

Многие функции видеоаналитики часто представляют собой интеграцию нескольких базовых функций. Например, аналитика парковки автомобилей может включать в себя следующие функции:

Проникновение в закрытую зону;
Оставление объектов без присмотра в течение определённого времени;
Распознавание движения объектов;
Распознавание номеров.

Рис. 1- 10. Аналитика парковки автотранспорта

Сферы использования видеоаналитики

Рассмотрим некоторые практические применения вышеперечисленных базовых функций видеоаналитики. Заметим, что многие более сложные функции, описанные ниже, фактически являются интеграцией базовых функций.

Системы видеоаналитики - Каталог систем и проектов видеоаналитики

Системы Умного Города

Системы Умного Города – одна из самых перспективных областей применения систем видеоаналитики. Большинство российских ведомств накопили большие массивы данных и теперь могут использовать их потенциал для повышения качества принимаемых решений. Для повышения безопасности в России реализован ряд инфраструктурных проектов, которые связаны, в первую очередь, с установкой камер видеонаблюдения. Однако данные, поступающие с камер – это только один канал данных. Качественное повышение уровня безопасности требует перехода к про-активной деятельности, позволяющей спрогнозировать преступление и заранее спланировать распределение ресурсов для его предотвращения. Это возможно при анализе исторических данных о прецедентах для построения профилей риска – условий, при которых воспроизводится то или иное событие или совершается преступление. Построение таких профилей возможно с помощью моделирования зависимости между набором характеристик, описывающих объект, и исследуемым явлением^[3].

Подсчёт людей и транспорта

Функция подсчёта людей, пересекающих заданную линию, предоставляет ценную информацию для принятия бизнес-решений, в таких сферах, как:

Торговля: информация о количестве посетителей магазинов, торговых центров, а также отдельных зон магазинов и торговых центров;
Банки: получение информации о количестве посетителей отделений;
Гостиницы и туризм: получение информации о количестве посетителей ресторанов, кинотеатров, турагентств и пр.

Обладая этой информацией, руководство предприятия может:

оценить общую эффективность работы компании;
оценить эффективность проводимых маркетинговых акций;
оценить загруженность площадей;
улучшить сервис путём регулирования рабочих графиков персонала в соответствии с данными о посещаемости.

Отдельно необходимо отметить выгоды использования системы подсчёта посетителей для арендодателей торговых площадей:

оценка популярности и прогнозирование развития торгового центра;
оценка привлекательности отдельных площадей и корректировка арендных ставок.

Системы подсчёта также могут анализировать маршруты и поведение покупателей в торговых центрах. Например, путём подсчёта покупателей в зоне наружной рекламы можно оценить её эффективность, а также можно оценивать покупательский спрос на различные виду товара.

Рис. 1- 11. Подсчёт количества людей в очереди (источник: allgovision.com).

Аналогично, для транспортных средств можно получить следующую ценную информацию:

Количество машин, проезжающих по улице за определённый промежуток времени, в зависимости от времени суток, дня недели и сезона;
Количество машин, скапливающихся у светофора и среднее время ожидания проезда перекрёстка;
Количество машин, проезжающих через КПП в закрытую зону и выезжающих из неё;
Заполняемость уличных парковок и её зависимость от времени;
А также другую информацию, необходимую для планирования развития транспортной системы города.

Функционал подсчёта количества людей и транспортных средств имеет важное значение для работы автоматизированных интеллектуальных транспортных систем (ИТС), которые могут улучшить транспортную ситуацию в городе, повысить пропускную способность дорог, оптимизировать работу светофоров и пр.

По собранной информации можно рассчитать макроскопические характеристики транспортного потока, а именно такие показатели как:

средняя скорость потока;
объем потока (количество транспортных средств в час);
плотность потока (количество транспортных средств на км);
средняя занятость полосы;
длина транспортных средств (для решения задачи классификации транспортных средств);
длина очереди перед перекрёстком;
детектирование выезда на встречную полосу.

Рис. 1- 12. Работа системы подсчёта транспортных средств и людей на перекрёстке (источник: Bosch).

Анализ видеонаблюдения ограниченной зоны и периметра

Аналитика систем видеонаблюдения для охраны закрытых зон и периметров предназначена для выявления попыток несанкционированного проникновения в закрытую зону, даже в отсутствие физического ограждения. Основные сервисы аналитики систем для охраны закрытых зон следующие:

выявление потенциальных угроз объекту в закрытой зоне;
определение вероятностей реализации потенциальных угроз;
определение уязвимых зон объекта в закрытой зоне;
обнаружение факта пересечения периметра закрытой зоны;
информирование соответствующих служб о наличии потенциальных угроз или фактов проникновения;
посылка извещений и изображений инцидента дежурному персоналу безопасности объекта, включая носимые устройства.

Типовыми задачами видеоаналитики уязвимых зон охраняемых объектов являются:

поиск, обнаружение и распознавание подозрительных предметов и людей;
выявление и распознавание изменений видеоизображений определённых зон во времени.

Для наблюдения за периметром закрытой зоны используются направленные всепогодные видеокамеры, в т.ч. с функцией инфракрасного видения, с защитой от погодных воздействий (дождь, снег, наледь, туман). Для наблюдения внутри закрытой зоны чаще всего используются купольные видеокамеры типа PTZ, с возможностью поворота объектива в нужном направлении.

Рис. 1- 13. Пример системы видеоаналитики охраны периметра и закрытой зоны (источник: https://www.globenetcorp.com/blog/axis-perimeter-defender-high-precision-sensors/).

Распознавание лиц

В настоящее время для распознавания лиц может подойти любая коммерческая камера с разрешением не менее Full-HD. Поэтому практически любой магазин, торговый центр или офис, где находятся люди, может позволить себе установить камеру для распознавания лиц, детекции очереди и других функций^[4].

Многие камеры для домашнего видеонаблюдения содержат встроенные функции распознавания лиц, что позволяет их владельцу создавать базы данных членов семьи и друзей, которые регулярно посещают его. Систему охраны дома можно настроить на открывание двери для разрешённых лиц из базы данных, а также выдачи предупреждений, при визите неизвестных или нежелательных лиц^[5]. При этом система может учитывать множество факторов: таких как наличие или отсутствие очков, макияж, и многое другое.

В распознавании лиц могут использоваться разные технологии, но основные шаги процесса, следующие^[6]:

Из фото-картинки или видеозаписи извлекается изображение лица (детекция лица). Лицо может быть как одиноким, так и находится в окружении многих лиц. Поворот головы не оказывает решающего влияния на этом шаге.
Приложение распознавания лиц считывает геометрические параметры лица: такие как расстояние между глазами, расстояние от лба до подбородка и др. Всего могут учитываться до 100 и более подобных геометрических параметров. На основе этих данных составляется цифровая сигнатура лица (facial signature).
Сигнатура лица сравнивается с другими сигнатурами из базы данных известных лиц. По данным на май 2018 г. Федеральное Бюро Расследований США (FBI) имеет доступ к 412 миллионам изображений лиц. Изображения лиц по крайней мере 117 млн. американцев имеются в различных базах данных полиции США.
Определение личности человека с достаточно высокой точностью, превышающей 90%.

Некоторые аэропорты США (Нью-Йорк, Атланта, Миннеаполис, Солт-Лейк Сити и др.) используют функцию распознавания лиц при регистрации на рейс вместо посадочного талона (с согласия пассажира)^[7].

Рис. 1- 14. Регистрация на рейс авиакомпании Delta при помощи распознавания лиц (источник: Wall Street Journal).

Подобные системы имеются в России во многих заведениях клубного типа (фитнес-клубы и пр.) с постоянной клиентурой^[8].

В маркетинге и рекламных кампаниях используется т.н. анонимное (без установления личности) распознавание лиц, поскольку для маркетинговых мероприятий очень полезной бывает информация о том, сколько времени человек смотрит на ту или иную рекламу и какое при это эмоции выражает его лицо. При этом могут использоваться следующие метрики:

Заметность (сколько людей обратили внимание на рекламу);
Демография (возраст и пол обративших внимание);
Время просмотра (сколько в среднем времени смотрят на рекламу);
Время дня (в какие часы больше всего внимания обращают на рекламу)^[9].

При этом значительно сокращаются затраты и время изучения и анализа рынка, по сравнению с ручными методами в прошлом: опросы, ручной подсчёт посетителей, и пр.

Существует много практических применений распознавания лиц при помощи видеоаналитики, ниже перечислены некоторые из них:

Безопасность в аэропортах. Департамент внутренней безопасности США (The Department of Homeland Security) использует видео-аналитику для распознавания лиц людей, входящих и выходящих из зданий аэропортов, чтобы определять тех, людей с просроченной визой или находящихся в розыске или под расследованием.
Распознавание лиц для доступа к мобильным устройствам. Компания Apple впервые использовала распознавание лиц для разблокировки смартфонов iPhone X (Face ID). По заявлению Apple, шансы неверной разблокировки составляют один на миллион, однако, СМИ сообщали о случаях разблокировки смартфонов родителей их детьми в Китае.
Контроль на экзаменах в учебных заведениях. Это является эффективным средством против попыток сдачи экзаменов подставными лицами вместо неуспевающих студентов.
Социальные веб-медиа. Facebook использует алгоритм для нахождения лиц при загрузке фото на платформу, при этом выдаётся запрос, хотите ли вы отметить друзей на фото. При утвердительном ответе на вопрос, создаётся линк на страницы отмеченных друзей. Точность распознавания лиц на Facebook составляет 98%.
Контроль на входе организаций. Некоторые компании заменяют сканеры служебных бейджиков на устройства распознавания лиц.
Религиозные сообщества. В церквях используется распознавание лиц для контроля тех, кто регулярно ходит на службы, чтобы отслеживать активность верующих, а также вносящих пожертвования.
Розничные продавцы в торговых центрах. Видеоаналитика может использоваться для распознавания подозрительных лиц, чтобы выявлять потенциальных воров.

Индустриальное применение

Производство

На производстве видеоаналитика используется для следующих основных целей:

Контроль качества продукции;
Помощь в управлении технологическими процессами;
Обеспечение безопасности работающих;
Предотвращение хищений или других злонамеренных действий.

Уже несколько десятков лет видеоаналитика («машинное зрение», «техническое зрение») используется в производственных процессах для обнаружения дефектов, загрязнений, и других отклонений в производимых изделиях. На рисунке ниже показана простейшая система видеоаналитики для сортировки изделий на конвейерной ленте.

Рис. 2- 1. Производственная линия с машинным зрением (источник: http://robodem.com).

Пример использования VCA в химическом производстве

Сервер системы VCA воспринимает сигналы предупреждения от программы видеоаналитики, которая работает со множеством видеокамер, установленных на территории предприятия химического производства^[10]. Возможные действия реакции на предупреждающие сигналы:

Управление камерами (движение, запись и пр.);
Предоставление новой видео- и аудиоинформации для операторов и персонала предприятия, например, изменение точки обзора, включение дополнительных микрофонов;
Команды для других подключённых устройств или программ через протокол HTTP
Команды через интерфейс пользователя (Windows) для запуска и настройки других устройств или ПО;
Запуск SNMP-ловушек (SNMP traps) для индикации состояние ПО мониторинга под управлением протокола SNMP;
Журналирование (Logging) предупреждающих сообщений и сохранение их в базах данных для последующего анализа.

Рис. 2- 2. Пример предупреждающего сигнала на интерфейсе оператора от платформы VCA (источник: iiot-world.com).

Использование видео для анализа событий на сложных производственных площадках часто означает многие часы напряженной работы по просмотру и классификации событий на видеозаписях с многих сотен камер. Тем не менее, при этом нет полной гарантии, что проблема будет правильно идентифицирована. Однако, применение IP-видеокамер с хорошей разрешающей способностью, инфракрасным видением и защитой от погодных условия, работающих вкупе с платформой видеоаналитики, даёт возможность адекватного анализа событий и реакции на них в реальном масштабе времени.

Растущие требования к безопасности на химическом производстве, требуют более чувствительных и точных методов видеоаналитики.

Рис. 2- 3. Пример интерфейса оператора видеонаблюдения с платформой видеоаналитики на химическом производстве (источник: iiot-world.com).

Энергетика

Энергетический сектор является одним из критически важных для обеспечения жизнедеятельности современного общества, и поэтому он должен обеспечивать надёжное и стабильное электроснабжение предприятий и жилищного хозяйства. Угрозы безопасности, непредвиденные аварии, злонамеренные действия и вандализм, воровство материалов ведут к росту затрат на электроснабжение и повышают риски отключений и тотальных аварий («блэкаутов»). Эти проблемы усугубляются тем, что многие объекты электроснабжения находятся в зоне публичной досягаемости и не всегда обеспечиваются надёжной охраной либо защитой.

Поэтому поставщики электроэнергии очень заинтересованы в качественном и эффективном видеонаблюдении за своими многочисленными распределённым объектами, а также в решениях видеоаналитики, которые позволяют значительно повысить эффективность видеонаблюдения. Особенности использования решений видеонаблюдения и аналитики в отрасли энергетики, следующие:

необходимость адаптации к суровым условиям окружающей среды;
высокая стоимость обслуживания энергетических объектов;
совместимость с существующим оборудованием;
соответствие многочисленным регуляторным требованиям отрасли.

Суровые условия среды на распределительных силовых подстанциях являются особенно проблематичными и требуют специализированных решений. Высокий уровень электромагнитных помех, широкий диапазон изменений температуры, вибрация и тряска, а также наличие коррозионных загрязнений способствуют повышению возможности деградации или выхода из строя электрооборудования.

Рис. 2- 4. Ликвидация пожара на подстанции в Доминиканской Республике (источник: https://elnuevodiario.com.do/video-se-registra-incendio-en-transformador-de-subestacion-matadero).

Системы видеоаналитики в энергетической отрасли применяются для следующих основных целей:

Обеспечение безопасности
Видеонаблюдение – основное средство предотвращения и расследование случаев воровства, несанкционированного проникновения, вандализма, терроризма и других нежелательных действий в отношении энергетических объектов. Ценные металлы, входящие в состав компонентов электрооборудования, являются желанной целью преступников. Однако, редко обслуживаемые удалённые объекты электроснабжения обычно не могут похвастаться хорошей защитой от воров. Кроме этого, такие объекты иногда подвергаются атакам террористов и обычных вандалов. Всё это может приводить к неплановым ремонтам, росту затрат на обслуживание объектов, к блэкаутам и веерным отключениям.
Поэтому, очень важной частью системы видеоаналитики для энергетических объектов является способность проактивно извещать персонал о вторжениях на их территорию, чтобы быстро направить соответствующих сотрудников для того, для предотвращения преступлений и возникновения ущерба. Видеозаписи произошедших инцидентов также помогают при расследовании преступлений.
Мониторинг оборудования
Системы VCA позволяют реализовывать ранее предупреждение об износе, деградации, грозящих неисправностях, таким образом обеспечивать эффективность и надёжность работы электросистем без привлечения дополнительного персонала. Вероятность отказов оборудования при этом существенно снижается и срок службы компонентов можно существенно увеличить, если производить превентивное обслуживание компонентов, износ которых будет выявлен при помощи VCA. При этом стоимость систем видеоаналитики и наблюдения будет составлять лишь малую часть по сравнению со стоимостью активов оборудования и его ремонта.
Автоматизация энергосистем
В системах VCA могут использоваться камеры с определением температуры компонентов оборудования подстанции. При помощи достаточно сложных алгоритмов определения аномалий, все термальные характеристики и их тренды могут быть проанализированы и, с использованием «термальных правил», могут быть автоматически запущены предупреждающие сигналы о возможных проблемах перегрева.
Интеграция видеоаналитики с системами SCADA, которые используются для управления электрооборудованием, позволяет вывести степень автоматизации на новый уровень.

Рис. 2- 5. Архитектура видеонаблюдения и VCA для контроля сетевых подстанций (источник: electricenergyonline.com).

Логистика

В транспортно-логистической отрасли наибольшее применение получили следующие функции видеоаналитики^[11]:

Рис. 2- 6. Основные функции видеоаналитики для транспортно-логистической отрасли (источник: eocortex.com).

Распознавание номеров автотранспорта

Основные функции:

Добавление номеров в черные и белые списки;
Быстрая регистрация и пропуск автотранспорта на территорию логистического центра, с записью эпизода проезда через ворота и по территории и фиксацией времени;
Загрузка данных в формате XLS или CSV.

Преимущества:

Предотвращение проезда неавторизованных транспортных средств на территорию логистического центра;
Автоматический подъём шлагбаума при въезде и выезде.

Рис. 2- 7. Распознавание номеров на пропускном пункте логистического центра (источник: eocortex.com).

Поиск и отслеживание подозрительных лиц

При выборе подозрительного персонажа на записи с камеры, платформа видеоаналитики может выполнить следующие действия:

Сделать стоп-кадр и создать видеоклип с изображениями похожих людей на записях с других камер в хронологическом порядке;
Построить траекторию движения объекта на плане помещения.

Возможен поиск объектов в видеоархиве с использованием загруженных изображений в соответствии со следующими параметрами:

Форма;
Цвет;
Размер;
Положение в кадре.

Используя функцию поиска подозрительных лиц (Suspect Search) можно реконструировать маршрут объекта в течение минуты. Это позволяет быстро найти подозреваемого и дать команду силам безопасности по задержанию нарушителя.

Рис. 2- 8. Поиск и отслеживание подозрительных лиц Suspect Search (источник: eocortex.com).

Управление камерами PTZ

Основные функции:

Поворот камер PTZ в желаемом направлении при помощи джойстика или клавиатуры;
Масштабирование изображения при помощи оптического зума;
Управление фокусировкой камеры в автоматическом или ручном режимах;
Задание сценария автоматической работы камер PTZ.

Преимущества:

Возможность замены нескольких стационарных камер одной камерой PTZ с расширением возможностей обзора;
Регистрация мельчайших деталей на изображении;
Фокусировка камеры на желаемом объекте и слежение за ним.

Рис. 2- 9. Управление камерой PTZ (источник: eocortex.com).

Трекинг объектов

Основные функции:

Установка минимального размера объекта, перемещения которого должны быть отслежены;
Получение немедленного извещения тревоги на монитор, телефон или электронную почту;
Пересечение объектом заданной линии (вторжение на территорию и пр.);
Перемещение объекта по заданной зоне;
Долгое нахождение объекта на одном месте (Loitering).

Преимущества:

От персонала не требуется внимания на мониторах 24 часа в сутки;
Охрана собственности, грузов и инфраструктуры логистического центра;
Обеспечение безопасности логистического центра и его персонала;
Предотвращение возможных террористических атак.

Рис. 2- 10. Трекинг объектов (источник: eocortex.com).

Распознавание саботажа

Функция позволяет предотвратить следующие виды саботажа:

Расфокусировка видеокамеры;
Поворот камеры в сторону от установленного для неё направления съёмки;
Длительное ослепление камеры;
Перегораживание вида камеры.

Функция обеспечивает выдачу немедленного извещения ALARM о всех перечисленных действиях на монитор, телефон или электронную почту.

Рис. 2- 11. Распознавание саботажа (источник: eocortex.com).

Распознавание лиц

Функции:

Интеграция с системой контроля доступа на КПП логистического центра или склада;
Создание баз данных «доверенных лиц» и внесённых в чёрный список;
Получение автоматических извещений ALARM на монитор, телефон или электронную почту о попытках несанкционированного проникновения;
Поиск фрагментов на зарегистрированном в архиве лице, поиск людей в видеоархиве по их фото.

Преимущества:

Не требуется иметь персонал охраны на всех контрольно-пропускных пунктах;
Автоматический допуск на территорию и в ограниченные зоны складов только авторизованного персонала и контроль проведённого ими времени в той или иной зоне;
Высокая безопасность персонала, хранимых ценностей и инфраструктуры складов.

Рис. 2- 12. Распознавание лиц на КПП склада (источник: eocortex.com).

Развёртывание изображения с панорамной камеры типа «рыбий глаз»

Возможно получение «плоского» изображения с панорамной камеры типа «рыбий глаз», которая обычно сильно искажает перспективу изображения. При этом становится возможным заменить несколько обычных камер на одну панорамную с более широким функционалом, и контролировать несколько зон при помощи одной камеры.

Рис. 2- 13. Развёртывание изображения с панорамной камеры типа «рыбий глаз» (источник: eocortex.com).

«Тепловая карта»

Функция позволяет:

отслеживать частоту перемещения персонала и транспортных средств по территории логистического центра или склада;
накладывать «тепловую карту» на изображение с камеры;
создавать «тепловую карту» помещения, склада, или всего логистического центра;
генерировать отчёты о плотности трафика внутри определённых временных интервалов.

Преимущества:

Оптимизация маршрутов перемещения персонала;
Отслеживание время, проведённого сотрудником за наблюдением необходимого продукта или устройства.

Это позволяет оптимизировать эффективность работы персонала логистического центра или склада, снизить затраты.

Рис. 2- 14. Построение «тепловой карты» (источник: eocortex.com).

Мониторинг персонала

Можно задать несколько зон мониторинга активности внутри зоны обзора одной камеры. Система отслуживает движение или отсутствие активности в зоне мониторинга в реальном времени. Если в зоне нет движения в течение заданного периода времени, автоматических извещений ALARM STAFF MEMBER ABSEND на монитор, телефон или электронную почту об отсутствии сотрудника на рабочем месте.

Это позволяет повысить эффективность работы логистического центра или склада, а также отслеживать действительно время и качество работы сотрудников, снизить риски нежелательных ситуаций, связанных с отсутствием сотрудника на рабочем месте.

Рис. 2- 15. Мониторинг персонала (источник: eocortex.com).

Банки

Видеоаналитика в банках используется прежде всего для подсчета посетителей, выдачи талонов раннее распознанным клиентам, идентификации новых клиентов, а так же для:

обеспечения безопасности в операционном зале и переговорных комнатах
обеспечения безопасности в зонах самообслуживания и банкоматах
обеспечения безопасности в рабочей зоне банковских служащих и клерков
предотвращения проникновения на территорию банка грабителей и злоумышленников
оповещения сотрудников службы безопасности о появлении мошенников из «чѐрного списка» и других нежелательных личностей
предотвращения терактов (обнаружение оставленных бесхозных предметов)
предотвращения появления и скапливания различных маргинальных личностей в зонах самообслуживания
предотвращения актов вандализма, ведущих к повреждению банкоматов

Розничная торговля

Рост объёмов розничной торговли требует постоянного расширения торговых площадей и расширения торговых точек. Кроме того, требования бизнеса заключаются в росте эффективности и снижения накладных расходов.

Для того, чтобы оценить такие важные параметры для оптимизации процесса торговли, как число посетителей, конверсия (обращение внимания на тот или иной товар), средний размер корзины, и также повысить эффективность управления персоналом, управления запасами и скорость расчётов на кассовых терминалах, видеоаналитика является одним из основных инструментов. С другой стороны, видеоаналитика помогает повысить безопасность, минимизировать число краж, и мошенничества. Анализ поведения покупателей при помощи инструментов видеоаналитики может дать ценную информацию (инсайт) для повышения удовлетворённости и роста числа покупателей.

По результатам исследований компании Einfochips, применение видеоаналитики в розничной торговле может дать следующие выгоды для торговых предприятий:^[12]

Рис. 2- 16. Преимущества для торговых предприятий при использовании видеоаналитики (источник: Seagate Video Surveillance Trends Report of 2016).

В розничной торговле используются следующие основные функции видеоаналитики:

Детекция движения

Алгоритм детекции движения распознает движение или перемещение объекта или человека в поле зрения камеры. Камера начинает запись при распознавании движения на фоне неподвижного окружения. Алгоритмы и устройства распознавания движения могут быть как очень простыми, так и довольно сложными, в зависимости от поставленной цели.

Управление очередями

Очередями к кассам можно управлять при помощи специальных алгоритмов. Например, при достижении порога длины очереди, может быть послан предупреждающий сигнал в центр управления, чтобы открыть новую кассу. Это помогает повысить не только удовлетворённость покупателей, но и посещаемость магазина.

Распознавание лиц

Алгоритм распознавания лиц сравнивает параметры лица, распознанного камерой, с параметрами лица, хранимого в базе данных. Это даёт возможность идентифицировать частых покупателей, отслеживать порядок их покупок и среднее время, проведённое в магазине. Распознавание лиц также может использоваться с целью предотвращения воровства и вандализма. Лица персонажей, совершающих противозаконные действия, также могут храниться в особой базе данных и при появлении их в магазине, может быть выдан сигнал охране, чтобы более тщательно проследить за их поведением.

Тепловая карта

Функция «Тепловая карта» может помочь отследить эффективность рекламы в торговом помещении. На карте отображается интегральная интенсивность нахождения покупателей около торговых или рекламных стендов и среднее время просмотра.

Рис. 2- 17. Пример «Тепловой карты» магазина (источник: hersheys.com).

Это помогает идентифицировать товары, ускользающие от внимания покупателей, а также принять меры по увеличения объёмов их продаж.

Интеграция POS-терминалов

Долгое время розничная торговля страдала от нежелательной деятельности сотрудников, которые покупали скидочные карты магазина (сами или через друзей) и делали неавторизованные скидки друзьям и другим покупателям. Затем, с помощью бонусов на карте, которые довольно быстро копились, они получали различные незаработанные бенефиты. Интеграция систем видеонаблюдения с POS-терминалами позволяет выявить такие подозрительные действия, например, когда кассир слишком часто проводит по терминалу скидочную карту, которая лежит у рядом с ним. Видео-доказательства с датой продажи попадают в специальную базу данных, по которой впоследствии можно провести разбор правомерности действий сотрудников магазина. Это не только позволяет быстро зафиксировать мошеннические действия, но и сразу выявить их источник.

«Зачернение» областей

Иногда в магазинах возникает необходимость поддерживать приватность для VIP-клиентов. Приватные данные, такие как номер кредитной карты, который может быть виден с видеокамеры на расчётном прилавке, также должны быть защищены. В таких ситуациях видеозапись внутри таких периметров может быть «зачернена», чтобы на запись не попадали конфиденциальные детали. Это помогает предотвратить похищение персональных данных, таких как информация кредитной карты и другие данные.

Подсчёт покупателей

Эта функция позволяет подсчитывать количество людей, входящих и выходящих из торгового помещения. В большинстве случаев трафик покупателей варьируется в зависимости от времени суток и дней недели. Подсчёт покупателей позволяет лучше понимать, когда ожидать больше клиентов и принимать соответствующие меры.

Рис. 2- 18. Пример интеграции систем видеоаналитики с системой управления торговым предприятием (источник: Einfochips).

Преимущества использования видеоаналитики в розничной торговле:

Анализ поведения покупательского поведения и его тенденций;
Оптимизация работы персонала и его состава;
Снижение общих затрат владения торговой инфраструктурой;
Проактивное обслуживание покупателей;
Предотвращение потерь.

Научные исследования в области видеоаналитики

Интеллектуальные системы видеоаналитики, которые могут извлекать ценную информацию из потока видеоконтента, получают всё большее распространение в различных областях, включая розничную торговлю, транспорт, городское хозяйство, жизненно важные инфраструктуры, предприятия и др.

С того времени, когда первая система CCTV компании Siemens была установлена на испытательном ракетодроме в Пенемюнде в нацистской Германии в 1942 году, чтобы удалённо наблюдать за запусками ракет «Фау-2», технологии видеонаблюдения и видеоаналитики достигли значительного прогресса. Однако, высокая стоимость, недостаточное качество изображения и ограниченные возможности распространения мониторинговой информации, вызвали необходимость усовершенствования технологий.

В современных системах видеоаналитики могут использоваться интеллектуальные камеры со встроенной обработкой видео или специальные аналитические программные платформы, работающие на удалённом сервере. В таких платформах всё чаще используются алгоритмы машинного обучения, чтобы облегчить интерпретацию и анализ данных во всё более увеличивающихся объёмах потоков видео-контента.

Ранее применения видеоаналитики затрагивали, в основном, области охраны и безопасности, однако, в настоящее время технологии видеоаналитики стали диверсифицироваться, включая широкий приложения бизнес-аналитики BI (business intelligence), а также ситуационного анализа (situational awareness)^[13].

В области видеоаналитики, которая совмещает аналитику данных (data science) и компьютерное зрение, активно работают множество вендоров, включая как стартапы, так и большие известные компании. Активность и конкуренция в этой области очень велики, что рождает к жизни множество инноваций в технологиях и бизнес-моделях. Однако, рынок пока относительно фрагментирован, т.е. многие решения по видеоаналитике остаются проприетарными и переход от одного вендора к другому может обходиться очень дорого, а это пока отпугивает инвесторов.

Использование нейросетей и глубокого обучения

Использование высокоточных нейросетей в видеоаналитике позволило значительно расширить функционал систем безопасности предприятий. Нейросети получили широкую известность с 2012 года. С этого времени всё больше компаний, как известных, так и начинающих, стали широко использовать технологию нейросетей для точного и достоверного распознавания изображений.

Нейросети используют такие Интернет-компании, как Microsoft, Facebook, Google, Amazon, Instagram, Яндекс и другие, например:

Яндекс предоставляет функцию распознавания марки автомобиля для портала Auto.ru;
Приложение CaptionBot компании Microsoft автоматически предлагает подпись для изображения;
Приложение WhatDog распознаёт породы собак.

Рис. 3- 1. Автоматическое распознавание содержимого на изображении в приложении CaptionBot (источник: https://www.captionbot.ai).

Для этих целей в настоящее время используются нейросети с глубоким обучением DNN (Deep Neural Network), или просто глубокие нейросети.

Глубокие нейросети используются для создания систем, которые могут распознавать объекты и их свойства из объёмных массивов неразмеченных данных. В последнее время для целей глубокого обучения нейросетей все большее применение находят графические процессоры GPU, которые позволяют обучить огромные массивы данных за относительно короткое время. Современные алгоритмы распознавания превосходят по точности, существовавшие 20-25 лет назад примерно на два порядка.

Модели на основе DNN используются для распознавания образов «на лету», в тех случаях, где скорость распознавания очень важна для того, чтобы оперативно выполнить какие-то действия. Однако, время обучения может занять большое время^[14]. Поэтому, стандартные DNN не всегда удовлетворяют требованиям задержки для некоторых приложений реального времени.

Однако, хорошо «обученные» DNN могут иметь высокую точность распознавания образов, что очень важно для развития видеонаблюдения.

На рисунке ниже показана структура системы видеоаналитики с нейросетью DNN.

Рис. 3- 2. Структура системы видеоаналитики с нейросетью DNN (источник: Muralidharan K et al, International Journal of Computer Science & Communication Networks,Vol 7(4)).

Некоторое число n камер следят за определённой областью с целью отслеживания траекторий движения людей и объектов. Нейросеть DNN предварительно обучена распознаванию объектов, определению направления и скорости их движения. На основании этой информации осуществляется анализ характеристик объекта (например, тип и марка транспортного средства, распознавание лиц людей и пр.).

Это может быть сложной задачей, особенно в условиях ограниченности наличных вычислительных ресурсов. Технология очистки данных на основе взаимоотношений RelDC (Relationship-Based Data Cleaning) может повысить качество распознавания, даже в условиях видео не очень высокого качества.

Обычные нейросети состоят из взаимосоединённых вычислительных узлов, называемых нейронами, каждый из который активирует узлы соседнего слоя с установленным весом (величиной) сигнала. Активация начинается на входных нейронах, и затем внутренние «слои» нейронов активируются под воздействием присоединённых к ним нейронов в соответствии с коэффициентами передачи сигнала. Обычные нейросети работают с использованием простого механизма распространения сигнала со входа на выход и имеют не больше 2-3 внутренних слоёв нейронов.

Рис. 3- 3. Структура нейросети (источник: Muralidharan K et al).

В зависимости от числа скрытых слоёв нейронов для обучения, нейросети классифицируются как «мелкие» (shallow) и «глубокие» (deep), DNN.

Мелкие нейросети обычно содержат 1-3 скрытых слоя, в то время как число слоёв в глубоких сетях DNN – от трёх и более. Увеличение числа слоёв повышает эффективность обучения нейросети и точность распознавания образов.

DNN могут иметь различную сетевую архитектуру, «модель» (model), которая также существенно влияет на процесс обучения.

Рис. 3- 4. Пример модели свёрточной интеллектуальной нейронной сети СИНС

Глубокое обучение DL (Deep Learning), как разновидность машинного обучения ML (Machine Learning), использует различные алгоритмы для обработки данных и имитации процесса мышления, чтобы делать различные умозаключения, заключающиеся в распознавании объектов и их поведения. При этом становится возможным распознавать рукописный текст (даже в том случае, если DNN никогда раньше не «видела» почерк данного человека), понимать живую речь (без необходимости предварительной биометрии голоса), и распознавать различные объекты, например, класс «животные», а внутри него – подклассы: «собака», «кошка», «корова» и пр. Существуют нейросети, которые «умеют» определять породы собак, кошек и других животных по определённым признакам^[15].

Рис. 3- 5. Определение породы собаки при помощи DNN (источник: KDnuggets).

Информация в DNN передаётся и обрабатывается последовательно со слоя на слой, когда выходной сигнал после обработки в нейроне предыдущего слоя служит входным сигналом для всех, либо части нейронов последующего слоя, причем сила величина (амплитуда) сигнала определяется «весом» данного линка от нейрона предыдущего слоя к нейрону следующего слоя.

В зависимости от получаемого результата на выходе слоя выходных нейронов, может производиться последовательная коррекция весов отдельных линков между нейронами соседних слоёв. Этот итерационный процесс коррекции весов линков называется «обучением» (Learning) нейросети.

Краткая история развития нейросетей

В 1943 году американские учёные: нейропсихолог, нейрофизиолог, один из основателей кибернетики Уоррен Маккалох (Warren McCulloch) и нейролингвистик, логик и математик Уолтер Питтс (Walter Pitts) изобрели первое устройство, которое можно было назвать нейросетью, работавшее по принципу «пороговой логики» (Threshold Logic) для имитации элементарных операций нейронов человеческого мозга^[16].

Рис. 3- 6. Уоррен Маккалох и Уолтер Питтс (источник: http://aksanqomarullah.blogspot.com/2018/10/artificial-neural-network.html).

В начале 60-х годов, Генри Келли (Henry J. Kelley), профессор Политехнического института штата Вирджиния, разработал модель обратного распространения (Back Propagation Model) для обучения нейросети. Примерно в тоже время японский учёный Кунихико Фукушима (Kunihiko Fukushima) разработал концепцию свёрточной нейросети CNN (Convolutional Neural Network), разновидности DNN. В конце 1970-х годов Фукушима разработал первую иерархическую многослойную нейросеть, под названием Neocognitron^[17], которая могла распознавать визуальные образы.

В разработке учёных из Института когнитивной науки (Institute for Cognitive Science) университета Калифорнии в Сан-Диего, Дэвида Румельхарта (David E. Rumelhart) и Рональда Уильямса (Ronald J. Williams), а также Джеффри Хинтона (Geoffrey E. Hinton) из Университета Карнеги-Меллона из Филадельфии в 1989 году был впервые на практике использован алгоритм обратного распространения (Back Propagation), теоретически предложенный ещё в начале 60-х^[18].

В 1997 году Зепп Хохрайтер (Sepp Hochreiter) и Юрген Шмидхубер (Jürgen Schmidhuber) из Университета Иоганна Кеплера в Австрии разработали т.н. «длинную кратковременную память» LSTM (Long Short-Term Memory) для рекурсивных нейросетей RNN (Recurrent Neural Network)^[19].

В настоящее время сделано множество изобретений и усовершенствований в архитектурных моделях нейросетей, активационных функциях нейронов и пр., что привело к взрывному росту развития глубоких нейросетей. Сыграли свою роль и сопутствующие технологии, концепции и вклад многочисленных учёных и разработчиков, что привело к синергетическому развитию области нейросетей применительно к видеоаналитике.

Анализ больших данных, искусственный интеллект

Технологии Искусственного Интеллекта ИИ (Artificial intelligence, AI) быстро распространяются по всему миру. Возможности искусственного интеллекта, в частности, широко применяются в видеоаналитике: например, для мониторинга трафика уличного движения в городах (Smart City), или в интеллектуальных системах распределения электроэнергии (Smart Grid).

Технологии ИИ (AI) – по сути являются другим названием нейросетей с возможностью обучения. Существует три основных метода обучения нейросетей: с учителем, без учителя, с подкреплением^[20].

При обучении с учителем нейронная сеть обучается на предварительно размеченном наборе данных для получения ответов, которые используются для оценки точности алгоритма на обучающих данных. При обучении без учителя модель использует неразмеченные данные, из которых алгоритм самостоятельно пытается извлечь признаки и зависимости.

Обучение с частичным привлечением учителя представляет собой нечто среднее. Оно использует небольшое количество размеченных данных и большой набор неразмеченных данных. А обучение с подкреплением тренирует алгоритм при помощи системы поощрений.

Поэтому, когда мы говорим об использовании ИИ в видеонаблюдении, мы фактически имеем в виду использование нейросетей с возможностью обучения без учителя.

Использование ИИ в видеонаблюдении

В университете Карнеги (США) в 2019 году было проведено исследование использования ИИ для видеонаблюдения и был разработан Глобальный Индекс использования ИИ для видеонаблюдения AIGS (AI Global Surveillance), который показывает степень использования ИИ для видеонаблюдения в 176 странах мира (без различия легитимности такого использования)^[21].

Исследование показало, что в настоящее время технологии ИИ для видеонаблюдения распространяются быстрее и в большем числе стран, чем это представляется многим экспертам, работающим как в сфере ИИ, так и видеоаналитики. По крайней мере, 75 из 176 стран в мире активно используют ИИ для целей видеонаблюдения и видеоаналитики. Наиболее часто ИИ используется в таких приложениях видеоаналитики, как платформы Умного или Безопасного Города (56 стран), системах распознавания лиц (64 страны), а также в системах Умной охраны правопорядка, Smart Policе (52 страны).

Наиболее бурно технологии ИИ для видеонаблюдения развиваются в Китае, благодаря разработкам таких компаний как Huawei, Hikvision, Dahua и ZTE, которые поставляют технологии ИИ в 63 страны мира. Более тридцати из них являются членами инициативы «Один пояс и один путь», выдвинутой Китаем, как предложения по объединению проектов «Экономического пояса Шёлкового пути» и «Морского Шёлкового пути XXI века» (Belt and Road Initiative, BRI).

Одна только компания Huawei поставляет технологии ИИ для видеонаблюдения по крайней мере в 50 стран мира. Следом с большим отрывом по числу стран идёт японская NEC Corporation (14 стран).

Компании США также активно работают в этой области. Американские технологии ИИ для видеонаблюдения поставляются в 32 страны мира.

Наиболее крупными американским игроками в этой области являются компании IBM (11 стран), Palantir (9 стран) и Cisco (6 стран). Важную роль также играют разработки компаний из Франции, Германии, Израиля и Японии.

В исследовании приводится карта происхождения используемых технологий ИИ для видеонаблюдения (см. рисунок ниже).

На карте синим цветом показаны страны, где преобладают американские технологии ИИ для видеонаблюдения, красным – китайские, красно-синие полосы показывают страны, где используются как китайские, так и американские технологии, и чёрным – страны, где преобладают другие технологии.

На карте преобладают красный и синий цвета, а также сине-красные полосы. Причём интересно, что как в США, так и в Китае, используются как китайские, так и американские технологии. Это говорит о том, что Китай в этой области. по крайней мере. не уступает США,

Рис. 3- 7. Карта происхождения технологий ИИ для видеонаблюдения (источник: carnegieendowment.org).

На рисунке ниже показана диаграмма, где показано распространение технологий ИИ для видеонаблюдения в различных регионах мира. Из диаграммы видно, что лидерами в области применения «умных систем видеонаблюдения» являются страны Юго-Восточной Азии (около 65% стран региона), Ближний Восток и Северная Африка (более 60% стран), а также Южная и Центральная Азия (около 60% стран региона).

В Европе (включая страны СНГ) этот показатель не дотягивает до 50% стран, а в Америке – до 40%.

Рис. 3- 8. Распространение технологий ИИ для видеонаблюдения в различных регионах мира (источник: carnegieendowment.org).

Также представляет определённый интерес диаграмма вклада различных компаний в распространение технологий ИИ для видеонаблюдения в странах мира. На диаграмме видно, что из 75 стран, где для видеонаблюдения применяется ИИ, в 50 странах используются технологии китайской компании Huawei.

Рис. 3- 9. Вклад различных компаний в распространение технологий ИИ для видеонаблюдения в странах мира (источник: carnegieendowment.org).

Использование Больших Данных в видеоаналитике

«Большие видеоданные» производятся всё возрастающим количеством камер, располагаемых в публичных местах. В мире уже установлено большое количество сетевых IP-камер, производящих огромные массивы видеоданных. Эти данные требуется хранить всё более длительное время, согласно регулированию по безопасности разных стран.

На рисунке ниже показан рост объёма данных с 1995 до 2020 г. Только одна камера высокого разрешения производит 10-50 Гбайт данных в день^[22]. Видно, что в последние пять лет объём данных увеличится примерно в пять раз и они будут являться источником ценной информации (insight), которую можно извлекать из «Больших Данных».

Рис. 3- 10. Рост объёма видеоданных (источник: IEEE).

Из этих Больших Данных можно извлекать много полезной информации для маркетинга, для организации дорожного трафика, для оптимизации распределения электроэнергии и пр.

Например, японский оператор NTT DoCoMo в 2018 г. реализовал решение Интернета Вещей (IoT), которое даёт возможность интерпретировать и анализировать данные от камер видеонаблюдения непосредственно на границе сети (Edge computing) совместно с информацией от датчиков и сенсоров IoT^[23]. DoCoMo реализует данный проект совместно с компанией Cloudian из Калифорнии (США), которая разработала компактное и высокоскоростное устройство для анализа больших данных Cloudian AI Box. Это устройство оснащено интерфейсом для IP-камер, работающих в сетях LTE и Wi-Fi.

Анализ больших данных с камер видеонаблюдения может применяться в различных сценариях, таких как:

охрана общественного порядка;
мониторинг качества на производстве;
обнаружение присутствия людей;
маркетинговые программы в розничной торговле.

Передача больших объёмов данных в центральное облако — это довольно длительный процесс, при котором данные передаются с задержками, при этом возникает довольно большая нагрузка трафика на инфраструктуру сети. Решение, при котором обработка больших данных происходит в непосредственной близости от их генерации и использования (Edge computing), позволяет значительно убыстрить распознавание образов и получение полезной информации.

Рис. 3- 11. Анализ больших данных на границе сети (источник: NTT DoCoMo).

Рис. 3- 12. Компактные компьютеры по обработке больших данных на границе сети (источник: Cloudian).

Коллектив учёных кафедры компьютерных наук университета Кьюнг Хэ, Ю.Корея (Department of Computer Science and Engineering, Kyung Hee University) разработал архитектуру системы видеоаналитики для распределённого анализа больших данных^[24], показанную на рисунке ниже. В ней используются не только данные видеонаблюдения, но и стриминговые видео из Интернет, а также видео с сайтов видеохостинга (Youtube и пр.)

Рис. 3- 13. Архитектура системы видеоаналитики для распределённого анализа больших данных (источник: Kyung Hee University).

Технологические тенденции

В настоящее время, эволюция систем видеоаналитики определяется следующими технологическими тенденциями.

Интеллектуальный и контекстно зависимый сбор данных

В интеллектуальных системах видеонаблюдения сбор данных происходит на основе распознавания происходящих событий, попадающих в объективы камеры. В зависимости от контекста, сбор и фиксация данных может происходить более или менее интенсивно. Следовательно, расходовать ресурсы систем видеонаблюдения и аналитики можно более эффективно, а также повышать точность и надёжность собранных данных.

Инфраструктуры больших данных

Технологии Больших Данных дают много возможностей для видеоаналитики. Сбор потоковых данных с множества видеокамер и обработка данных непосредственно при передаче значительно облегчают анализ больших данных. Архитектуры Больших Данных облегчают масштабирование систем интеллектуального видеонаблюдения и ввод новых функций видеоаналитики.

Системы аналитики в потоковой передаче данных (стриминг)

В течение последних лет появилось много стриминговых систем, которые позволяют извлекать данные из видеопотоков непосредственно в процессе передачи, чтобы облегчить нагрузку на сеть и ускорить процесс анализ данных.

Рис. 3- 14. Пример потоковой аналитики (источник: Datacast).

Предиктивная видеоаналитика

В 2016-17 годах было разработано много алгоритмов глубокого обучения, например, Alpha AI в Google. Глубокие нейросети получают больше всего используются именно в видеоаналитике, поскольку они позволяют значительно улучшить процесс расследования инцидентов с использованием видеокамер, а также во многих случаях позволяют предотвратить намечающиеся инциденты, либо сократить их негативные последствия.

Рис. 3- 15. Пример системы предиктивной видеоаналитики AVA (Advanced Video Analytics) (источник: Nokia).

Предиктивная видеоаналитика может предсказать влияние интерференции сигналов, перегрузок трафика на сети и воспринимаемого пользователем качества видео QoE (Quality of Experience). Эти данные затем могут быть скомбинированы с показателями KPI для бизнеса сервис-провайдера (например, оператора связи), включая отток пользователей, NPS и доходность услуг. Автоматические рекомендации, выдаваемые системой предиктивной видеоаналитики, помогают сервис-провайдерам удерживать абонентов, предпринимать проактивные действия для повышения качества обслуживания и быстро разрешать возникающие проблемы. Кроме того, предиктивная видеоаналитика может снижать буферизацию видеотрафика до 40%, а также повышать QoE для наиболее важных абонентов^[25].

Дроны и Интернет Вещей (IoT).

Использование устройств IoT и умных устройств значительно расширяет возможности и функциональность систем безопасности и видеонаблюдения. В последние время, чтобы расширить охват и функционал видеонаблюдения, всё больше начинают применяться беспилотные летательные аппараты БПЛА (дроны).

На рисунке ниже показаны примеры видеоаналитики, получаемой с камер дронов^[26].

Рис. 3- 16. Примеры видеоаналитики, получаемой при помощи дронов (strayos.com).

Интеграция физической безопасности и кибербезопасности

Цифровая трансформация промышленных активов и процессов постепенно приводит к конвергенции мер физической и кибербезопасности. Многие предприятия до сих пор рассматривают безопасность информационных технологий (IT) и операционных технологий (OT) как отдельные области. Именно поэтому, злоумышленники часто получают возможность находить «дыры» в физической защите благодаря различным приоритетам и практикам кибербезопасности IT и OT^[27].

Рис. 3- 17. Пример раздельного восприятия кибербезопасности IT и OT (источник: nozominetworks.com).

Мир физической безопасности всё больше переходит на IP-платформы. Аналитическое агентство IMS Research оценивает, что в 2020 году к сети Интернет будет подключено около 22 млрд устройств. Многие из них относятся к видеонаблюдению и видеоаналитике. Поэтому эти две области необходимо развивать в синергии. Это не только приведёт к повышению уровня безопасности как в ОТ, так и в IT, но и позволит сэкономить немало средств.

По данным Ponemon Institute, эффективный план кибербезопасности поможет сократить в среднем для предприятий США до 28% потерь от нарушения нормальных операций и ущерба от ИТ-атак^[28].

Рис. 3- 18. Среднегодовая экономия для предприятий от внедрения конвергентных систем IT- и ОТ-безопасности (источник: Ponemon Institute).

Новые архитектуры систем видеонаблюдения и видеоаналитики

Все перечисленные технологические тенденции открывают много новых возможностей для систем видеоаналитики. Однако, системные архитекторы и разработчики должны реализовать функционал этих технологий в конкретных разработках и системах. Поэтому, в первую очередь, очень важно разработать и реализовать соответствующую архитектуру систем видеонаблюдения и видеоаналитики, для того чтобы эти возможности можно было реализовать и использовать в синергетическом взаимодействии.

В современных системных архитектурах для видеонаблюдения активно используются облачные технологии, а также концепция граничных вычислений (edge/fog computing) для того, чтобы обрабатывать видеоданные в непосредственной близости от места их генерации и использования. Это позволяет получать значительную экономию на полосе пропускания сети и достичь высокой оперативности систем мониторинга безопасности за счёт снижения задержек при передаче видеопотоков по сети.

Камеры, разворачиваемые на границе сети, являются частью узлов видеоаналитики, которые способны обрабатывать видеокадры в режиме реального времени, без передачи их в удалённое центральное облако. Граничные узлы также способны интеллектуализировать сбор данных за счёт гибкой настройки частоты кадров в зависимости от контекста событий перед видеокамерой. Если на сцене ничего особенного не происходит, то частота кадров может быть снижена. Если в кадре начинается движение, видеокамера увеличивает частоту кадров, а если распознан инцидент – включает съёмку с высокой скоростью и в высоком разрешении. Это позволяет не только сэкономить полосу пропускания, но и вычислительные ресурсы, а также сократить требуемый объём систем хранения.

Открытые стандарты, которым следуют основные вендоры систем видеонаблюдения и аналитики, также помогают значительно упростить архитектуры систем и сделать их независимыми от решений конкретных вендоров. Заказчик при этом получает выгоду в том, что он может выбрать наилучшее вендорское решение по каждому элементу системы при гарантии того, что все элементы будут гарантированно совместимы при работе.

Хроника

2026

Конец классической видеоаналитики? Почему MLLM меняет правила игры.

За последний год в индустрии видеоаналитики произошло событие, которое обычно случается раз в десятилетие. На сцену вышли мультимодальные языковые модели — MLLM и их частный случай Visual LLM. В отличие от традиционных алгоритмов компьютерного зрения они не просто обнаруживают объекты в кадре, а пытаются интерпретировать происходящее.

В данной статье эксперт Василий Долгов 10 марта 2026 года рассказал TAdviser, почему MLLM/VLM — действительно гейм-чейнджер, где их применение экономически целесообразно уже сейчас, и главное — как выстроить платформенную архитектуру так, чтобы новая волна ИИ не сожгла инвестиции, а превратила их в фундамент для следующего уровня видеоаналитики. Подробнее здесь.

Трагические ошибки при выборе системы видеоаналитики: как видеонаблюдение маскируют под «ИИ»

Эксперт Василий Долгов 30 января 2026 года рассказал TAdviser о том, какие ошибки совершают компании при выборе системы видеоаналитики. Подробнее здесь.