Специальный алгоритм очистит данные переписи населения

26.11.2021      23287

В России завершился первый этап Всероссийской переписи населения. Росстат будет в автоматическом режиме очищать собранные данные от продублированных записей при помощи российской BI-системы.

Первые итоги

Первый этап переписи населения охватил 99% граждан России. Эта информация собрана из различных источников, потому что при проведении ВПН впервые были задействованы цифровые технологии. Кроме стандартных данных от переписчиков и специализированного контингента (военные части, тюрьмы), сведения поступили из Единого портала госуслуг, где также можно было заполнить анкету. Специалисты, посещающие квартиры граждан, использовали вместо бумажных бланков специальные планшеты на базе отечественной ОС «Аврора».

Сейчас Росстат переходит к процессу обработки полученных сведений, из которых необходимо удалить «грязные» и дублирующие данные. Ведомство планирует опубликовать предварительный отчет о результатах переписи в январе 2022 года, а полные итоги огласить к концу 2022 года.

Устранение дублей

Для сбора и обработки информации во время проведения переписи Росстат применяет систему бизнес-аналитики Contur-BI. Ведомство приобрело лицензию на этот программный комплекс у компании «Контур-Компонентс» за 16 млн рублей. ПО состоит из трех модулей. В первом сохранены сведения о процессе подготовки к ВПН, во втором – информация о ходе проведения переписи. Третий модуль предназначен для визуализации обработки данных из собранных материалов от всех источников.

Также BI-система будет очищать полученные сведения от информации, которая может исказить результаты мероприятия. Из-за массового применения альтернативных методов сбора данных в программе могут содержаться дубликаты записей одного и того же человека. Например, гражданин мог сообщить сведения о себе в пункте переписи, а его родственники – подать аналогичную информацию через портал Госуслуг. Фильтрацию дублей затрудняет тот факт, что ВПН проходила анонимно.

Система Росстата может найти и удалить дублирующие записи. Кроме того, она поможет ведомству выявить проблемы, связанные с пропущенными при заполнении полями, исправить некорректные значения (например, возраст 888 лет вместо 88), обнаружить присутствие недопустимых символов, таких как буквы в числовых данных. Для этих задач система использует функционал матанализа (среднее квадратическое отклонение, дисперсия) и многомерные правила для выделения подозрительных сведений и дальнейшего ручного анализа.


Автор:
Аналитик


См. также

Новость Искусственный интеллект ИТ-Новость

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    197    user1915669    0       

1

Новость Дата-центры Искусственный интеллект ИТ-Новость

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    356    AnastasiaKl    0       

1

Новость ИТ-Новость

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    409    user1915669    0       

1

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    521    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    1057    AnastasiaKl    3       

3

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    858    VKuser24342747    2       

1

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    651    VKuser24342747    0       

2

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    795    VKuser24342747    2       

1
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
Оставьте свое сообщение