Рынок труда Армении. Качество данных
Решили тут собрать весь массив исторических рядов данных по рынку труда в единый датасет.
Данные эти содержатся на сайте Армстата в двух файлах (численность и зарплаты). Каждый файл содержит отдельные таблицы по госсектору, частному сектору и итоговые данные. Кроме того — файл с зарплатами содержит также данные по зарплатам нарастающим итогом. Всего более 20к значений (скрин исходных 9 таблиц на картинке).
Мы же превратили их в единую аккуратную плоскую нормализованную таблицу, благодаря чему сильно упростился не только поиск ошибок и несоответствий в исходных данных, но восстановление “испорченных” данных. Чем мы, собственно, и занялись.
Теперь делимся результатами и некоторыми открытиями, полученными в процессе.
Похоже, (как минимум до 2025 года) данные в эти официальные таблицы вносились вручную: большая часть выявленных ошибок в месячных зарплатах и численности — опечатки ручного ввода с потерей или заменой цифр в числах (а иногда и текстовый формат данных с пробелами между разрядов😭) Для 20-х годов 21 века это, конечно, удивительно.
Качество ручного ввода при этом довольно неплохое — всего 4 ошибки на 7к значений в численности и 20 ошибок в зарплатах.
А вот с данными по зарплатам накопленным итогом исполнители Армстата явно не справились. Скорее всего после ручных правок первых двух показателей накопленные зарплаты просто забывали пересчитать. Особенно печальная картина (как можно увидеть по жёлтым и красным ячейкам на картинке) в данных с 2021 по 2024 год 🙁
Радует, что в 2025 году подход к заполнению таблиц, видимо, изменился — ошибки исчезли.
А вот отношение к качеству исторических данных заставляет нас грустить. Так что если кому-то в Армстате нужна сделанная за них работа над ошибками — обращайтесь, готовы поделиться абсолютно безвозмездно.
Для тех же, кто, как и мы, любит зачем-то копаться в большом объеме цифр мы подготовили очень простенький, но, как нам кажется, полезный продукт, о котором расскажем в следующий раз.