Як правило, це завжди збереження даних, ніж видалення даних. Це також залежить від того, який тип аналізу ви збираєтеся виконувати з даними. Можливо, посилання нижче допоможе вам визначитися. Вилучення цих учасників з аналізу може призвести до зміщення відбору. 17 березня 2020 р

Маючи справу з випадково відсутніми даними, всю точку даних, у якій відсутня інформація, можна видалити, щоб зменшити зміщення. Видалення даних може бути не найкращим варіантом, якщо недостатньо спостережень для надійного аналізу.

Ось кілька поширених способів роботи з відсутніми даними:

  1. Кодуйте NA як -1 або -9999. …
  2. Видалення відсутніх даних по всій справі. …
  3. Замініть відсутні значення середнім/медіанним значенням об’єкта, у якому вони зустрічаються. …
  4. Мітка кодує НА як інший рівень категоріальної змінної. …
  5. Запустіть прогнозні моделі, які приписують відсутні дані.

Зменшений розмір вибірки та статистична потужність Відсутні дані у вашому дослідженні можуть призвести до зменшення групи даних або зменшення розміру вибірки. Це послаблює результати вашого дослідження.

Існує три основні підходи до обробки відсутніх значень: видалення, імпутація або моделювання. Видалення означає видалення з вашого набору даних рядків або стовпців, які містять відсутні значення. Це може бути простим і швидким рішенням, але воно також може призвести до втрата цінної інформації та зменшення розміру вибірки.

У статистичних інструкціях зазначено, що зміщення вірогідне в аналізах із пропусками понад 10%, і якщо більше 40% дані відсутні у важливих змінних, то результати слід розглядати лише як створення гіпотези [18], [19].