Теперь, когда мы понимаем, для чего нужна очистка данных, и какими методами и подходами мы можем привести наш набор данных в форму, остается вопрос − что может и что не может охватить очистка.
Общее правило для очистки набора данных, где в колонках переменные, а ряды представляют записи, следующее:
- Если количество неверных или отсутствующих значений в ряду больше, чем количество верных значений, рекомендуется исключить этот ряд;
- Если количество неверных или отсутствующих значений в колонке больше, чем количество верных значений, рекомендуется исключить эту колонку.
Следует прояснить, что исключение не равно удалению! Если вы решите, что не хотите включать ряд или колонку в свой анализ или визуализацию, следует переместить их на отдельный лист, а не удалять. Если данные были удалены, вы больше не сможете вернуться к ним, даже если позже поймете, как можно было заполнить отсутствующие значения. Пока вы не будете абсолютно уверены, что больше не будете использовать запись или переменную, не удаляйте их.
В нескольких последних главах мы говорили о нескольких разных процессах очистки данных, а также типах проблем, которые они могут обнаружить и решить. В поиске погрешностей и ошибок, можно обнаружить следующие потенциальные проблемы:
- Несогласованные текстовые значения, ошибки в орфографии и пунктуации;
- «выбросы», неверные значения и экстремумы;
- данные, не соответствующие остальным данным в таблице (например, 200 фунтов морфина);
- нехватка или избыток данных;
- странные закономерности в распределениях;
- отсутствующие значения.
До сих пор мы почти не говорили о том, чего не может охватить очистка данных. Например, могут быть неверные данные, которые, тем не менее, находятся в приемлемом диапазоне, и вполне имеют смысл. Например, если кто-то вводит число 45 вместо 54 в набор данных, а действующий диапазон чисел от 0 до 100, вряд ли вы обнаружите эту ошибку, пока не сверите это поле с другим, или не проверите информацию у внешнего источника данных.
То же самое, если вы получаете информацию из онлайн-опроса, а заполняющий его человек выбрал кнопку «Абсолютно согласен», хотя имел в виду «Абсолютно не согласен». Опять же, пока этот ответ каким-то образом не будет сверен с другой переменной или источником, вам не так-то легко будет обнаружить эту ошибку. Иногда такая ошибка критичнее остальных. Если человек выбирает «Абсолютно согласен» вместо «Согласен» в опросе по исследованию мнения, это вряд ли окажет такое же влияние на результаты, как если кто-нибудь случайно укажет неправильный пол в форме для исследования, в котором пол используется в качестве группирующей категории для назначения лечения.
Очистка данных также не скажет вам, действительно ли отсутствует отсутствующее значение (например, вопрос был случайно пропущен, или данные по какой-то причине не были собраны), или вопрос был пропущен намеренно (например, участник уклонился от ответа), если только не был предусмотрен вариант ответа «Предпочитаю не отвечать». В некоторых случаях разница может быть существенной (особенно в демографических данных), в то время как в других можно решить оба варианта считать отсутствующими данными. Вот почему, как уже упоминалось ранее, следует включать вариант ответа «Предпочитаю не отвечать» в любой вопрос личного характера, где вы хотите знать, действительно ли отсутствуют данные, поскольку некоторые люди могут намеренно не отвечать на вопросы, касающиеся расовой/этнической принадлежности, дохода, политических пристрастий, сексуальной ориентации и т.д.