Существует несколько основных типов данных, и важно знать, как можно работать с каждым из них, чтобы вы могли заниматься сбором данных в форме, которая лучше всего удовлетворяет ваши потребности. Существует много классификаций типов данных, но мы остановимся на таких уровнях измерения, как номинальный, порядковый, интервальный и нормативный.
Уровни измерения
Представьте, что вы пришли за покупками в продовольственный магазин. Вы ходите от отдела к отделу и кладете в корзину то, что хотите купить, − овощи и зелень, молочные продукты, полуфабрикаты, консервы. Если бы вам нужно было составить список, в котором было бы указано, из какого отдела вы взяли каждый продукт, эти данные можно было бы отнести к номинальному типу. Термин «номинальный» имеет отношение к латинскому слову «nomen», которое означает «относящийся к именам». Мы называем этот вид данных номинальными, поскольку они содержат названия категорий, по которым распределяются данные. Номинальные данные по определению неупорядочены; овощи как общая категория математически не больше и не меньше, чем молочная продукция.
Номинальные данные
Номинальные данные можно посчитать, можно определить процент от целого, однако нельзя вычислить среднее значение. Можно говорить о том, сколько продуктов в вашей корзине было взято в молочном отделе, или сколько процентов от покупок занимают овощи, но посчитать среднее значение каждого продовольственного отдела в вашей корзине невозможно.
В случае, если доступны только две категории, данные относят к типу дихотомических. Ответы на вопросы, требующие ответа «да-нет», − это и есть дихотомические данные. Если, делая покупки, вы собрали данные о том, продавался товар со скидкой или нет, это и будут дихотомические данные.
Процент продукции из каждого отдела в корзине
Порядковые данные
В конце концов, вы приходите на кассу и пытаетесь понять, какая очередь движется быстрее всего. Не считая людей в каждой очереди, вы мысленно разбиваете их на короткие, средние и длинные очереди. Поскольку такие данные естественным образом упорядочиваются по категориям, они называются порядковыми. Вопросы в анкетах, ответами на которые могут быть такие фразы, как «полностью не согласен», «не согласен», «нейтрально отношусь», «согласен», «полностью согласен», предназначены для сбора порядковых данных. Ни одна из категорий порядковой шкалы не имеет фактической математической величины. Числовые значения зачастую присваиваются категориям для того, чтобы облегчить запись или анализ данных (например: 1 = полностью не согласен, 5 = полностью согласен), но это распределение условно, и вы можете выбрать любую группу упорядоченных чисел для обозначения групп. Например, вы с такой же легкостью можете решить, что цифра 5 будет обозначать «полностью не согласен», а 1 − «полностью согласен».
Так же как и номинальные данные, порядковые данные можно посчитать и определить процент от целого, однако нет единого мнения о том, можно ли для порядковых данных посчитать среднее значение. С одной стороны, невозможно определить среднее значение для категории «полностью согласен», например, и даже если вы определите их числовые значения, они не будут иметь фактической математической величины. Каждое числовое значение представляет определенную категорию, а не количество чего бы то ни было.
С другой стороны, если принять, что разница величин между последовательными категориями приблизительно одинаковая (например, разница между «полностью не согласен» и «не согласен» такая же, как и между «не согласен» и «отношусь нейтрально», и так далее), и для обозначения категорий используются последовательные числа, тогда среднее значение ответов тоже можно интерпретировать применительно к той же шкале.
Интервальные данные
Оставим пока порядковые данные и вернемся в наш магазин. Вы стоите в очереди, как вам кажется, достаточно долго, и смотрите на часы, чтобы узнать, сколько именно. Вы стали в очередь в 11:15, а сейчас 11:30. Время суток – считается интервальными данными. Этот вид данных называется так, потому-что интервалы между точками измерения одинаковы. Поскольку в каждой минуте 60 секунд, разница между 11:15 и 11:30 такая же, как между 12:00 и 12:15.
Интервальные данные − числовые, поэтому вы можете производить с ними математические операции, однако такие данные не имеют «значимой» нулевой точки − то есть при значении ноль то, что вы измеряете, не отсутствует. 0:00 часов означает не отсутствие времени, а начало нового дня. Другие интервальные данные, с которыми вы сталкиваетесь в повседневной жизни, это календарный год и температура. Нулевое значение для годов не значит, что ранее времени не существовало, а нулевая температура (измеряемая в градусах Цельсия или Фаренгейта) отнюдь не показатель того, что тепла нет.
Нормативные данные
Увидев, что на часах 11:30, вы думаете: «Неужели я стою в очереди уже 15 минут?» Когда вы задумываетесь о времени в таком контексте, это уже нормативные данные. Нормативные данные − числовые, и имеют много общего с интервальными данными, кроме того, что нормативные, в отличие от интервальных, имеют значимую нулевую точку. В нормативных данных ноль означает отсутствие того, что вы измеряете, − ноль минут, ноль людей в очереди, ноль молочных продуктов в вашей корзине. Во всех этих случаях ноль означает, что у вас нет того, что вы измеряете, и это отличается от того, что мы обсуждали в разделе интервальных данных. Другие часто встречаемые переменные, которые можно отнести к нормативным данным, − рост, вес, возраст и деньги.
Интервальные и нормативные данные могут быть либо дискретными, либо непрерывными. Дискретные данные выражены ограниченным набором значений (обычно целыми числами), величины между этими значениями невозможны. В очереди должно быть целое число людей, в ней не может быть одной трети человека. У вас может получиться в среднем по 4,25 человека в каждой очереди, но фактическое количество людей должно быть целым числом. Непрерывные данные могут принимать любое значение на шкале. Вы можете купить 1,25 фунта сыра или стоять в очереди 7,75 минут. Это не значит, что данные могут принимать все возможные числовые значения − только все значения в рамках границ шкалы. Вы не можете стоять в очереди отрицательный промежуток времени и не можете купить отрицательное количество унций сыра, но тем не менее, эти данные − непрерывны.
Чтобы повторить пройденное, давайте взглянем на чек из магазина. Можете ли вы определить, какого типа эти данные (номинальные, порядковые, интервальные или нормативные)?
Дата: 06/01/2014 Время: 11:32 утра | ||||
Продукт | Отдел | Ряд | Количество | Стоимость (US$) |
Апельсины — фунты | Овощной | 4 | 2 | 2.58 |
Яблоки — фунты | Овощной | 4 | 1 | 1.29 |
Моцарелла — фунты | Молочный | 7 | 1 | 3.49 |
Молоко — обезжиренное — галлон | Молочный | 8 | 1 | 4.29 |
Горох — упаковка | Полуфабрикаты | 15 | 1 | 0.99 |
Зеленая фасоль — упаковка | Полуфабрикаты | 15 | 3 | 1.77 |
Помидоры | Консервы | 2 | 4 | 3.92 |
Картофель | Консервы | 3 | 2 | 2.38 |
Грибы | Консервы | 2 | 5 | 2.95 |
Виды переменных Vs. Виды данных
Если вы поищете информацию о данных в учебниках и интернете, то увидите, что переменные часто описывают, как один из вышеперечисленных видов данных. Вы должны знать, что многие переменные не относятся к какому-либо определенному виду данных. Чаще всего вид данных определяется методом их сбора.
Давайте рассмотрим переменную возраста. Данные о возрасте обычно собирают как нормативные, однако их также можно собрать и как порядковые. Это происходит, когда в анкетах спрашивают: “К какой возрастной группе вы относитесь?” В таком опросе у вас не будет данных о возрасте каждого отдельного респондента, вы только сможете узнать, скольким из них было между 18-24 годами, 25-34 и так далее. Вы можете собрать показатели холестерина респондентов для медицинского исследования, либо просто спросить участников опроса, повышен у них холестерин или нет. То есть, это одна переменная и два разных метода сбора данных − и два различных вида данных.
Общее правило состоит в том, что вы можете двигаться вниз по уровню измерения, но не вверх. Если можно собирать переменные как интервальные или рациональные данные, их также можно собирать как номинальные или порядковые данные, но если переменная номинальная по своей природе, как отдел в супермаркете, вы не можете собирать ее как интервальные, порядковые или нормативные данные. Переменные, имеющие порядковую природу, можно собирать как номинальные данные, но не как интервальные или нормативные. Однако, многие переменные, собираемые как порядковые данные, имеют схожую переменную, которую при желании можно собирать как интервальные или нормативные данные.
Тип порядкового уровня | Соответствующий интервальный/нормативный уровень | Пример |
Рейтинг | Единица измерения, на которой основан рейтинг | Фиксируйте время, за которое бегуны пробежали марафон вместо места в рейтинге, которое они заняли |
Распределение по группам | Само измерение | Фиксируйте точный возраст вместо возрастной категории |
Замещающая шкала | Исходная единица измерения, на которой была основана шкала | Фиксируйте точное количество баллов за тест вместо оценки, выраженной буквой |
Важно помнить, что общее правило “двигаться можно вниз, но не вверх”, применимо и во время анализа и визуализации данных. Если вы собираете переменную как нормативные данные, вы всегда можете позже сгруппировать данные для визуализации, если этого требует ваша работа. Если же вы собираете ее на более низком уровне измерения, позже вы не сможете перейти на более высокий уровень, не собрав больше данных. Например, если вы решили собирать данные о возрасте как порядковые данные, вы не сможете позже посчитать средний возраст, и ваша визуализация будет ограничена демонстрацией возрастных групп; вы не сможете показать возраст как непрерывные данные.
Если это не усложняет работу, собирать данные нужно на самом высоком уровне измерения, который вам может пригодиться позже. Мало что в работе с данными разочаровывает так, как понимание того, что вы собрали данные неправильным способом и не можете сделать то, что хотели.
Другие важные термины
Существуют еще термины, часто используемые применимо к видам данных. Мы решили не использовать их из-за небольшого расхождения во мнениях относительно их значений, но вы должны знать их возможные значения на случай, если встретите их в других источниках.
Категориальные данные
Ранее мы говорили о номинальных и порядковых данных как о способе распределить данные по категориям. Некоторые источники считают, что оба типа принадлежат к категориальным данным, где номинальные данные − неупорядоченные категориальные данные, а порядковые − упорядоченные. Другие источники относят к категориальным данным только номинальные, и считают, что понятия “номинальные данные” и “категориальные данные” − взаимозаменяемы. Эти источники относят порядковые данные к отдельной группе.
Качественные и количественные данные
Качественные данные, грубо говоря, относятся к нечисловым данным, в то время как количественные данные − числовые и, соответственно, поддающиеся счету. По отношению к этим терминам существует некое общее мнение. Определенные данные всегда считаются качественными, поскольку требуют предобработки или других методов анализа, чем количественные данные. Примерами могут считаться записи прямого наблюдения либо транскрипты интервью. Подобным образом, интервальные и нормативные данные всегда считаются количественными, поскольку они всегда числовые. Однако есть некое расхождение во мнениях относительно номинальных и порядковых типов данных. Некоторые источники называют их качественными, так как их категории описательные, а не числовые. Однако, поскольку эти данные можно посчитать и использовать для подсчета процентов, другие источники считают их количественными, поскольку они в этом смысле поддаются счету.
Чтобы избежать путаницы, мы будем придерживаться терминов, заданных в начале главы в течении всей книги, кроме главы о планировании и составлении опросов, где речь будет идти о полноформатных качественных данных. Если вам встретятся термины “категориальные данные”, “качественные данные”, или “количественные данные” в других источниках или в вашей работе, убедитесь, что понимаете, в каком значении они используются, и не полагайтесь на предположения!