Поиск внешних данных

Джейн Фу

Провести свое собственное исследование − это не единственный и самый лучший способ начать анализ данных. Все популярнее становится использование чьих-то готовых баз данных и предоставление своих, и эти методы уже поспособствовали успеху многих недавних исследований. Использование внешних данных имеет ряд преимуществ:

Время/ДеньгиМожет уменьшить объем работы, необходимой для сбора и подготовки данных для анализа
ДоступМожет позволить вам работать с данными, для сбора которых требуется больше ресурсов, чем у вас есть, или данными, к которым в другой ситуации вы вообще не имели бы доступа
СообществоПродвигает новые идеи и интересные сотрудничества, связывает с людьми, интересующимися той же темой

Где найти внешние данные

Все эти преимущества выглядят просто отлично! Но где же найти внешние данные? Чтобы сузить поиск, задайте себе следующие вопросы:

ОбъемКаков объем искомых данных? Каковы:
● географические рамки?
● специфические атрибуты (качества) данных (например, возрастной диапазон)?
● временные периоды?
ТипКакой тип данных вы ищете? Нужны ли вам:
● статистика?
● данные исследований?
● исходные, «сырые» данные?
● данные, полученные каким-то определенным методом?
ЦенностьКак эти данные дополнят анализ уже имеющихся у вас данных?
Нужны ли вам какие-либо внешние базы данных, чтобы завершить анализ?
ПУБЛИЧНЫЕ ДАННЫЕ

Когда вы поняли, что именно ищете во внешних базах данных, можно начинать поиск на одном из множества ресурсов публичных данных, доступных благодаря популярному в интернете движению за открытый контент и доступ. Многие институции, правительства и организации установили политику доступности данных для обеспечения большей открытости и подотчетности обществу, а также, чтобы стимулировать развитие новых сервисов и продуктов. Вот классификация источников публичных данных:

ИсточникПримеры
Поисковые системыGoogle
Хранилища данныхre3data.org
DataBib
DataCite
Dryad
DataCatalogs.org
Open Access Directory
Gapminder
Google Public Data Explorer
IBM Many Eyes
Knoema
Правительственные базы данныхМировой Банк
ООН
Open Data Index
Open Data Barometer
Данные правительства США
Инициатива Открытых Данных Кении
Исследовательские учрежденияAcademic Torrents
Американская Психологическая Ассоциация
Другие профессиональные ассоциации
Академические учреждения

Если вы решите использовать для поиска баз данных поисковые системы, вроде Google, учтите, что они будут находить только то, что проиндексировано этой системой. Иногда вебсайт (и ресурс, связанный с ним) виден лишь зарегистрированным пользователям, или настроен на блокирование поисковых систем, и такие сайты не отобразятся в результатах поиска. Интернет и по сей день − большая песочница; так что избавьте себя от головной боли просматривания множества нерелевантных результатов поиска, сформулируйте свой поисковой запрос четко и конкретно.

Если вы не уверены в том, что делать с каким-то отдельным типом данных, попробуйте для вдохновения посмотреть работы призеров конкурса Information is Beautiful. Можно также посещать мероприятия, такие как ежегодный День Открытых Данных, чтобы увидеть, что люди делают с открытыми данными.

Открытые хранилища данных приносят пользу и вкладчикам, и пользователям, обеспечивая онлайн-форум для обмена информацией и изобретения новых способов изучения и анализа данных. В некоторых случаях краудсорсинг данных приводил к новым открытиям, которые в других обстоятельствах возникли бы намного позднее или не возникли бы вовсе. Один из наиболее известных краудсорсинговых проектов − Foldit, созданная в Вашингтонском университете сетевая головоломка, позволяющая любому человеку представить варианты сворачивания белка, которые позже используются учеными для создания новых инновационных решений в биоинформатике и медицине. А недавно британская благотворительная организация Cancer Research UK выпустила игру для мобильных телефонов под названием “Гены в космосе”, в которой пользователи определяют раковые клетки на снимках биопсии, что в свою очередь помогает исследователям уменьшить время на анализ данных.

НЕПУБЛИЧНЫЕ ДАННЫЕ

Конечно, не все данные публичные. Может случиться, что благодаря вашему статусу в определенной сети или отношениям, вы получите доступ к особой базе данных. Или вам попадется набор данных, которые можно купить. В любом случае, вам, как правило, придется принять и подписать лицензию, чтобы получить эти данные, так что всегда читайте Условия использования перед покупкой. Если никаких условий вам не выставили, настаивайте на письменном разрешении на использование набора данных.

Доступ к внешним данным

Предположим, вы нашли базу данных, соответствующую вашим критериям. Но достаточно ли она качественная?

Оценить качество данных можно, просмотрев имеющуюся о них информацию (включая метаданные, или «данные о данных», например время и дата создания) и контекст, в котором эти данные представлены. Хорошие базы данных предоставляют подробную информацию, с какой целью создавались эти данные, кому они принадлежат, какими методами и когда собирались, какого они объема, и другие нюансы. В онлайн базах данных эту информацию можно найти на страницах «Описание» или «Дополнительная информация» или по ссылке «Документация».

Изучая данные, используйте техники оценки общей информации. Например, популярный метод, используемый академическими библиотеками, − тест CRAAP. Он представляет собой набор вопросов, помогающих определить качество текста. Акроним его названия расшифровывается следующим образом:

АктуальностьНасколько нова эта информация? Когда она была собрана/ опубликована/ обновлена?
РелевантностьПодходит ли эта информация для ваших целей? Отвечает ли она на вопросы исследования? Существует ли другая (лучшая) информация?
АвторитетностьОбладает ли создатель информации высокой репутацией и необходимыми полномочиями? Можно ли доверять этой информации?
ТочностьЗаметили ли вы какие-либо ошибки? Из какого источника получена информация? Могут ли другие данные или исследования подтвердить эту информацию?
ЦельКакова была цель собранной информации? Установлены ли другие возможные способы ее использования?

Наконец, когда вы просмотрели набор данных и информацию о нем, обратите особое внимание на следующие тревожные звоночки:

  • Не указано, каким методом собирали данные;
  • Отсутствует контактная информация;
  • Непонятно, кому данные принадлежат;
  • Сами данные и/или лица и компании, которые их собирали, не связанны с авторитетными лицами или организациями, или не обладают необходимыми полномочиями;
  • Условия использования или лицензия включают вызывающие вопросы пункты (например, что данные не могут быть использованы в научных целях);
  • Неполные метаданные или их отсутствие;
  • Большие фрагменты данных отсутствуют без объяснений или контрольных точек;
  • Исходные данные выглядят «слишком идеальными»;
  • Опубликованные статьи ставят под сомнение этот набор данных.

Использование внешних данных

Итак, у вас есть база данных, соответствующая вашим критериям и требованиям к качеству, а также есть разрешение на ее использование. Что еще нужно учесть, прежде чем приступить к работе?

Список для проверки
Вы получили всю необходимую информацию о данных?Не забудьте получить различные инструкции и описания, словари внешних данных и работы, на которые ссылается база данных.
Являются ли эти данные частью более крупной базы данных или тела исследования?Если да, поищите соответствующие описания или пояснительные записки к большей базе данных.
Использовался ли ранее этот набор данных?Если использовался, и вы пользуетесь этими данными для анализа, убедитесь, что ваш анализ привносит новые открытия к тем, что уже были получены из этих данных ранее
Как вы документируете обработку и использование данных?Убедитесь, что храните документы о лицензионных правах, коммуникации с владельцами и хранителями данных, если это применимо.
Планируете ли вы в будущем поделиться результатами или выводами?Если да, вам потребуется включить словарь базы данных и список дополнительных источников данных.

Ваши ответы на эти вопросы могут изменить масштаб анализа или подтолкнуть к поиску дополнительных данных. Они даже могут привести вас к мысли о совершенно новом аспекте исследования.

Этот проверочный список побуждает вас к бумажной работе (и немалой). Внимательное документирование важно по двум существенным причинам. Во-первых, если вам понадобится переделать анализ, эта документация поможет проследить ваши действия. Во-вторых, эта документация для других исследователей послужит доказательством того, что ваш анализ был проведен надлежащим образом, и позволит им опираться на ваши открытия.

Ссылки на источники внешних данных

Проще говоря, ссылаться на источники ваших внешних наборов данных − правильно. К тому же, это обязательно. Рекомендации по этике исследований констатируют, что указывать источники обязательно для любого типа исследований. Поэтому всегда убеждайтесь, что верно указали источник внешних данных, предоставляя ссылки.

Хорошие ссылки дают читателю достаточно информации, чтобы найти полученные и использованные данные. Хотите знать, как выглядят хорошие ссылки? Используйте справочники по оформлению списка источников (библиографии) от APA, MLA, Chicago, Turabian или Harvard. В отличие от цитат для печатных изданий (например, книг), цитаты для наборов данных весьма отличаются друг от друга в зависимости от стиля.

Как правило, все стили требуют указания автора и названия. Кроме того необходимо предоставлять информацию о редакторе, производителе или дистрибьюторе (дата и место публикации), дату доступа (когда вы впервые ознакомились с данными), информацию об этой базе данных (уникальный идентификатор, издание, тип материала) и гиперссылку. Для правительственных баз данных вместо автора/ авторского коллектива указывается название департамента, комитета или агентства.

Например, вы используете данные Ежегодного опроса по трудоустройству и заработной плате населения, который проводит Бюро переписи населения США.

Справочник по стилю APA (Справочник по публикации Американской Психологической Ассоциации, издание 6-е) сослался бы на него таким образом:

apa

В то время как Справочник по стилю MLA (Руководство MLA для авторов научно-исследовательских работ, издание 7-е), сослался бы на те же данные так:

mla2

Хранилища данных и организации-авторы часто имеют свои собственные руководства по оформлению ссылок и предоставляют уже готовые ссылки, которые вы можете использовать «как есть». Межуниверситетский консорциум политических и социальных исследований (ICPSR), Национальный центр статистики здравоохранения , Dryad, PANGAEA, и Roper Center Data предлагают собственные инструкции по ссылкам на свои базы данных.

Эта глава позволяет лишь взглянуть на внешние данные: важный вывод, который мы можем сделать, – это то, что мы сейчас находимся на начальном этапе значительного развития данных, и происходит это благодаря технологиям, делающим возможным хранение и обработку больших массивов данных. Открытые базы данных обладают потенциалом стать стандартом для всех, кто ищет данные для анализа.