Введение

Данные окружают нас повсюду, и так было всегда. Все, что когда-либо происходило, потенциально может быть подсчитано: теоретически, возможно посчитать каждого жившего человека, каждое сердцебиение, каждый шаг, каждую светившую звезду, каждое произнесенное или написанное слово. Каждое из этих явлений можно представить в числах. Но лишь недавно у нас появились технологии, позволяющие эффективно обнаруживать эти скрытые числа, ведущие нас к более глубокому пониманию нашего человеческого бытия.

Но что это на самом деле означает? Каковы социальные эффекты от легкого доступа к данным? В первую очередь, это означает, что нам всем необходимо быть более грамотными в вопросах данных. Как гласит старое изречение, статистика лжет. Что ж, визуализации данных тоже лгут. Как же нам научиться, во-первых, эффективно читать визуализации данных и, во-вторых, создавать их так, чтобы они были этичными и точно передавали суть данных?

В точке пересечения искусства и алгоритма визуализация данных схематически резюмирует информацию для более глубокого понимания данных, добавляя к ним оттенок благоговейного трепета.
Мария Попова, Истории для Информационного века, Businessweek

Мое любимое описание данных принадлежит преуспевающему блогеру Марии Поповой, которая сказала, что визуализация данных − это «точка» пересечения искусства и алгоритма”. Узнать историю визуализации данных означает стать диванным картографом, исследователем и статистиком.

Ранние визуальные исследования данных были сфокусированы, в основном, на небольших обрывках информации, собранных по крупицам, чтобы расширить человеческое понимание географического мира, главным образом с помощью карт. Начиная с первых карт мира, созданных в 13 веке, ученые, математики, философы и моряки использовали математику, чтобы визуализировать невидимое. Были составлены карты звезд и солнц, береговых линий и корабельных маршрутов. Визуализация данных, в ее первоначальном смысле, прочертила линии, точки и координаты, которые придали форму физическому миру и нашему месту в нем. Она ответила на вопрос «Где я?», «Как мне туда попасть?» и «Насколько это далеко?».

Ранние визуализации данных также отвечали на вопросы, касающиеся общественного здоровья. Карта холеры в Лондоне, составленная в 1854 году эпидемиологом Джоном Сноу, была создана, чтобы зафиксировать случаи холеры в окрестностях Лондона и точно выявила причину вспышки − конкретный колодец. Это знание, полученное из закономерностей в списках имен, номеров и мест, позже было использовано для убеждения жителей Лондона в необходимости установки очистительных систем, чтобы уменьшить рост и распространение заболевания. Человеческий мозг − большой специалист в распознавании закономерностей, и хорошая визуализация данных, подобная карте Сноу, оптимизирует отображение этих закономерностей с помощью эффективного использования гештальттеории, принципов дизайна и цвета. (Или, в этом конкретном случае, его отсутствия).

Визуализация Сноу, лишенная цвета, оптимизирует гештальттеории визуального восприятия, в частности «Близость» и «Фигура и Фон». Маленькие черные точки, каждая из которых обозначает отдельный случай холеры, − это маленькие черные фигуры, выделяющиеся на светлом фоне (в этом графике − линии и белые участки, представляющие улицы). Близость этих точек вокруг зараженного колодца − вот что позволило Сноу установить конкретный источник вспышки. Сегодня, при всех наших продвинутых компьютерных системах и сложных инструментах создания визуализаций данных, мы мало чем можем усилить эффективность этой схемы. Она проста, прекрасна и правдива: визуализация данных, спасшая жизни.

cholera

Флоренс Найтингейл, известная больше благодаря своим навыкам медсестры, нежели аналитика, была, тем не менее, опытным исследователем данных и рассказчиком-виртуозом. С помощью данных, представленных в виде полярной диаграммы (которая обязана своим появлением самой Флоренс), она показала, что большинство смертей в Крымской войне были результатом предотвратимых болезней, вызванных ужасными санитарными условиями в госпиталях, и убедила британскую армию вложить средства в санитарно-профилактические мероприятия. “Почему мы болеем?” − спросила она, а затем сама ответила на этот вопрос, придав данным визуальную форму.

nightingale

При взгляде на этот график, становится очевидным, что предотвратимые болезни численно превосходят все прочие причины смерти. Синие участки, отмеренные от центра, отображают смерти от предотвратимых болезней, красные − от ранений, а черные − от всех других причин. Дизайнерские принципы, используемые здесь, включают в том числе и теорию цвета, чтобы задействовать и другие принципы гештальта: “Схожесть” и “Целостность”. С помощью цвета нам легче определить, к какой категории относится тот или иной сегмент. Он также способствует непрерывному движению взгляда по графику, облегчая его прочтение.

Существуют разные мнения о качестве этой диаграммы. Некоторые называют ее одной из лучших, наиболее запоминающихся визуализаций в истории, не только из-за силы визуальной коммуникации, но и вопреки ей. Ее помнят из-за тех изменений, которые она вызвала. Другие высмеивают ее, называют незаслуженно прославленной круговой диаграммой, неправильно отображающей информации из-за искажения данных: благодаря особенностям визуального восприятия людям сложно точно оценить величины, представленные разницей в площадях. Из-за этого, круговые диаграммы, несмотря на свою вездесущность, считаются весьма примитивным способом визуализации данных. Простая составная столбчатая диаграмма с осями координат (пусть и не такая же красивая и визуально интересная) все-таки более содержательная и читается быстрее.

Мы все еще задаемся теми же вопросами, что и Сноу, и Найтингейл, и, будучи существами любопытными, вероятно, будем задаваться ними всегда. Но главные отличия сегодняшнего дня − это то, что у нас есть средства для сбора намного более объемных и качественных наборов данных. Кроме того, мы обладаем инструментами, которые автоматически визуализируют наши данные.

Мы не хотим сказать, что маленькие наборы данных, вроде тех, какие наблюдали Найтингейл и Сноу, менее ценны или интересны, скорее наоборот − и именно благодаря интернету, достижениям в областях технологии сбора данных и развитию портативных (носимых) компьютеров. Моя подруга Джен Лоу, исследовательница данных и художница, проживающая в Нью-Йорке, недавно выложила в интернет свое сердцебиение. Как плоская статическая визуализация оно было бы красиво, но не слишком информативно. Однако, с добавлением интерактивности и потока данных о ее пульсе, поступающего в режиме реального времени через носимые датчики и API-вызовы, ее сердцебиение стало живым, бьющимся, цифровым объектом, видимым каждому в любом месте, в любое время. В результате вы получаете новое видение человеческого существа.

Уникальные знания − это суть данных (и больших, и маленьких), а также результат инструментов, позволяющих нам получать доступ, исследовать, идти на ощупь, анализировать, визуализировать и, хотелось бы надеяться, понимать их. Инструменты демократизации визуализации данных дают нам возможность изменить наше видение мира, создавая картины человечества с различных ракурсов, фокусируясь на невидимых ранее историях о человечестве и мире, позволяя нам открывать себя с новой стороны.

Келли Нейлан (Callie Neylan)
Старший дизайнер, MICROSOFT