鲜活的数据:数据可视化指南
上QQ阅读APP看书,第一时间看更新

1.1 不只是数字

让我们面对现实——如果在一开始我们不知道自己想了解什么,或者不知道有什么可以去了解,那么数据就是枯燥的。它不过是数字和文字的堆砌,除了冰冷的数值之外没有任何意义。而统计与可视化的好处就在于能帮助我们观察到更深层次的东西。请记住,数据是现实生活的一种映射,其中隐藏着许多故事,在那一堆堆的数字之间存在着实际的意义、真相和美学。而且和现实生活一样,有些故事非常简单直接,有些则颇为迂回费解。有些故事只会出现在教科书里,而其他一些则体裁新奇。讲故事的方式完全取决于你自己,不管你的身份是统计学家、程序员、设计师还是数据研究者。

以上就是我作为一名统计学研究生所学到的第一课。我必须承认在接触这门课之前,我一直认为统计学就是一门单纯的分析学科,而数据也只不过是一种机械式作业的产物而已。的确,在很长一段时间内我都这么想——毕竟,作为一名电气工程专业的大学毕业生,用这种眼光来看待数据是情有可原的。

不要误解我的意思,有这种看法未必是一件坏事。但我在数年后认识到,数据虽然有很强的客观性,但其中往往也存在着人的因素。

比如说,让我们再来看看失业率问题。说出一个全国平均数字很容易,但正如我们所见,不同地区对每个人的意义是不一样的,甚至连街区的远近都会造成差异。如果你认识的某个人这两年一直没有工作,其实是很难把他视为一个冷冰冰的统计数字的,不是吗?这些数字代表的是活生生的人,所以我们处理数据时必然会带有感情因素。当然,我们也不可能讲述每一个人的故事,但在“失业率攀升5个百分点”和“数十万人失业下岗”之间还是有着微妙但重要的区别。前者读起来只是一个没有多少上下文背景的数字,而后者却更能让人产生共鸣。

1.1.1 新闻报道

在《纽约时报》的图形设计实习机会让我感触颇深。虽然那只是我研二暑假期间的短短三个月而已,但它影响了我此后处理数据的方式。我学会的不仅是为新闻绘制图表,我还学会了如何像报道新闻那样报道数据,而这需要更多的精力去设计、组织、核查、追踪和研究。

有一次我的任务是核实某个数据集中的三个数字,因为《纽约时报》的图形编辑部在绘制图表时,必须确保报道的所有数据都是准确无误的。我们只有在确信所有数据都可靠之后,才会去考虑表现层面的问题。正是这种对细节的关注让该报的图表如此优秀。

《纽约时报》的任何一个图表都是如此。它将数据表现得非常清晰、简洁,甚至可以说是优美。这代表着什么呢?只有在阅读这样的图表时,你才能理解数据的意义。重要的点或区域都带有注释,使用的符号和颜色都进行了详细的说明,而且它能让读者轻松地了解数据中的信息。这已经不仅是图形了,这简直是图形的艺术。

图1-1就类似于你在《纽约时报》中所看到的那些图表。它显示了各年龄段的人在未来一年内死亡的概率。

图1-1 不同年龄段的死亡概率

▶访问http://datafl.ws/nytimes,欣赏《纽约时报》的一些优秀图表。

这张图表从根本上来说只是一个折线图(line chart)而已,但是其中的设计元素让它显得生动:指针和标记提供了上下文环境,便于读者理解这些数据的有趣之处,而曲线的颜色和宽度则将他们的视线引导到重要的地方。

图表和图形并不只是将统计结果可视化,它们还对可视化展现的内容进行解释。

说明 观赏Geoff McGhee的纪录片Journalism in the Age of Data(数据时代的新闻业),了解新闻记者是如何运用数据来报道当今事件的。片中采访了许多业界高人。

1.1.2 艺术

《纽约时报》是客观的。它为人们呈现数据、展现事实,而且干得很棒。但可视化的另一面则不太注重分析,而更多偏重于挖掘人类的情感,比如Jonathan Harris和Sep Kamvar的作品We Feel Fine(见图1-2)。

图1-2 Jonathan Harris和Sep Kamvar的作品We Feel Fine(另见彩插图1-2)

这件交互作品可以从各个公开的个人博客中抓取词句,然后将它们以悬浮气泡的形式展现出来。每一个气泡都代表着某种情绪,而且有相应的颜色标记。从整体来看,气泡就像无数个体在空间中无止境地漂浮,但观察一段时间之后你就会发现它们开始聚集。如果在顶部菜单中选择各种分类,还能看到这些貌似随机的片断之间的联系。点击单独的气泡可以看到它自身的来龙去脉。整个作品既富有诗意又能给人以启迪。

▶访问http://wefeelfine.org,欣赏Jonathan Harris和Sep Kamvar的在线作品,并探索人们此刻的情绪。

还有很多类似的例子,比如Golan Levin的The Dumpster(垃圾桶),它同样也是抓取博客,但只涉及与他人断绝关系的内容。还有Kim Asendorf的Sumedicina,讲述了一个人脱离腐败组织的虚构故事,里面没有只言片语,只有图形图表。这样的例子还包括Andreas Nicolas Fischer展现美国经济滑坡的实体雕塑。

▶访问http://datafl.ws/art,观看FlowingData上更多有关数据和艺术跨界的例子。

重点是,数据和可视化并不一定只能和冰冷的、不争的事实相关。有时我们寻求的并不是分析和洞察,而是从富有情感的观点来讲述故事,鼓励读者对数据作出回应。并不是所有的电影都必须是纪录片,同样,也并不是所有的可视化都必须是传统的图形或图表。

1.1.3 娱乐

在新闻报道和艺术创作之间,可视化在娱乐领域也找到了一席之地。如果我们以更为抽象的角度来看待数据,在电子表格和带分隔符的文本之外,将照片和状态更新也包括在内,那么就不难发现这一点。

Facebook利用人们的状态更新来判定一年中最快乐的日子是哪一天,而在线约会网站OkCupid则根据用户的在线信息来估算人们会怎样夸大自己在数字世界中的形象,如图1-3所示。这些分析并不会为网站带来业绩的提升、收入的增加,也不可能帮助排除系统故障,但它们却因为娱乐方面的价值而像野火一样迅速在互联网上四处传播。数据能在一定程度上折射出我们自身和社会的投影。

图1-3 OkCupid上的男性身高分布

Facebook发现一年中最快乐的日子是感恩节,而OkCupid发现人们一般都会将自己的身高夸大2英寸(约5厘米)左右。

▶ 访问OkCupid的博客OkTrends(http://blog.okcupid.com)以查看有关网上约会的更多发现,例如白色人种最喜欢的是什么,以及如何在细节处保持形象。

1.1.4 引人注目

当然,并不是所有的故事都以增长见闻或者娱乐大众为目的。有时候它们是为了提出倡议或者呼吁人们作出行动。在纪录片《难以忽视的真相》中就有令人难忘的一幕:主讲人Al Gore要依靠剪叉式升降机的帮助才能靠近二氧化碳的上升曲线。

不过在我看来,卡罗琳学院的国际卫生学教授、Gapminder基金会理事Hans Rosling在这方面才是真正的无人能及。Rosling曾经运用一款叫做Trendalyzer的工具(见图1-4),以动画的方式来展现世界各国摆脱贫困的历程。在他的那次演讲中,所有观众从一开始就被深深吸引到数据的世界里,而在结束时都情不自禁地起立鼓掌喝彩。真的非常精彩,强烈建议不要错过。

图1-4 Gapminder基金会开发的Trendalyzer软件(另见彩插图1-4)可选择中文演讲稿。

▶欲知Hans Rosling如何用数据和精彩的演示赢得现场观众的喝彩,访问http://datafl.ws/hans

他运用的可视化技巧非常简单,不过是一种可运动的图表而已。其中的气泡代表各个国家,根据该国的贫富程度在时间轴上移动。那他的演讲为何会如此大受欢迎呢?因为Rosling在演讲时充满着信念和激情。他是在给大家讲故事。我们都遇到过配有图形图表演示的演讲者,但其中绝大多数都让观众昏昏欲睡。而Rosling却把握住了数据背后的意义,并将其作为自己的优势,最后的吞剑表演则更是水到渠成的一笔。在看了Rosling的演讲之后,我忍不住想亲手把玩那些数据,重温一遍他所讲的故事。

之后我又看过Gapminder基金会的另一次演讲,相同的主题、相同的可视化方式,但却是另一位演讲人。这次就不那么令人兴奋了——说老实话,称其为催眠曲也不为过。在数据中观众感觉不到任何情绪,也不能让人从中感到任何信念或激情。由此可见,数据本身或许并不一定趣味盎然,令人产生深刻印象的是你设计数据和演示数据的方法。

综上所述,我们应当以讲故事的角度来思考如何可视化。你打算讲一个什么样的故事呢?它的体裁类似于报告还是小说?你是否想说服人们应当采取某种行动?

和小说中的人物成长一样,每一个数据背后都有它自己的故事,如同书中的每一个角色都有着各自的过去、现在和未来。那些数据彼此之间充满着互动和联系,如何表现出这些关系则取决于你自己。这就像在动笔写小说之前,我们必须先学会遣词造句一样。