如果伦敦地铁图是数据科学家画的……

简介:

我们每天乘坐的地铁是一个恢弘的艺术作品。

抛开路线、站点的规划不说,地铁的线路图本身就蕴藏了极其精妙的设计。

比如说伦敦地铁图。

伦敦的地铁路线图图可谓是地铁路线图的鼻祖。多年来,它形成的配色与排版方案,造就了它独特的外观和风格,但最令人惊叹的,还是其神来之笔的设计思路。

拥有13条路线,300多个站点,伦敦地铁的结果复杂至极。一些站点甚至连接了3到4条路线。

怎样才能有效地可视化这个网络?

20世纪初的设计大师Harry Beck交出了一份堪称完美的答卷。今天,一位数据科学家Keith McNulty也想来重新挑战一下这个难题。

这场跨越时空的pk究竟谁更胜一筹呢?赶紧搬来小板凳!

选手A:20世纪天才设计师Harry Beck

20世纪初期,伦敦在过去的半个多世纪内完成了很多雄心勃勃的地下和地面铁路项目,建成了一系列相互连接的复杂路线。

当年,伦敦地铁地图的设计者Harry Beck惊奇地发现,人们乘坐地铁时,他们并不在意自己所在的地理位置——他们真正关心的是乘坐多少站以及在哪里需要换乘。

意识到这点,Beck设计了今日地铁图的初稿,以一种尽可能简单的方法将所有线路绘制成直线,清楚显示线路互相连接的位置。

但Beck也知道,线路的地理方向是也不能在设计中被完全忽略,否则人们无法辨认东南西北——在看地图时,人们需要基本的方向感。

所以,在许多方面,Beck的地图富有设计感又兼顾准确性。

于是,他就创作出了下面这幅地铁路线图

c36d2115e8a77cab69d9893c4cdd74ae36d6d22b

请一秒钟记住这张图!

先不急着给出评价,接下来让我们来看看当代选手的作品。

选手B:21世纪数据科学家Keith McNulty

Keith给出了两种方案,分别遵从两种极端的设计原则。

1.完全忽略地理位置:使用“力导向图”决定站点的位置,与实际地理位置信息不相关。

2.完全遵从地理位置:类似于原始早期的Beck地铁图,使用空间坐标将网络叠在伦敦地铁上。

首先,我们需要找一个能够呈现伦敦地铁网络的数据源,包括站点和线路信息。

好消息是,这样的数据集已经在网上公开啦。这份数据甚至包含了地图线路的十六进制颜色编码。顺便说一下,伦敦交通局(Transport for London)发布过一个设计风格指南。

数据集:

https://github.com/nicola/tubemaps/tree/master/datasets

1、完全无地理信息的地铁图方案

现在,我们需要一个能够生成力导向图,并能够轻松进行可视化的算法。

R中 networkD3的forceNetwork()函数就是不二的选择 。

鉴于已有的数据和networkD3函数易于使用,这里不需要写太多复杂的代码。我们先加载库和三个调整过的原始文件。

 

# load libraries
library(networkD3)
library(dplyr)
# load data
stations <- read.csv( "stations.csv" )
connections <- read.csv( "connections.csv" )
lines <- read.csv( "lines.csv" )

stations 数据框(dataframe)只是一个列表,包含站点名称、每个站的ID号码以及站点的空间坐标(因为我们现在不考虑地理位置,所以暂时不需要该信息)。地铁图总共有302个站点。

lines数据框是包含整个网络13条线路的列表,附带线路的ID号码、线路名称和官方颜色。

connections 数据框表示所有线路任意两个站点之间的连接和连接线路的号码。这里共计有406个连接。

首先,让我们将网络的边变成官方地铁图的配色,并且根据节点所处的线路给节点(即站点)上色。当节点属于多条线路时,我们可以选择ID号码最小的线路为该节点的颜色。这意味着我们需要在stations 和connections 数据框中增加几列,用来获取站点的颜色和连接的颜色。

 

# bring in line colour into connections dataframe for edge colours

connections <- merge(connections, lines)

connections <- connections[ ,c( "station1" , "station2" , "line" , "colour" )]

# define a colour for each station using min of line ID

connections_unique_lines1 <- connections %>% dplyr::group_by(station1) %>%

dplyr::summarise(line = min(line))

colnames(connections_unique_lines1) <- c( "station" , "line" )

connections_unique_lines2 <- connections %>% dplyr::group_by(station2) %>%

dplyr::summarise(line = min(line))

colnames(connections_unique_lines2) <- c( "station" , "line" )

connections_unique_lines3 <- rbind(connections_unique_lines1, connections_unique_lines2)

connections_unique_lines <- connections_unique_lines3 %>% dplyr::group_by(station) %>%

dplyr::summarise(line = min(line))

# merge line IDs into stations dataframe

stations <- dplyr::left_join(stations, connections_unique_lines, by = c( "name" = "station" ))

# merge with lines dataframe to capture line_name

stations <- dplyr::left_join(stations, lines, by = "line" )

现在大部分工作已经完成。我们只需要对站点的索引从零开始进行编号,以符合的 D3.js格式要求:

 

# create indices for each name to fit forceNetwork data format

connections$source.index <- match(connections$station1, stations$name) - 1

connections$target.index <- match(connections$station2, stations$name) – 1

现在,我们有了绘制网络的所有东西。我们将使用networkD3包中的forceNetwork() 函数。

connections数据框包含了我们所需要的线路,而stations 数据框包含了节点的详细信息。我们使用stations数据框中的line_name 列对站点分组,以便对节点进行颜色编码;我们使用 connections 数据框中的 colour 列对线路进行颜色编码(根据线路的官方颜色)。

我们还需要定义与线路匹配的节点颜色,以及与伦敦地铁图相近的字体。我用的是Gill Sans,虽然它是非官方字体,但是非常接近(Eric Gill实际上为设计了原始地铁图字体的Edward Johnson工作)。

此处是生成网络的代码。

 

networkD3::forceNetwork(Links = connections, Nodes = stations,
Source = "source.index" ,
Target = "target.index" ,
NodeID = "name" ,
Group = "line_name" ,
colourScale = JS( 'd3.scaleOrdinal().domain(["Bakerloo",
"Central",
"Circle",
"District",
"East London",
"Hammersmith & City",
"Jubilee",
"Metropolitan",
"Northern",
"Piccadilly",
"Victoria",
"Waterloo & City", "Docklands"]).range(["#AE6017",
"#FF0000",
"#FFE02B",
"#00A166",
"#FBAE34",
"#F491A8",
"#949699",
"#91005A",
"#000000",
"#094FA3",
"#0A9CDA",
"#88D0C4",
"#00A77E"])' ),
linkColour = as.character(connections$colour),
charge = -30 ,
linkDistance = 25 ,
opacity = 1 ,
zoom = T,
fontSize = 12 ,
fontFamily = "Gill Sans Nova" ,
legend = TRUE)

最后的结果就是这样啦

90a4d2a1433e32ccf18273a770c49348f9ef618f

动态演示可以在这儿查看:

185de9d8866993b721f0e4e5b926d3f9ae187dbd

http://rpubs.com/keithmcnulty/tubemap

在绘制这张图时,我们完全不考虑地铁图的地理位置意义,将Beck的设计原则发挥到极致,并借助数据科学方法以最美观的方式将地铁图可视化。

如果你熟悉伦敦的区域分布,你会发现很多奇奇怪怪的事情。比如,现在位于伦敦南部的是艾坪镇(Epping)而非埃塞克斯(Essex)了。这对用户来说是非常糟糕的。

2、地理位置完全精确的地铁图方案

让我们看看另一个极端:完全遵从地理位置。

我们将主要使用ggplot2,当然这里还需要一些其他的库。

 

# load libraries
library(dplyr)
library(ggplot2)
library(sp)
library(rgdal)
# load data
stations <- read.csv( "stations.csv" )
connections <- read.csv( "connections.csv" )
lines <- read.csv( "lines.csv" )

为了完全遵从地理位置,我们可以将这些站点直接绘制在一张伦敦地图的相应位置。

在这里我们可以获得一份包含行政区边界的伦敦地铁图文件。

链接:

https://data.london.gov.uk/dataset/statistical-gis-boundary-files-london

首先,将其解压缩到一个名为london-map-data的文件夹中。然后,将数据转换成 ggplot2 可以使用的格式。

 

# import London borough GIS data
london <- rgdal::readOGR(file.path( "london-map-data" ))
sp::proj4string(london) <- sp::CRS( "+init=epsg:27700" )
london. map <- sp::spTransform(london, sp::CRS("+init=epsg:4326"))

有了正确格式的伦敦地图数据,我们便可使用ggplot2绘图。

 

# plot London boundaries

map1 <- ggplot(london. map ) +

geom_polygon(aes(x = long , y = lat, group = group), fill = "white" , colour = "black" )

map1 <- map1 + labs (x = "Longitude" , y = "Latitude" , title = "London Tube Routes" )

在这张简单的地图上,我们会画上地铁线路和站点:

07d195c10f9d1d47b364e232ba6909e6ed59cef4

因为stations 数据框有每个站点的空间坐标信息,画站点就十分方便。要绘制线路,我们需要将每个站点的空间坐标与 connections数据框相匹配。

 

# get spatial co-ordinates for each station pair in network
connections <- connections %>%
dplyr::inner_join(stations, by = c( 'station1' = 'name' )) %>%
dplyr::rename(x = longitude, y = latitude) %>%
dplyr::inner_join(stations, by = c( 'station2' = 'name' )) %>%
dplyr::rename(xend = longitude, yend = latitude)
connections <- merge(connections, lines)

由于ggplot2的调色板缺少部分十六进制的颜色,我们还需要人工选取与官方配色最接近的线路颜色。

 

# define line colours

linecolours <- c( "brown" , "yellow" , "pink" , "grey" , "lightblue" , "red" , "darkgreen" , "orange" , "maroon" , "black" , "darkblue" , "lightgreen" , "#00A77E" )

names(linecolours) <- lines$line_name

万事俱备,我们只需要在伦敦地图上绘制站点和线路即可——为求真实,这里我们仍旧使用Erci Gill的字体。

 

# plot network on London map
map1 +
geom_point(data = stations, aes(x = longitude, y = latitude)) +
geom_curve(aes(x = x, y = y, xend = xend, yend = yend,
color = line_name),
data = connections, curvature = 0.33 , size = 1 ) +
scale_color_manual(values = linecolours, name = "Line" ) +
theme(text = element_text(family= "Gill Sans Nova" ))

更清楚的地铁图:

http://rpubs.com/keithmcnulty/geotubemap

db3907913c69340a6c93b7dbf155c5227b1614c0

就是这样!

这张路线图虽然完全遵从了地理位置信息,但位处市中心的几个关键站点却挤到了一起,难以分辨,反而是位于郊区的站点得到了更充分的展示。

让我们最后再回过头看看Harry Beck的作品。

dbb3d5f352dda6b508ca288b4c1c934d05721eae

这张地铁图既保证了站点信息的清晰可见,又极大程度地还原了站点的相对地理位置。

更厉害的是,合理的信息分布让这一切都能被很好地呈现在一张小纸片上。

Harry的作品也被称为“世上最易识别和最有影响力的交通地图”。在此之后,几乎所有城市的地铁线路图设计方案都遵从了Harry当年的原则。

在折腾了这一通之后,这位数据家Keith McNulty也表示,他输得心服口服了。

“没有什么能替代人类聪明的设计——是的,什么都不行!” Keith McNulty发出了这样的感叹。


原文发布时间为:2018-09-9

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关文章
|
机器学习/深度学习 算法 Serverless
2021年MathorCup高校数学建模挑战赛b题:三维团簇的能量预测(三等)
2021年MathorCup高校数学建模挑战赛b题:三维团簇的能量预测(三等)
96 0
|
5月前
|
数据可视化 数据挖掘 Python
在模仿中精进数据可视化04:旧金山街道树木分布可视化
在模仿中精进数据可视化04:旧金山街道树木分布可视化
44 3
|
5月前
|
自然语言处理 数据可视化 安全
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,涉及疫情背景下周边游需求图谱分析,包括微信公众号文章分类、周边游产品热度分析、本地旅游图谱构建与分析,以及疫情前后旅游产品需求变化分析的Python实现方法。
150 1
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
|
5月前
|
数据挖掘 调度 Python
【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 Baseline
第十届“泰迪杯”数据挖掘挑战赛B题的基线解决方案,涉及电力系统负荷预测分析,包括数据读取、特征处理、模型训练和评估,以及使用了LightGBM进行回归预测。
176 3
|
5月前
|
存储 自然语言处理 算法
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题二方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于疫情背景下的周边游需求图谱分析,具体针对问题二“周边游产品热度分析”,介绍了从OTA和UGC数据中提取旅游产品、计算产品热度得分、判断产品类型的方法,并给出了Python实现步骤和代码。
101 1
|
5月前
|
存储 数据可视化 数据挖掘
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题三方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于问题三“本地旅游图谱构建与分析”,介绍了基于OTA和UGC数据的旅游产品关联分析方法,使用支持度、置信度、提升度来计算关联度得分,并进行了结果可视化,同时指出了方案的改进方向。
95 1
|
5月前
|
机器学习/深度学习 数据采集 算法
【2021 数学建模国赛】B题:空气质量预报二次建模 1 赛后总结与分析
对2021年数学建模国赛B题“空气质量预报二次建模”的赛后总结与分析,涵盖了题目要求、解题思路、数据处理方法以及作者在比赛过程中遇到的挑战和反思。
75 0
【2021 数学建模国赛】B题:空气质量预报二次建模 1 赛后总结与分析
|
5月前
|
监控 安全 量子技术
【2023 年第十三届 MathorCup 高校数学建模挑战赛】 B 题 城市轨道交通列车时刻表优化问题 详细建模方案及代码实现
本文详细介绍了2023年第十三届MathorCup高校数学建模挑战赛B题的城市轨道交通列车时刻表优化问题,提供了详细的建模方案、优化目标、约束条件以及MATLAB代码实现,旨在最小化企业运营成本并最大化服务水平。
70 0
|
5月前
|
机器学习/深度学习 数据挖掘 Python
【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 问题二 时间突变分析 Python实现
第十届“泰迪杯”数据挖掘挑战赛B题中对电力系统负荷预测分析进行时间突变分析的Python实现方法,包括定义绘图函数、应用阈值查找异常值、手动设置阈值、使用分位数和3Sigma原则(IQR)设定阈值,以及根据分位数找到时间突变的步骤,并提供了完整代码的下载链接。
118 0
|
8月前
|
存储 自然语言处理 数据可视化
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

热门文章

最新文章