航运大数据的罗生门

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

1、什么是航运大数据?

2015年夏,国务院相继出台了《关于运用大数据加强对市场主体服务和监管的若干意见》和《促进大数据发展行动纲要》,一时间各行业大数据风起云涌,就连古老的航运业也加入了这支浩荡的创新队伍之中。

大数据概念炙手可热,可是其内涵却扑朔迷离。关于什么是航运大数据这个问题:如果你问IT人,他会跟你举出NoSQL、Hadoop、Spark之类的新技术,换句话说IT人眼中的大数据是传统技术解决不了的数据问题;如果你问港口、航运从业者,他们会想到是业务上涉及的数据可以轻松获取,数据调查、分析可以更容易,战略规划可以依靠数据来说话,甚至想到自己的饭碗可能会被大数据取代,换句话来说港航从业者眼中能用数据来解决问题就是大数据;

如果你问政府官员,他会告诉你大数据是政府信息公开,推进行业大数据的应用,运用数据科学监管,服务行业服务社会等,可见在政府官员眼中数据的开放、共享、应用就是大数据。所以,一个有趣的现象发生了,那就是大家明明对大数据的理解不同,却能聊在一起,这是为什么呢?航运大数据之所以被各界关注,本质还是因为数据是用来支撑经营和决策的,当人们觉得大数据是未来的发展方向时,就急于去了解和掌握它,希望自己可以在竞争争取上游、避免淘汰。在低迷了近9年的航运市场里,这种心情的迫切程度可想而知。

笔者曾在《大数据时代的航运信息平台》一书中,给出过航运大数据的定义:航运大数据(Shipping Big Data)是指航运业务、管理、监管等领域产生的海量数据,以及围绕这个数据规模有效的融合、存储、加工、查询、分析相关技术和解决方案的统称。主要可以解决三大问题:实时数据计算、历史数据分析、未来数据预测。这个定义算是开宗明义,为我们下面的探讨打一个基础。

2、航运大数据究竟处于哪个阶段?

要探讨航运大数据首先要认清我们处于哪一个阶段,不用谈之色变。我们正处在一个经济泡沫尚未消退,概念泡沫迅速膨胀的时代,理论上可行的概念和实践之间距离越来越大。

拥有数据和掌握数据一样吗?比方说,你的电脑上有1万张照片,你能很快找到你儿子划船的那张吗?你每天要处理大量的公务文件,你能马上找出首付款只有30%的那份合同吗?虽然你知道他们就在你的硬盘上。所以说,拥有数据和掌握数据是不一样的,所以你还没有掌握数据的时候,谈什么大数据都是空谈。

面对大数据航运业的各个主体又何尝不是面临着这样的窘境呢?

比如,政府要做信息开放和大数据应用时,发现单位里几十套信息系统的数据结构、内容很难理清楚,企业填报的监管数据可靠度不清楚,行业需要什么样的数据服务不清楚,该怎么实施大数据的路径也不清楚,有一些敏感的数据如何脱敏公开也不清楚;

又比如,企业做大数据,着可以分三类。

  • 第一类是大的港航企业,它们在这个行业生存,现在的体量已经很大,一般都是有很清晰的主营业务了,这些主营业务盈利状况还好的话,他们很难有创新机制去探索大数据应用,因为所有的数据都在为核心业务的流程推进服务,那些需要冒大风险去尝试新兴市场机会的决策难以产生,即使运用大数据做一些分析,也只是停留在企业BI(商业智能)分析上,很少有新业务和对外服务的应用;
  • 第二类是中小企业,它们的数量非常庞大,比如上海的货代就有1万多家,虽然提单、报关、贸易、拖车等方面的数据都会通过它们,但是它们未必有统一的信息系统,零散的数据很难汇集并产生数据的规模效应;
  • 第三类是航运电商企业,它们的业务很多都是在线提供的,对信息的格式的标准化呀,还有业务的线上执行都有比较高的要求,也存在要给客户提供数据服务的需求,也存在尝试高风险、高收益的创新勇气,所以这些企业对大数据更为看重,寄希望于推出增值服务和带动盈利增长,但是由于航运业的线上交易量尚未形成气候,可以用来分析的数据太少,虽然可以依赖网络爬虫来抓取但是朝不保夕,有公信力的大数据分析一定要基于充足的样本,这成为这些企业目前无法真正突破大数据的瓶颈。

那么今天,你如果要问我,我们究竟处于哪个阶段?我可以告诉大家不用紧张,虽然大数据的概念很好,但是,我目前还只是处于起步阶段。

3、航运大数据很难做

罗马是一天建成的吗?做大数据绝对不是三两年就能够做成的一件事情,因为它是需要一个土壤和基础的。比如说我们港口、航运业的数据规范性、一致性、数据共享程度都不高的话,大数据是很难发展起来的。

最先去实践大数据的都是些什么样的行业呢?是一些没有实物商品和线下服务的领域。比如,金融行业大部分交易都在网上的信息系统中完成,数据的规范性和准确性都有良好的保障,所以能先发展大数据;还有出版行业、媒体、手机app这些行业,用户的消费可以虚拟提供,还可以在提供服务时采集用户数据,比如看视频的网站可以分析用户喜欢什么内容,手机app市场可以分析每个软件的用户年龄结构等。

所以,航运业属于目前还不适合做大数据的行业,一旦一种服务,要通过线下实际的线下去提供一种商品和服务,而不能够完全通过信息系统去解决,就会导致很多数据不会保存下来,失去了做大数据的基础。所以,要么让机器代替人去线下搜集数据,要么把交易和服务完全放到线上来,航运大数据因此也就只有两个来源,那就是物联网和航运电商。

即使有了电商平台,大数据的发展也要很长的周期。例如提供实物商品交易的淘宝网,大约在2005年左右成立上线,发展到2010年才刚刚完成利用数据支撑平台运营,到2015年才真正有能力面向社会提供各种大数据分析服务。

所以,笔者大胆的预言,航运大数据大行其道应该需要10-20年的发展周期。

4、航运大数据的真正价值在于细节和异常分析

虽然航运大数据的发展道路任重道远,但是航运业原本就有一些传统数据服务。这些服务基于一些抽样、人工采集、统计分析的手段,已经在为这个行业提供着重要的信息。与他们相比,航运大数据要长足发展必须找到自身的优势,那就是对细节和异常的分析。

一方面,传统指标数据对于表达宏观信息效果已经很好,大数据能弥补其在微观分析上的不足。大多数情况下,指标性数据已经可以解决大部分企业的需要了,但它没法还原出很多细节的问题。比如,像各家班轮公司的船期表、船舶的建造信息、某个船东的船队阵容、每个港口各种货物的吞吐量等这较宏观的数据,现在都能比较方便的获得。但当我们把问题深挖一层,我们想知道船期表上每个班次的准点率、每条船的准点率,船舶的每次维修费用和加油量,某个船东在各个航线上的运力投放策略,港口货物吞吐量中小麦的水路转运量和目的地等,这些传统统计口径没法回答,这就是大数据擅长的方面了。

另一方面,传统的数据描述着这个航业通常的运行情况,但是无法感知异常情况的发生。很多时候数据是平淡而乏味的,比如大部分的船都是长期来往于自己善于经营的区域,偶尔查询一下船舶位置也会发现没什么变化。但是,有一天某一种船型突然开始转移到一个航线上,一些船被悄悄的封存起来了,一些航道突然进入了一些比以往更大的船,这样的变化要在初期发现就需要计算机长期精确的分析,而不是人工偶尔的抽查,这些异常情况往往蕴含着重要的信息。

5、结语

写这样的一篇文章,并不是要为航运大数据泼一盆冷水,而是希望与所有正在关注、从事航运大数据的朋友们共勉,路漫漫其修远兮,不论今天大数据的概念如何风光,明天大数据的概念是否会被淡忘,只要我们坚信数据中蕴含着能让航运业变革的重要信息,我们就要踏踏实实的把大数据做成实事,真正做好,不忘初心、上下求索!


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
289 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
44 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
86 1
|
25天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
62 4
|
1月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
1月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
58 3
下一篇
DataWorks