2014 BDTC 参会有感

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

中国大数据技术大会(Big Data Technology Conference,BDTC)是目前国内最具影响、规模最大的大数据领域的技术盛会。大会的前身是Hadoop中国云计算大会(Hadoop in China,HiC)。从2008年仅60人参加的技术沙龙到当下的数千人技术盛宴,作为业内极具实战价值的专业交流平台,已经成功举办七届的中国大数据技术大会忠实地描绘了大数据领域内的技术热点,沉淀了行业实战经验,见证了整个大数据生态圈技术的发展与演变。

为了迎接大数据时代的到来,更好地交流大数据的实践经验,进一步推进大数据技术创新与应用,展示国内外大数据领域的最新科研成果,2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所与CSDN共同协办的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将在北京新云南皇冠假日酒店隆重举办。

大会官网:http://bdtc2014.hadooper.cn/m/zone/bdtc_2014

由于我家在上海,没想到要去。一来是最近很忙,有很多事情要做;二来还是比较折腾的,想着看视频回放吧;三来比较贵,此去一行要花费近5K大洋。但是后来CSDN送票;还有人帮忙报销路费;住宿也不是问题,毕竟三个姐姐都在北京;因此成行。

首先感谢CSDN,不单单是因为送我票,CSDN也是本次大会的协办单位;在会场看到了很多的CSDN的小伙伴,非常辛苦。

先说几个最大的感受:

1. 会议组织的很好;不单是Speaker准备的很好,部分的内容很有深度;硬件也不错,比如同声传译。

2. 参会人员很多,遇到了很多熟悉的面孔,其中不乏从上海,杭州赶过去的;而且目测有一些我厂小伙伴(通过我厂背包)。

3. 展台很多。可以从各个创业公司的海报看到他们的产品,从产品可以看出行业一些基本的需求点和大家的关注点。

4. 见到了Doug Cutting  大神。虽然想去签名+拍照,但是为了保持自己的矜持就没有挤上去。

5. Spark的确是大家的关注点,很多Speaker不时的会提到Spark,甚至做超机的高光荣教授 教授。 

6. 大家一致认为大数据刚刚落地,甚至有嘉宾激进的认为现在和80年代PC刚起步一样,现在大数据所面临的问题比如计算存储网络资源在不久的将来将不复存在(问题是不断演进的吧,比如是否可能会有计算模型定义的硬件,即computing defined hardware,呵呵)

7. 干货很多,节奏很快,基本上没有QA的环节。

由于周日的技术论坛分了大数据生态系统,大数据技术,大数据应用和大数据基础设施等4个分论坛,而且时间是完全重叠的,因此只能选择自己感兴趣的去听。接下来分享一下印象比较深的几场。先分享第一个:

2015年大数据基础技术的演进趋势:孙元浩  星环科技CTO

四个趋势:

1. 混合架构将逐渐消失

2. 固态盘将替代内存作为缓存

3. 实时大数据技术得到广泛关注

4. 云计算和大数据终于可以融合

对于第一个趋势,我认为在小公司是可以的,毕竟维护多个架构的运维成本,集群成本都很高。如果一个架构可以满足大家需求,那么将计算资源整合到一块为整个公司服务绝对符合公司的利益。但是对于BAT这种超大的公司,可能根本就不会存在一个通用的架构。很多地方的运算都会苛刻,比如延时,比如吞吐。为不同的应用场景搭建不同的架构,BAT不单是由技术人员去实现,运维人员去运维,而且还有应用场景的强需求。可能离线和近线使用统一的架构在理论上是可能的;但是在线部分至少在现在,还没有看到这个趋势。

第二个趋势,还是非常有可能的,毕竟如果为一个计算场景设计一个特殊的文件格式,那么SSD的确可以达到很高的性能。而且成本不高,容量巨大,的确是大家应该认真思考的地方。EMC的MCF,就是使用SSD作为一层缓存,还是取得了很好的性能优势的。机械硬盘最大的问题在于随机读,一个寻道直接耗费10ms这个量级,要知道很多在线系统的总延时也不过数百ms;对于高频交易系统,大家的时间维度都是在us,甚至大家为了解决数据在内存到网卡之间的传输延时而设计了专门的硬件,为了避免TCP多次握手和ack带来的延时而实现了“可靠”的UDP。通过为不同的场景设计特殊的SSD的文件格式,SSD的性能得到最大程度的提升;这个趋势,值得大家关注。

第三个趋势,实时大数据不单在大公司得到重视,小公司也是如此;大公司实际上早已在生产环境完成了相关场景。而对于小公司,可能第三方的架构就非常重要了,毕竟从人力,物力来说很难开发一套可用的实时大数据系统。这就导致了相关技术会继续得到关注,社区也会持续在这方面进行改进。

第四个趋势,云计算和大数据终于可以融合。云计算大数据作为商业的噱头炒作了已经很多年了。但实际上,大数据才刚刚开始,大数据时代的帷幕已经徐徐拉开并且大家都在专注的实现一些可以为公司,为用户创造可见价值的技术。尤其是Docker,和在其上面的Google Kubernetes,作为一个轻量级的container,为资源部署,资源隔离等制定一个标杆。相信spark等平台以后会加入对他们的支持。 虚拟化技术这些年,解决了很多问题,也带来了很多问题;而docker,解决了虚拟化带来的问题,比如性能。

(未完待续)

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
数据采集 Windows
LabVIEW调用DLL时出现异常0xc0000005代码
LabVIEW调用DLL时出现异常0xc0000005代码
256 0
|
Web App开发 自然语言处理 iOS开发
GitHub 中文化插件
这款插件专为GitHub设计,实现菜单栏、标题及按钮等元素的汉化,并提供项目描述的人机翻译,助力新手快速上手。相较于浏览器自带翻译,准确性更高。安装需先配备Tampermonkey或Violentmonkey,随后从GreasyFork安装插件,重启GitHub即现中文界面。
656 0
|
SQL 设计模式 前端开发
【置顶】SAP ABAP开发实战——从入门到精通系列目录
本文章为SAP ABAP开发实战——从入门到精通系列的目录以及关于该教程的后续写作计划表
2734 0
【置顶】SAP ABAP开发实战——从入门到精通系列目录
|
缓存 网络协议 算法
《跟闪电侠学Netty》阅读笔记 - Netty入门程序解析(二)
《跟闪电侠学Netty》阅读笔记 - Netty入门程序解析
272 1
|
存储 缓存 Linux
『 Linux 』重新理解挂起状态
『 Linux 』重新理解挂起状态
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
227 2
|
运维 Linux 数据安全/隐私保护
CentOS7下OpenLDAP部署
OpenLDAP作为开源的LDAP服务,可用于搭建统一认证平台,在很多企业内部应用比较广泛,本文将介绍在CentOS7下OpenLDAP的部署。 环境: CentOS 7.4 OpenLDAP 2.4.44 phpldapadmin 1.2.3 1、安装OpenLDAP # 安装openldap软件
1024 0
|
API Android开发
一文详解 implementation api embed
**implementation:** + 依赖`不具传导性`,引入的API仅Moudle可见; + `参与Moudle的编译、不参与对应AAR打包`,但参与整体Apk打包; **api:** + 依赖`具备传导性`,依赖该Moudle的其他Moudle也可调用引入的API; + `参与Moudle的编译、不参与对应AAR打包`,但参与整体Apk打包; **embed:** + `合并AAR`:将引入API对应的AAR工程合并到该Moudle工程,打包成为一个全新的AAR; + 依赖`不具传导性`:引入的API仅Moudle可见;
818 0
一文详解 implementation api embed
|
JavaScript 前端开发
Vue都使用那么久了,还不了解它的生命周期吗✨
我记得尤大曾经说过,你看Vue源码干嘛?你使用Vue又不需要它的源码,你只需要会用就行了! 但是我们得卷啊,不卷怎么脱颖而出😥,我还记得在今年的蓝桥杯群里,有一同届的还不知道哪个大学的哥们,已经在读Vue/React/Node的源码了.....作为小菜鸡的我看着大佬侃侃而谈,在群角落里瑟瑟发抖。