大数据基础设施建设需要得到重视 | 记清华大数据“应用·创新”讲座

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

“大数据基础设施是面向数据采集、数据分析和数据应用的创新性系统工程。它一方面指支撑大数据应用和大数据产业的基础设施,另一方面指用大数据和人工智能的方法,解决基础设施运行过程中的问题。 ”清华-青岛数据科学研究院(以下称“数据院”)大数据基础设施研究中心副主任赵强博士说到。数据时代,基础设施建设已经成为数据科学发展的瓶颈,提高人们对大数据基础设施建设重要性的认知迫在眉睫。10月26日新一期 清华大数据“应用·创新”讲座上,数据院特地邀请赵强博士做了 “语义视角下的跨学科与跨界数据认知”的主题演讲,为大家普及了大数据基础设施建设的意义,并强调在数据技术飞速发展的时代,基础设施建设的重要性。

1

活动当天,数据院的工作人员早早就布置好了场地,确保活动现场及活动直播能够正常进行。当天天气温度较低,伴有重度雾霾,许多清华校内学生、大数据领域的从业者依旧纷纷在活动之前就赶到了现场,只为找到更靠前的位置,方便与嘉宾互动交流。活动伊始,数据院作为主办方首先感谢了大家对此次活动的关注和支持,随后,赵强博士以语义视角切入,从大数据基础设施、社会化大规模实验、场景数据化技术3个方面分享了自己对跨学科与跨界数据的思考。赵强博士的演讲,带领活动观众深入了解到大数据基础设施建设的研究内容、应用领域及发展意义。

2

大数据分析领域的从业者李文博表示,“我一直都很关注大数据的实际应用,一直以来了解和接触较多的是不同的数据技术在各领域的应用,参与本期讲座,让我看到了在大数据各类技术之下,还存在着基础设施建设的问题。 听了赵老师专业透彻的介绍和分析,我意识到了大数据基础设施建设的重要性,同时了解到想要做好基础设施建设,需要进行跨学科的交流合作,从事该领域的人才必须具备数据科学思维和技术场景化意识。我将会继续关注这一领域的新动态,希望大数据基础设施建设能够为技术提供强有力的支持。”

演讲期间,大家积极向赵强博士提问,有多位观众还表达了对大数据基础设施研究中心(以下称“中心”)的好奇,对此,赵强博士为大家详细介绍了中心的研究方向及成立目标。 大数据基础设施研究中心是2017年8月17日成立的,围绕大数据基础设施建设领域进行研究,与数据院已有的工业大数据、经济金融数据、智慧城市大数据等研究方向的科研中心进行横向合作,孵化社会化大规模数据实验室,从而推进大数据基础设施建设,支持社会数据行业向前发展。数据院此次讲座邀请中心副主任赵强博士来给大家做分享,正是为了提高社会对大数据基础设施的认知、推动数据基础设施建设、促进数据开放共享、推动人才建设。数据院为赵强博士颁发了讲座嘉宾特邀证书,欢迎赵强博士后续再为大家做精彩的专题分享。

3

本次讲座,吸引了来自互联网、传媒、金融等多个行业的从业者以及来自各个高校化学工程、公共管理、计算机等多个院系的学生参与。清华大学化学工程系的研究生阎建辉从本科阶段起就对大数据技术有着浓厚兴趣,他对我们说: “此次讲座让我深化了对大数据基础设施的认识,通过了解大数据平台从上到下的架构,能够探究优化处理平台底层的方法。这是一个全新的视角,对我很有启发。”本科期间,阎建辉对大数据技术的接触偏工具实用性,如今,他计划深入学习数据科学的基础知识,并参与了清华大数据能力提升项目。 参加这一期讲座,让他了解了基础设施建设对推动数据科学发展的重要性,也意识到基础设施的建设急需同时具备技术与场景业务能力的跨学科人才,这也为他自身能力的提升找到了新的方向,他表示希望能经常参与此类讲座,丰富自己的综合知识。

原文发布时间为:2017-10-30
本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9天前
|
数据采集 数据可视化 大数据
Python在大数据处理中的应用实践
Python在大数据处理中扮演重要角色,借助`requests`和`BeautifulSoup`抓取数据,`pandas`进行清洗预处理,面对大规模数据时,`Dask`提供分布式处理能力,而`matplotlib`和`seaborn`则助力数据可视化。通过这些工具,数据工程师和科学家能高效地管理、分析和展示海量数据。
38 4
|
16天前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
41 5
|
4天前
|
搜索推荐 安全 大数据
大数据在医疗领域的应用与前景
【6月更文挑战第26天】大数据在医疗领域提升服务效率,助力疾病预防与精准治疗。电子病历优化数据管理,疾病预测预防个性化医疗成为可能。未来,智能医疗系统普及,远程医疗兴起,数据共享促进行业发展,同时隐私保护与安全备受关注。大数据正重塑医疗,开启健康新篇章。
|
11天前
|
监控 数据可视化 大数据
大数据技术在公共交通系统规划中的应用
大数据技术在公共交通系统规划中的应用
|
17天前
|
分布式计算 大数据 数据处理
Apache Spark在大数据处理中的应用
Apache Spark是大数据处理的热门工具,由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称,提供比Hadoop更快的处理速度,支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor,核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用,并讨论了其优势(高性能、易用性、通用性和集成性)和挑战。【6月更文挑战第11天】
44 6
|
12天前
|
机器学习/深度学习 自然语言处理 供应链
深度学习在大数据分析中的应用非常广泛
深度学习在大数据分析中的应用非常广泛
|
27天前
|
分布式计算 Spark 大数据
深入探究Apache Spark在大数据处理中的实践应用
【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架,以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件(包括Spark Core、SQL、Streaming和MLlib)及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用,可提升大数据处理效率,发挥其在各行业的潜力。
|
4天前
|
消息中间件 存储 大数据
深度分析:Apache Kafka及其在大数据处理中的应用
Apache Kafka是高吞吐、低延迟的分布式流处理平台,常用于实时数据流、日志收集和事件驱动架构。与RabbitMQ(吞吐量有限)、Pulsar(多租户支持但生态系统小)和Amazon Kinesis(托管服务,成本高)对比,Kafka在高吞吐和持久化上有优势。适用场景包括实时处理、数据集成、日志收集和消息传递。选型需考虑吞吐延迟、持久化、协议支持等因素,使用时注意资源配置、数据管理、监控及安全性。
|
4天前
|
SQL 运维 druid
深度分析:Apache Doris及其在大数据处理中的应用
Apache Doris是一款开源的高性能实时分析数据库,设计用于低延迟SQL查询和实时数据处理,适合大规模实时分析场景。与Apache Druid、ClickHouse和Greenplum相比,Doris在易用性和实时性上有优势,但其他产品在特定领域如高吞吐、SQL支持或数据处理有特长。选型要考虑查询性能、实时性、SQL需求和运维成本。Doris适用于实时数据分析、BI报表、数据中台和物联网数据处理。使用时注意资源配置、数据模型设计、监控调优和导入策略。
|
4天前
|
消息中间件 分布式计算 Kafka
深度分析:Apache Flink及其在大数据处理中的应用
Apache Flink是低延迟、高吞吐量的流处理框架,以其状态管理和事件时间处理能力脱颖而出。与Apache Spark Streaming相比,Flink在实时性上更强,但Spark生态系统更丰富。Apache Storm在低延迟上有优势,而Kafka Streams适合轻量级流处理。选型考虑延迟、状态管理、生态系统和运维成本。Flink适用于实时数据分析、复杂事件处理等场景,使用时注意资源配置、状态管理和窗口操作的优化。