[抢鲜,多图]百度开放大数据引擎

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

424日,百度第四届技术开放日在北京举行。此次会议以“大数据引擎驱动未来”为主题,是百度在互联网与传统产业深度融合的时代背景下,以大数据为主题举办的一次高规格技术盛会。百度董事长兼CEO李彦宏、百度高级副总裁王劲出席并做主题演讲。

北京航空航天大学校长怀进鹏、中国疾病预防控制中心副主任高福、交通运输部科技司司长赵冲久、平安产险新渠道事业部副总经理孙炜分享了行业洞察和合作体会。来自政府、企业界、学术界的近千名嘉宾代表参加了大会。

百度CEO李彦宏表示:“技术创新是一个从量变到质变的过程。并行计算能力不断提升和云存储等技术产品成本的不断降低,使大数据真正走到了技术变革的临界点。百度开放自己的大数据核心能力,将更好地帮助传统行业挖掘数据价值,加快传统行业转型升级,进而发挥出对整体社会经济的革命性影响。”

会上,百度宣布正式发布大数据引擎,将包括开放云、数据工厂、百度大脑三大组件在内的核心大数据能力开放,通过大数据引擎向外界提供大数据存储、分析及挖掘的技术能力,这也是全球首个开放大数据引擎。百度高级副总裁王劲表示,“海量数据存储、关联、分析是大数据时代的关键,是挑战更是机遇。百度推出大数据引擎,旨在帮助各行业应对挑战,推动社会大数据、行业大数据的价值挖掘进程。它是百度多年深厚技术积累的一次质变过程。我们相信百度大数据引擎能帮助各行业发现并抓住新机会。”

大数据困境亟需技术能力输入

近年来,社会全面数字化引发了数据量爆炸式增长,人、资金、商品的流动都以数据化方式呈现。大数据因其蕴涵着巨大的社会价值和商业价值,成为一项重要的生产要素。越来越多机构、企业都迫切希望从不同渠道获取的、多种类型、结构复杂的大数据中挖掘出有价值的趋势洞察,以实现快速、准确地制定决策,驱动商业和管理创新。

然而,大部分机构和传统企业都普遍面临着大数据应用困境,不仅数据孤岛严重,数据存储与管理的规模、数据分析挖掘以及智能化能力也都存在着难以突破的瓶颈,处在从数据累积的量变过程转化为“数据智能”质变过程的临界点上。

作为天然的大数据企业,百度拥有完整、领先的大数据技术,通过对全网大数据进行处理,百度成功推出百度指数、百度商情、百度司南等一系列大数据商业化应用,以及“百度迁徙”、“景点舒适度预测”、“城市旅游预测”等大数据社会化产品,便于公众和企业使用百度开放的大数据资源。下一步,百度选择了将自身处理大数据的技术能力对外开放。

传统产业加装大数据引擎迈入智能时代

百度“大数据引擎”由开放云、数据工厂、百度大脑构成,将大数据存储、分析和智能化处理等一整套核心能力通过平台化、接口化的方式对外开放。合作机构和传统企业将能够在线使用百度的大数据架构,通过处理机构和企业自身积累的大数据,或同时融合百度大数据进行挖掘处理,来改造和优化传统行业的企业管理、产品服务设计、商业模式等环节,为创新发展装上全新的动力引擎。

“百度开放云”是大数据引擎运行的基础构件,通过分布各地的百度新一代高效能数据中心为传统行业提供超大规模的数据存储和分布式计算。在此基础上,“数据工厂”对行业数据进行一系列规范化处理,提供强大的数据管理和分析能力。更上一层,则是百度人工智能的精华——“百度大脑(Baidu Brain)”,基于百度深度学习研究院的领先成果,百度大脑融合全球领先的深度学习算法、数据建模、大规模GPU并行化平台等技术,实现了无不不刻都在学习与成长,它拥有200亿个参数,构造起世界上最大的深度神经网络。正因如此,百度大脑才能实现更具前瞻性的智能数据分析及预测功能,以实现数据智能,支持科学决策与创造。

交通运输部科技司司长赵冲久分享了大数据将在智能交通领域发挥的作用。通过百度地图大数据和搜索大数据的建模分析,百度大数据引擎将用于出行趋势预测,使交通管理更具前瞻性。同时,交通运输管理部门的部分应用也计划迁移至百度开放云平台,利用大数据引擎对行业监测数据进行挖掘分析。

中国疾病预防控制中心(CDC)在传染病防控方面与百度开展了大数据合作。据CDC副主任高福院士介绍,双方将结合疾控大数据与百度大数据,借助大数据引擎的技术力量,建成中国首个流感预测系统。

平安保险是探索应用百度大数据在保险领域创新的先锋。平安产险新渠道事业部副总经理孙炜介绍说,平安保险正在借助百度大数据加强消费者洞察,从过去的客户分群进化到从人定制。更进一步,大数据将在产品设计的精算、定价、弹性曲线等环节发挥作用,既有利于改良现有产品形态,也能实现险种创新。

传统行业市场空间巨大,大量行业的单行业产值都在万亿级以上。作为技术和数据驱动的大数据平台级产品,百度大数据核心能力的开放将成为行业转型和模式创新的引擎,撬动万亿级产业升级的想象空间。

据了解,百度大数据引擎要经历逐步开放的过程,目前采取邀请制和免费模式,将在政府、NGO、制造、医疗、金融、零售、娱乐、教育等传统领域率先开展项目合作。


原文发布时间为:2014-04-25


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
人工智能 安全 算法
AI与大数据:智慧城市安全的护航者与变革引擎
AI与大数据:智慧城市安全的护航者与变革引擎
223 1
|
9天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
85 15
|
3天前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
20 4
|
10天前
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
142 8
|
2月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
253 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
2月前
|
存储 数据采集 分布式计算
大数据技术:开启智能时代的新引擎
【10月更文挑战第5天】大数据技术:开启智能时代的新引擎
|
7月前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之DataWorks体验案例绑定如何绑定到正确的maxcomputer引擎上
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
57 1
|
4月前
|
Java Spring 安全
Spring 框架邂逅 OAuth2:解锁现代应用安全认证的秘密武器,你准备好迎接变革了吗?
【8月更文挑战第31天】现代化应用的安全性至关重要,OAuth2 作为实现认证和授权的标准协议之一,被广泛采用。Spring 框架通过 Spring Security 提供了强大的 OAuth2 支持,简化了集成过程。本文将通过问答形式详细介绍如何在 Spring 应用中集成 OAuth2,包括 OAuth2 的基本概念、集成步骤及资源服务器保护方法。首先,需要在项目中添加 `spring-security-oauth2-client` 和 `spring-security-oauth2-resource-server` 依赖。
59 0
|
4月前
|
消息中间件 数据挖掘 Kafka
揭秘大数据时代的极速王者!Flink:颠覆性流处理引擎,让实时数据分析燃爆你的想象力!
【8月更文挑战第29天】Apache Flink 是一个高性能的分布式流处理框架,适用于高吞吐量和低延迟的实时数据处理。它采用统一执行引擎处理有界和无界数据流,具备精确状态管理和灵活窗口操作等特性。Flink 支持毫秒级处理和广泛生态集成,但学习曲线较陡峭,社区相对较小。通过实时日志分析示例,我们展示了如何利用 Flink 从 Kafka 中读取数据并进行词频统计,体现了其强大功能和灵活性。
94 0