"在Hadhoop summit 2016上,YongHua (Henry) Zeng,Big Data & Analytics Solution Architect Analytics Platform Services,IBM China Lab分享了题为《High Performance Spatial-Temporal Trajectory Analysis with Spark》,就大数据平台设计,数据治理设计,算法模型和场景演示等方面的内容做了深入的分析。"
https://yq.aliyun.com/download/1956?spm=a2c4e.11154804.0.0.6cf36a79fNthk9
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在提供的知识库资料中并没有直接涉及2016年Hadoop Summit上YongHua (Henry) Zeng关于大数据的具体演讲或内容。不过,可以提供一些与Oracle数据采集至DataHub相关的技术信息,以及如何在DataWorks上绑定和自定义配置自建Hadoop集群的步骤,这些内容可能与大数据处理和Hadoop生态系统相关,间接关联到Hadoop Summit讨论的主题。
Oracle数据采集到DataHub的模式选择:
目前推荐使用基于Oracle GoldenGate for Big Data的模式写入DataHub。此模式相较于Oracle GoldenGate Application Adapters支持更广泛的目标端进程(使用Replicat而非Extract),并且兼容性更好,支持Oracle 19c及以下所有版本。此外,Big Data模式保持与Oracle更新同步,拥有更稳定的性能和持续的技术支持,而Adapter模式已不再更新且存在未解决的BUG。
Oracle与DataHub数据类型映射:
char
, varchar
, varchar2
) 映射为DataHub中的STRING
类型。number
) 根据其表示整数或浮点数,分别映射为BIGINT
、DOUBLE
或DECIMAL
。date
, timestamp
) 若DataHub字段为TIMESTAMP
,则自动转换为微秒时间戳;若需要字符串格式可映射为STRING
。raw
) 会自动进行BASE64编码后存储为STRING
。在DataWorks上绑定并自定义自建Hadoop集群:
准备条件:确保拥有运行中的自建Hadoop集群、开通DataWorks服务并创建工作空间与Serverless资源组,同时具备OSS访问能力以存储自定义安装包。
集群绑定:通过DataWorks控制台的数据开发界面,根据指引绑定自建Hadoop集群。
自定义环境构建:
任务运行配置:
以上信息展示了如何高效地集成Oracle数据源至阿里云DataHub,以及如何在DataWorks平台上灵活配置自建Hadoop集群,优化大数据处理流程。