开发者社区 问答 正文

High Performance Spatial-Temporal Trajectory Analysis with Spark

"在Hadhoop summit 2016上,YongHua (Henry) Zeng,Big Data & Analytics Solution Architect Analytics Platform Services,IBM China Lab分享了题为《High Performance Spatial-Temporal Trajectory Analysis with Spark》,就大数据平台设计,数据治理设计,算法模型和场景演示等方面的内容做了深入的分析。"

https://yq.aliyun.com/download/1956?spm=a2c4e.11154804.0.0.6cf36a79fNthk9

展开
收起
福利达人 2018-07-28 23:20:36 1053 分享 版权
阿里云 AI 助理回答

在提供的知识库资料中并没有直接涉及2016年Hadoop Summit上YongHua (Henry) Zeng关于大数据的具体演讲或内容。不过,可以提供一些与Oracle数据采集至DataHub相关的技术信息,以及如何在DataWorks上绑定和自定义配置自建Hadoop集群的步骤,这些内容可能与大数据处理和Hadoop生态系统相关,间接关联到Hadoop Summit讨论的主题。

Oracle数据采集到DataHub的模式选择:

目前推荐使用基于Oracle GoldenGate for Big Data的模式写入DataHub。此模式相较于Oracle GoldenGate Application Adapters支持更广泛的目标端进程(使用Replicat而非Extract),并且兼容性更好,支持Oracle 19c及以下所有版本。此外,Big Data模式保持与Oracle更新同步,拥有更稳定的性能和持续的技术支持,而Adapter模式已不再更新且存在未解决的BUG。

Oracle与DataHub数据类型映射:

  • 字符类型 (char, varchar, varchar2) 映射为DataHub中的STRING类型。
  • 数值类型 (number) 根据其表示整数或浮点数,分别映射为BIGINTDOUBLEDECIMAL
  • 日期时间类型 (date, timestamp) 若DataHub字段为TIMESTAMP,则自动转换为微秒时间戳;若需要字符串格式可映射为STRING
  • 二进制类型 (raw) 会自动进行BASE64编码后存储为STRING

在DataWorks上绑定并自定义自建Hadoop集群:

  1. 准备条件:确保拥有运行中的自建Hadoop集群、开通DataWorks服务并创建工作空间与Serverless资源组,同时具备OSS访问能力以存储自定义安装包。

  2. 集群绑定:通过DataWorks控制台的数据开发界面,根据指引绑定自建Hadoop集群。

  3. 自定义环境构建

    • 上传组件包:将自建集群中提取的Hadoop和Spark等组件安装包上传至OSS。
    • 创建自定义镜像:在DataWorks镜像管理中创建新镜像,指定安装脚本从OSS下载并配置所需组件。
    • 发布测试镜像:完成配置后发布镜像,并进行测试确保配置正确无误。
  4. 任务运行配置

    • 在新建或编辑CDH节点时,无论是新版Data Studio还是旧版DataStudio,均需在调试与调度配置中选择之前发布的自定义镜像以及对应的Serverless资源组,以确保任务在自定义环境中执行。

以上信息展示了如何高效地集成Oracle数据源至阿里云DataHub,以及如何在DataWorks平台上灵活配置自建Hadoop集群,优化大数据处理流程。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答