OushuDB-定义外部表

简介: OushuDB-定义外部表

可以使用下面的命令创建外部表。其中需要把etlhost-1替换为gpfdist所在机器的主机名。本机的可以使 用localhost。

可以直接查询该外部表:

gpfdist -d /data1/load-files -p 8081 -l /data1/log1
gpfdist -d /data2/load-files -p 8082 -l /data2/log2
john|2017-01-20|100.00|travel|nothing
tom|2016-12-01|300|taxi|nothing
marry|2017-01-21|1000.00|travel|nothing
kurt|2016-12-02|800|taxi|nothing
CREATE EXTERNAL TABLE ext_expenses
    ( name text, date date, amount float4, category text, desc1 text )
LOCATION ('gpfdist://etlhost-1:8081/', 'gpfdist://etlhost-1:8082/')
FORMAT 'TEXT' (DELIMITER '|');
etl=# select * from ext_expenses;


name date amount category desc1
john 2017-01-20 100 travel nothing
tom 2016-12-01
marry 2017-01-21
kurt 2016-12-02
300 taxi
1000 travel
800 taxi
nothing
nothing
nothing



(4 rows)

有些时候,输入的text/csv文件有一些格式错误,默认情况下,出现错误时,整个加载会失败。如果数据 量很大的话,修正错误再重新加载会浪费很多时间。如果错误可以接受的话,我们可以通过定义error table的方法隔离错误的行,把错误的行放到一个单独的error table中,而正常加载所有的正确行。下面 是一个例子。

上面那条语句指定了error table为expense_errortable,系统会自动创建该表。SEGMENT REJECT LIMIT指的是如果有超过10行的错误,加载将报错退出。

如果一个CSV文件包含错误的格式,error table的rawdata列可能包含几个合并的错误行。例如,如果一 个text列的值少了一个结束的引号,后面的行(包含换行符)将会被当作那个列的值处理。当这种情况 发生时,并且该值超过64K大小时,OushuDB会把64K大小的值放入error table中做为一个单独的行, 继续处理后面的行。如果这种情况发生多次,加载会失败,OushuDB会报“rejected N or more rows”错 退出。

目录
相关文章
|
8月前
|
SQL 分布式计算 关系型数据库
实时数仓 Hologres产品使用合集之分区表创建冷热分层后,查询语法会与原先有区别吗
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
2月前
|
存储 供应链 数据库
Hologres 索引:概念与实用场景
本文介绍了 Hologres 索引的概念、类型及在实际场景中的应用。Hologres 是阿里云的一款强大数据库产品,其索引功能显著提升了数据查询性能。文章详细探讨了 B 树索引、哈希索引和位图索引的特点及应用场景,并介绍了索引的创建和维护方法。此外,还列举了 Hologres 中的重要参数设置及其使用限制,最后通过电商、金融、物流和社交媒体等领域的具体案例,展示了索引在不同场景下的实用价值。
109 10
|
6月前
|
数据采集 Oracle 关系型数据库
实时计算 Flink版产品使用问题之怎么实现从Oracle数据库读取多个表并将数据写入到Iceberg表
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
3月前
|
SQL 存储 关系型数据库
【赵渝强老师】Hive的内部表与外部表
Hive是基于HDFS的数据仓库,支持SQL查询。其数据模型包括内部表、外部表、分区表、临时表和桶表。本文介绍了如何创建和使用内部表和外部表,提供了详细的步骤和示例代码,并附有视频讲解。
156 1
|
3月前
|
存储 缓存 大数据
ClickHouse核心概念详解:表引擎与数据模型
【10月更文挑战第26天】在大数据时代,数据处理的速度和效率变得至关重要。ClickHouse,作为一个列式存储数据库系统,以其高效的查询性能和强大的数据处理能力而受到广泛欢迎。本文将从我个人的角度出发,详细介绍ClickHouse的核心概念,特别是其表引擎和数据模型,以及这些特性如何影响数据的存储和查询。
107 1
|
6月前
|
SQL 分布式计算 数据安全/隐私保护
实时数仓 Hologres产品使用合集之重建表的索引后,如何将数据导入新表
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
SQL 存储 安全
Hive 内部表(管理表)和外部表的区别【重点】
Hive 内部表(管理表)和外部表的区别【重点】
882 1
OushuDB-定义外部表
OushuDB-定义外部表
66 0
|
SQL 数据库
OushuDB 创建和管理外部表(下)
OushuDB 创建和管理外部表(下)
94 0
|
SQL HIVE 数据格式
OushuDB 创建和管理外部表(中)
OushuDB 创建和管理外部表(中)
84 0

热门文章

最新文章