OushuDB-定义外部表

简介: OushuDB-定义外部表

可以使用下面的命令创建外部表。其中需要把etlhost-1替换为gpfdist所在机器的主机名。本机的可以使 用localhost。

可以直接查询该外部表:

gpfdist -d /data1/load-files -p 8081 -l /data1/log1
gpfdist -d /data2/load-files -p 8082 -l /data2/log2
john|2017-01-20|100.00|travel|nothing
tom|2016-12-01|300|taxi|nothing
marry|2017-01-21|1000.00|travel|nothing
kurt|2016-12-02|800|taxi|nothing
CREATE EXTERNAL TABLE ext_expenses
    ( name text, date date, amount float4, category text, desc1 text )
LOCATION ('gpfdist://etlhost-1:8081/', 'gpfdist://etlhost-1:8082/')
FORMAT 'TEXT' (DELIMITER '|');
etl=# select * from ext_expenses;


name date amount category desc1
john 2017-01-20 100 travel nothing
tom 2016-12-01
marry 2017-01-21
kurt 2016-12-02
300 taxi
1000 travel
800 taxi
nothing
nothing
nothing



(4 rows)

有些时候,输入的text/csv文件有一些格式错误,默认情况下,出现错误时,整个加载会失败。如果数据 量很大的话,修正错误再重新加载会浪费很多时间。如果错误可以接受的话,我们可以通过定义error table的方法隔离错误的行,把错误的行放到一个单独的error table中,而正常加载所有的正确行。下面 是一个例子。

上面那条语句指定了error table为expense_errortable,系统会自动创建该表。SEGMENT REJECT LIMIT指的是如果有超过10行的错误,加载将报错退出。

如果一个CSV文件包含错误的格式,error table的rawdata列可能包含几个合并的错误行。例如,如果一 个text列的值少了一个结束的引号,后面的行(包含换行符)将会被当作那个列的值处理。当这种情况 发生时,并且该值超过64K大小时,OushuDB会把64K大小的值放入error table中做为一个单独的行, 继续处理后面的行。如果这种情况发生多次,加载会失败,OushuDB会报“rejected N or more rows”错 退出。

目录
相关文章
|
安全 前端开发 网络协议
|
安全 Ubuntu
Ubuntu Samba高危安全漏洞修复
Ubuntu系统中使用的Samba版本存在一个或多个高风险安全漏洞。受影响的Samba版本包括但不限于4.13.x低于4.13.17、4.14.x低于4.14.12以及4.15.x低于4.15.5。这些漏洞可能会允许未经身份验证的攻击者远程执行恶意代码,获取未经授权的访问权限,或者进行其他形式的安全攻击。
619 0
|
Java 数据安全/隐私保护 Docker
Docker Desktop 启动报错 Unexpected WSL error 问题解决
Docker Desktop 启动报错 Unexpected WSL error 问题解决
1098 0
|
API Windows
怎么申请 bing api key
1:打开网址 https://login.live.com/ 注册帐号并登录(点击上图中的登录按钮即可),在新窗口点击下方的“立即注册”(有帐号的可以直接登录)2:填写相关信息(推荐使用hotmail邮箱),填写完毕后点击下方的 即可PS:国家或地区请勿选择‘中国’,否则会出现‘在你的市场中未提供...
20466 1
|
JavaScript 关系型数据库 芯片
LDO电源模块如何快速设计布局
在电子工程中,LDO电源模块设计至关重要。LDO因其低压差、高稳定性被广泛应用。优化设计涉及选择不同类型的LDO,如uP-MOSFET和PNP,考虑效率、成本和输入电压能力。在PCB布局时,LDO应靠近负载,减少压降,且与滤波器保持适当距离以防噪声。布线策略包括避免导线平行耦合,使用宽地线减少电阻和耦合,以及优化拐角和粗细。华秋DFM软件是辅助设计工具,可检查布局、避免电气问题,统计焊点和管理元件,确保设计与BOM一致。
334 0
|
存储 供应链 安全
云上数字签名:重塑电子交易信任与安全的基石
尽管云上数字签名具有诸多优势,但部分用户仍对其安全性和法律效力持怀疑态度。这可能导致用户在实际应用中更倾向于使用传统的纸质签名方式。 五、云上数字签名的未来
|
前端开发 JavaScript
异步编程:由于JS是单线程执行的,所以对于耗时的操作(如网络请求),需要通过异步编程来处理。回调函数、Promise、async/await都是常用的异步编程方式。
异步编程:由于JS是单线程执行的,所以对于耗时的操作(如网络请求),需要通过异步编程来处理。回调函数、Promise、async/await都是常用的异步编程方式。
222 1
|
分布式计算 Prometheus 资源调度
分布式计算引擎 Flink/Spark on k8s 的实现对比以及实践
以 Flink 和 Spark 为代表的分布式流批计算框架的下层资源管理平台逐渐从 Hadoop 生态的 YARN 转向 Kubernetes 生态的 k8s 原生 scheduler 以及周边资源调度器,比如 Volcano 和 Yunikorn 等。这篇文章简单比较一下两种计算框架在 Native Kubernetes 的支持和实现上的异同,以及对于应用到生产环境我们还需要做些什么。
797 54
分布式计算引擎 Flink/Spark on k8s 的实现对比以及实践
|
Java Linux 虚拟化
105.【Docker】(一)
105.【Docker】
174 0

热门文章

最新文章