SQL_ODPS-MaxCompute-odpscmd-tunnel-数据上传下载

简介:

1. rd行分割 -fd列分割 -charset编码

--建临时表
odps@ work_test_1>create table if not exists t_rd_fd(id int,name string);

--源数据data_t_rd_fd.txt
--666$$张三||555$$李四||

-- -rd行分割 -fd列分割 -charset编码
odps@ work_test_1>tunnel upload D:\#ODPS_D2\odps_data\data_t_rd_fd.txt work_test_1.t_rd_fd -rd "||" -fd "$$" -charset gbk;
Upload session: 20200220231800a0dbdb0b12e98660
Start upload:D:\#ODPS_D2\odps_data\data_t_rd_fd.txt
Using || to split records
Upload in strict schema mode: true
Total bytes:26   Split input to 1 blocks
0000-00-00 00:00:00     scan block: '1'
0000-00-00 00:00:00     scan block complete, block id: 1
0000-00-00 00:00:00     upload block: '1'
0000-00-00 00:00:00     upload block complete, block id: 1
OK

--检查一下
odps@ work_test_1>select * from work_test_1.t_rd_fd;
+------------+------------+
| id         | name       |
+------------+------------+
| 666        | 瀵姳绗?      |
| 555        | 閺夊骸娲?      |
+------------+------------+

2.脏数据-dbr true -s only ;tunnel show bad 0000;

--源数据data_t_rd_fd.txt
--666,张三
--555,李四 
--1.34,王五
--AA

-- -dbr true -s only;审查一下有哪些脏数据 仅读
odps@ work_test_1>tunnel upload D:\#ODPS_D2\odps_data\data_t_rd_fd.txt work_test_1.t_rd_fd -dbr true -s only;
Upload session: 000000000009151647df0b12dd8e9e  --注意这个session
Start upload:D:\#ODPS_D2\odps_data\data_t_rd_fd.txt
Using \r\n to split records
Upload in strict schema mode: true
Total bytes:39   Split input to 1 blocks
0000-00-00 00:00:00     scan block: '1'
0000-00-00 00:00:00     ERROR: format error - :1, BIGINT:'1.34'  For input string: "1.34"content: 1.34,鐜嬩簲
offset: 29
0000-00-00 00:00:00     ERROR: column mismatch, expected 2 columns, 1 columns found, please check data or delimiter
content: AA
offset: 34
0000-00-00 00:00:00     scan block complete, block id: 1 [bad 2]
OK
odps@ work_test_1>
--tunnel show bad 具体session;查看一下具体是哪些脏数据
--通过这种方法可以快速找到错误信息对源文件修正
odps@ work_test_1>tunnel show bad 0000000000329151647df0b12dd8e9e;
1.34,鐜嬩簲
AA
odps@ work_test_1>
--然后可以去源文件修正或删除,再上传
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
8月前
|
运维 架构师 大数据
【深度剖析】大数据职业发展体系全解【附下载】
【深度剖析】大数据职业发展体系全解【附下载】
|
9月前
|
SQL 数据库
SQL Server下载安装及使用
打开压缩之后的【SQL Server2016】文件夹
|
2月前
|
存储 分布式计算 DataWorks
MaxCompute问题之下载资源如何解决
MaxCompute资源指的是在MaxCompute项目中使用的计算资源和存储资源;本合集旨在向用户展示如何高效管理MaxCompute资源,包括资源包管理、配额调整和性能优化等方面。
29 0
|
4月前
|
SQL 数据采集 Java
Java【代码分享 02】商品全部分类数据获取(建表语句+Jar包依赖+树结构封装+获取及解析源代码)包含csv和sql格式数据下载可用
Java【代码分享 02】商品全部分类数据获取(建表语句+Jar包依赖+树结构封装+获取及解析源代码)包含csv和sql格式数据下载可用
41 0
|
9月前
|
XML 存储 安全
Excel电子表格的PHP类库:PHP_XLSXWriter(大数据量报表、后台运行、浏览器下载)
Excel电子表格的PHP类库:PHP_XLSXWriter(大数据量报表、后台运行、浏览器下载)
158 0
|
5月前
|
SQL 关系型数据库 MySQL
My SQL下载安装配置检查
My SQL下载安装配置检查
43 0
|
7月前
|
SQL 分布式计算 大数据
MaxCompute元数据使用实践 -- 数据下载审计
通过MaxCompute租户级别Information Schema的“TUNNELS_HISTORY”视图可以统计查看通过Tunnel通道进行数据上传下载的相关详细信息,方便您进行数据流转的审计排查。
568 0
|
10月前
|
SQL 分布式计算 NoSQL
大数据相关常用软件下载地址集锦
大数据相关常用软件下载地址集锦
|
10月前
|
SQL IDE 开发工具
【SQL Server Management 2019下载及安装】
【SQL Server Management 2019下载及安装】
137 0
【SQL Server Management 2019下载及安装】