目前阿里云MaxCompute大数据产品已经免费向全部用户开放了多种公用数据集。在此之前,获取,分析,下载自定义的大型分析数据集需要数小时乃至数天才能完成。
开通MaxCompute&数据工场的教程参考: https://help.aliyun.com/document_detail/27803.html
add user ALIYUN$everyone;
执行该语句后即可执行查询:
Select * from public_data.ods_enterprise_share_basic where ds = '20170114';
项目 |
public_data |
表集合 |
ods_enterprise_share_basic 股票基本信息 ods_enterprise_share_quarter_cashflow 季度报表说明 ods_enterprise_share_quarter_growth 季度业务增长情况 ods_enterprise_share_quarter_operation 季度财务周转 ods_enterprise_share_quarter_profit 季度利润 ods_enterprise_share_quarter_report 季度报表 ods_enterprise_share_trade_h 股票价格 |
更新周期 |
提供固定分区的历史数据,不再做增量更新。 |
查询示例 | select * from public_data. ods_enterprise_share_basic where ds ='20170114'; |
字段英文名 |
字段类型 |
描述 |
是否为分区列 |
code |
STRING |
代码 |
|
name |
STRING |
名称 |
|
industry |
STRING |
所属行业 |
|
area |
STRING |
地区 |
|
pe |
STRING |
市盈率 |
|
outstanding |
STRING |
流通股本 |
|
totals |
STRING |
总股本(万) |
|
totalassets |
STRING |
总资产(万) |
|
liquidassets |
STRING |
流动资产 |
|
fixedassets |
STRING |
固定资产 |
|
reserved |
STRING |
公积金 |
|
reservedpershare |
STRING |
每股公积金 |
|
eps |
STRING |
每股收益 |
|
bvps |
STRING |
每股净资 |
|
pb |
STRING |
市净率 |
|
timetomarket |
STRING |
上市日期 |
|
undp |
STRING |
未分利润 |
|
perundp |
STRING |
每股未分配 |
|
rev |
STRING |
收入同比(%) |
|
profit |
STRING |
利润同比(%) |
|
gpr |
STRING |
毛利率(%) |
|
npr |
STRING |
净利润率(%) |
|
holders_ num |
STRING |
股东人数 |
|
ds |
STRING |
数据导入日期,时间间 隔为天。 |
分区列 |
字段英文名 |
字段类型 |
描述 |
是否为分区列 |
rank |
STRING |
排序 |
|
code |
STRING |
代码 |
|
name |
STRING |
名称 |
|
cf_sales |
STRING |
经营现金净流量对销售收入比 率(%) |
|
rateofreturn |
STRING |
资产的经营现金流量回报率(%) |
|
cf_nm |
STRING |
经营现金净流量与净利润的比 率(%) |
|
cf_liabilities |
STRING |
经营现金净流量对负债比率(%) |
|
cashflowratio |
STRING |
现金流量比率(%) |
|
ds |
STRING |
年份 |
分区列 |
quarter |
STRING |
季度。数据季度更新。 |
分区列 |
字段英文名 |
字段类型 |
描述 |
是否为分区列 |
rank |
STRING |
排序 |
|
code |
STRING |
代码 |
|
name |
STRING |
名称 |
|
mbrg |
STRING |
主营业务收入增长率(%) |
|
nprg |
STRING |
净利润增长率(%) |
|
nav |
STRING |
净资产增长率(%) |
|
targ |
STRING |
总资产增长率(%) |
|
epsg |
STRING |
每股收益增长率(%) |
|
seg |
STRING |
股东权益增长率(%) |
|
ds |
STRING |
年份 |
分区列 |
quarter |
STRING |
季度。数据季度更新。 |
分区列 |
字段英文名 |
字段类型 |
描述 |
是否为分区列 |
rank |
STRING |
排序 |
|
code |
STRING |
代码 |
|
name |
STRING |
名称 |
|
arturnover |
STRING |
应收账款周转率(次) |
|
arturndays |
STRING |
应收账款周转天数(天) |
|
inventory_turnover |
STRING |
存货周转率(次) |
|
inventory_days |
STRING |
存货周转天数(天) |
|
currentasset_turnover |
STRING |
流动资产周转率(次) |
|
currentasset_days |
STRING |
流动资产周转天数(天) |
|
ds |
STRING |
导入日期。 |
分区列 |
quarter |
STRING |
季度。数据季度更新。 |
分区列 |
字段英文名 |
字段类型 |
描述 |
是否为分区列 |
rank |
STRING |
排序 |
|
code |
STRING |
代码 |
|
name |
STRING |
名称 |
|
roe |
STRING |
净资产收益率(%) |
|
net_profit_ratio |
STRING |
净利率(%) |
|
gross_profit_rate |
STRING |
毛利率(%) |
|
net_profits |
STRING |
净利润(万元) |
|
eps |
STRING |
每股收益 |
|
business_income |
STRING |
营业收入(百万元) |
|
bips |
STRING |
每股主营业务收入(元) |
|
ds |
STRING |
年份 |
分区列 |
quarter |
STRING |
季度,数据季度更新。 |
分区列 |
数据样例:
ods_enterprise_share_quarter_report 季度报表
字段英文名 |
字段类型 |
描述 |
是否为分区列 |
rank |
STRING |
排序 |
|
code |
STRING |
代码 |
|
name |
STRING |
名称 |
|
eps |
STRING |
每股收益 |
|
eps_yoy |
STRING |
每股收益同比(%) |
|
bvps |
STRING |
每股净资产 |
|
roe |
STRING |
净资产收益率(%) |
|
epcf |
STRING |
每股现金流量(元) |
|
net_profits |
STRING |
净利润(万元) |
|
profits_yoy |
STRING |
净利润同比(%) |
|
distrib |
STRING |
分配方案 |
|
report_date |
STRING |
发布日期 |
|
ds |
STRING |
年份 |
分区列 |
quarter |
STRING |
季度。数据季度更新。 |
分区列 |
数据样例:
ods_enterprise_share_trade_h 股票价格
字段英文名 |
字段类型 |
描述 |
是否为分区列 |
trde_date |
STRING |
日期 |
|
open |
STRING |
开盘价 |
|
high |
STRING |
最高价 |
|
close |
STRING |
收盘价 |
|
low |
STRING |
最低价 |
|
volume |
STRING |
成交量 |
|
price_change |
STRING |
价格变动 |
|
p_change |
STRING |
涨跌幅 |
|
ma5 |
STRING |
5 日均价 |
|
ma10 |
STRING |
10 日均价 |
|
ma20 |
STRING |
20 日均价 |
|
v_ma5 |
STRING |
5 日均量 |
|
v_ma10 |
STRING |
10 日均量 |
|
v_ma20 |
STRING |
20 日均量 |
|
turnover |
STRING |
换手率 |
|
code |
STRING |
股票代码 |
|
ds |
STRING |
导入日期。 |
分区列 |
数据样例: |
|
|
|
二手房产数据集
总体信息:二手房相关信息(注意:目前暂停更新)。
项目 |
public_data |
表集合 |
dwd_prouduct_house_basic_info_out |
更新周期 |
每日早10 点前更新。至2016 年12 月13 日开始更新,全量更新。 |
查询示例 | Select * from public_data.dwd_prouduct_house_basic_info_out where ds= '20170113'; |
dwd_prouduct_house_basic_info_out信息说明
字段英文名 |
字段口型 |
描述 |
是否是分区列 |
house_id |
STRING |
房产 ID |
|
house_city |
STRING |
房产所在城市 |
|
house_total_price |
STRING |
房产总价 |
|
house_unit_price |
STRING |
房产均价 |
|
house_type |
STRING |
房产类型 |
|
house_floor |
STRING |
房产楼层 |
|
house_direction |
STRING |
房产方向 |
|
house_deckoration |
STRING |
房产装修 |
|
house_area |
STRING |
房产面积 |
|
house_community_name |
STRING |
房产所在小区 |
|
house_region |
STRING |
房产所在地区 |
|
proj_name |
STRING |
楼盘名称 |
|
proj_addr |
STRING |
项目地址 |
|
period |
STRING |
产权年限 |
|
property |
STRING |
物业公司 |
|
greening_rate |
STRING |
绿化率 |
|
property_costs |
STRING |
物业费用 |
|
ds |
STRING |
数据导入日期 |
分区列 |
数据样例:
影视及票房数据集
总体信息:每日更新国内影视剧信息及票房数据信息 。
项目 |
public_data |
表集合 |
dwd_product_movie_basic_info 电影基本信息 ods_product_movie_box 票房基本信息 |
更新周期 |
每日早10 点前更新。至2016 年12 月13 日开始更新,全量更新。 |
查询示例 | Select * from public_data.dwd_product_movie_basic_info where ds ='20170112' limit 10; |
dwd_ product_ movie_ basic_ info
字段英文名 |
字段类型 |
描述 |
是否是分区列 |
movie_ name |
STRING |
电影名称 |
|
dirctor |
STRING |
导演 |
|
scriptwriter |
STRING |
编剧 |
|
area |
STRING |
制片地区/国家 |
|
actors |
STRING |
主演 |
|
type |
STRING |
类型 |
|
movie_ length |
STRING |
电影长度 |
|
movie_ date |
STRING |
上映日期 |
|
movie_ language |
STRING |
语言 |
|
imdb_ url |
STRING |
imdb号 |
|
ds |
STRING |
日期 |
分区列 |
ods_product_movie_box 票房基本信息
字段英文名 |
|
字段口型 |
描述 |
是否是分区列 |
rank |
|
STRING |
排名 |
|
avgprice |
|
STRING |
平均票价 |
|
avppeople |
|
STRING |
场均人次 |
|
boxoffice |
|
STRING |
单日票房(万) |
|
boxoffice_ up |
|
STRING |
环比变化 (%) |
|
irank |
|
STRING |
排名 |
|
movieday |
|
STRING |
上映天数 |
|
moviename |
|
STRING |
影片名 |
|
sumboxoffice |
|
STRING |
累计票房(万) |
|
womindex |
|
STRING |
口碑指数 |
|
ds |
|
STRING |
日期 |
分区列 |
数据样例:
TPC-DS数据集 1TB
总体信息:TPC-DS是一套决策支持系统测试基准,主要针对零售行业。提供99个SQL查询(SQL99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等) 。
项目 |
public_data-非分区表 |
byte |
MB |
|
store_sales |
132403186096 |
126270 |
|
catalog_sales |
96618400536 |
92142 |
|
web_sales |
48924735376 |
46658 |
|
store_returns |
15258734432 |
14552 |
|
catalog_returns |
9325156968 |
8893 |
|
web_returns |
4776062944 |
4555 |
|
inventory |
2354131064 |
2245 |
|
customer |
545421520 |
520 |
表集合 |
customer_address |
127890712 |
122 |
|
item |
21917520 |
21 |
|
customer_demographics |
2831808 |
2.70 |
|
catalog_page |
1065000 |
1.02 |
|
date_dim |
432592 |
0.41 |
|
time_dim |
246576 |
0.24 |
|
store |
68680 |
0.07 |
|
promotion |
47976 |
0.05 |
|
web_page |
32424 |
0.03 |
|
web_site |
12000 |
0.01 |
|
call_center |
10536 |
0.01 |
|
household_demographics |
9448 |
0.01 |
|
warehouse |
4640 |
<0.01 |
|
ship_mode |
2040 |
<0.01 |
|
reason |
1528 |
<0.01 |
|
income_band |
1040 |
<0.01 |
|
|
|
|
更新周期 |
更新时间:2018 年7 月13 日 |
|
|
查询示例 |
|
|
基于公开数据集的实战
手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎
购买&试用MaxCompute,请加入扫码进钉钉群。公开数据集问题,请加入扫码进钉钉群。