目前阿里云MaxCompute大数据产品已经免费向全部用户开放了多种公用数据集。在此之前,获取,分析,下载自定义的大型分析数据集需要数小时乃至数天才能完成。
我们将股票价格、房产、影视等多种类型的数据免费开放给用户,使得大家免去了复杂的数据获取、上传、清洗等过程,可以直接进入数据分析阶段,通过这种数据开放形式,我们希望能以更快的速度实现更多的创新。
目前我们开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。所有的数据均被存储在MaxCompute 产品中的public_data 项目中。以下,我们将对这些数据做更为详细的介绍,并简要说明如何通过MaxCompute 及数据工场服务并分析这些数据。
获取权限
首选,需要用户以项目空间的owner 或者管理员的身份,在自己的项目空间下,执行如下操作。执行完成后用户项目空间下的所有成员均可读取各公开数据集合:
add user ALIYUN$everyone;
执行该语句后即可执行查询:
特殊说明
公开数据集合对所有MaxCompute 用户开放,这是通过MaxCompute 特殊的授权机制实现的。在使用过程中,用户需要足以一下几点:
1. 所有数据均存储在一个名为public_data 的项目空间中,但所有用户并未被加入到该空间下(非项目空间成员)。因此,用户需要跨项目空间访问数据,在数据工场中编辑SQL 时,必须在表明前指定项目名称,例如:
Select * from public_data.ods_enterprise_share_basic where ds = '20170114';
2. 由于是跨项目空间访问,所有用户在数据工场的[数据管理]中无法查找到公开数据集的表;
3. 只有在执行”Add User”语句后,用户才有权限访问公开数据集。该语句可以再数据工场以及MaxCompte 提供的客户端中执行;
下面我们将详细介绍目前开放的数据集合。
股票价格数据集
总体信息:每日更新A 股股票相关数据。
项目
| public_data
|
表集合
| ods_enterprise_share_basic 股票基本信息
ods_enterprise_share_quarter_cashflow 季度报表说明
ods_enterprise_share_quarter_growth 季度业务增长情况
ods_enterprise_share_quarter_operation 季度财务周转
ods_enterprise_share_quarter_profit 季度利润
ods_enterprise_share_quarter_report 季度报表
ods_enterprise_share_trade_h 股票价格
|
更新周期
| 提供固定分区的历史数据,不再做增量更新。
|
查询示例 | select * from public_data. ods_enterprise_share_basic where ds ='20170114'; |
ods_enterprise_share_basic 股票基本信息
字段英文名
|
字段类型
|
描述
|
是否为分区列
|
code
|
STRING
|
代码
|
|
name
|
STRING
|
名称
|
|
industry
|
STRING
|
所属行业
|
|
area
|
STRING
|
地区
|
|
pe
|
STRING
|
市盈率
|
|
outstanding
|
STRING
|
流通股本
|
|
totals
|
STRING
|
总股本(万)
|
|
totalassets
|
STRING
|
总资产(万)
|
|
liquidassets
|
STRING
|
流动资产
|
|
fixedassets
|
STRING
|
固定资产
|
|
reserved
|
STRING
|
公积金
|
|
reservedpershare
|
STRING
|
每股公积金
|
|
eps
|
STRING
|
每股收益
|
|
bvps
|
STRING
|
每股净资
|
|
pb
|
STRING
|
市净率
|
|
timetomarket
|
STRING
|
上市日期
|
|
undp
|
STRING
|
未分利润
|
|
perundp
|
STRING
|
每股未分配
|
|
rev
|
STRING
|
收入同比(%)
|
|
profit
|
STRING
|
利润同比(%)
|
|
gpr
|
STRING
|
毛利率(%)
|
|
npr
|
STRING
|
净利润率(%)
|
|
holders_ num
|
STRING
|
股东人数
|
|
ds
|
STRING
|
数据导入日期,时间间
隔为天。
|
分区列
|
数据样例:
ods_enterprise_share_quarter_cashflow 季度报表说明
字段英文名
|
字段类型
|
描述
|
是否为分区列
|
rank
|
STRING
|
排序
|
|
code
|
STRING
|
代码
|
|
name
|
STRING
|
名称
|
|
cf_sales
|
STRING
|
经营现金净流量对销售收入比
率(%)
|
|
rateofreturn
|
STRING
|
资产的经营现金流量回报率(%)
|
|
cf_nm
|
STRING
|
经营现金净流量与净利润的比
率(%)
|
|
cf_liabilities
|
STRING
|
经营现金净流量对负债比率(%)
|
|
cashflowratio
|
STRING
|
现金流量比率(%)
|
|
ds
|
STRING
|
年份
|
分区列
|
quarter
|
STRING
|
季度。数据季度更新。
|
分区列
|
数据样例:
ods_enterprise_share_quarter_growth 季度业务增长情况
字段英文名
|
字段类型
|
描述
|
是否为分区列
|
rank
|
STRING
|
排序
|
|
code
|
STRING
|
代码
|
|
name
|
STRING
|
名称
|
|
mbrg
|
STRING
|
主营业务收入增长率(%)
|
|
nprg
|
STRING
|
净利润增长率(%)
|
|
nav
|
STRING
|
净资产增长率(%)
|
|
targ
|
STRING
|
总资产增长率(%)
|
|
epsg
|
STRING
|
每股收益增长率(%)
|
|
seg
|
STRING
|
股东权益增长率(%)
|
|
ds
|
STRING
|
年份
|
分区列
|
quarter
|
STRING
|
季度。数据季度更新。
|
分区列
|
数据样例:
ods_enterprise_share_quarter_operation 季度财务周转
字段英文名
|
字段类型
|
描述
|
是否为分区列
|
rank
|
STRING
|
排序
|
|
code
|
STRING
|
代码
|
|
name
|
STRING
|
名称
|
|
arturnover
|
STRING
|
应收账款周转率(次)
|
|
arturndays
|
STRING
|
应收账款周转天数(天)
|
|
inventory_turnover
|
STRING
|
存货周转率(次)
|
|
inventory_days
|
STRING
|
存货周转天数(天)
|
|
currentasset_turnover
|
STRING
|
流动资产周转率(次)
|
|
currentasset_days
|
STRING
|
流动资产周转天数(天)
|
|
ds
|
STRING
|
导入日期。
|
分区列
|
quarter
|
STRING
|
季度。数据季度更新。
|
分区列
|
数据样例:
ods_enterprise_share_quarter_profit 季度利润
字段英文名
|
字段类型
|
描述
|
是否为分区列
|
rank
|
STRING
|
排序
|
|
code
|
STRING
|
代码
|
|
name
|
STRING
|
名称
|
|
roe
|
STRING
|
净资产收益率(%)
|
|
net_profit_ratio
|
STRING
|
净利率(%)
|
|
gross_profit_rate
|
STRING
|
毛利率(%)
|
|
net_profits
|
STRING
|
净利润(万元)
|
|
eps
|
STRING
|
每股收益
|
|
business_income
|
STRING
|
营业收入(百万元)
|
|
bips
|
STRING
|
每股主营业务收入(元)
|
|
ds
|
STRING
|
年份
|
分区列
|
quarter
|
STRING
|
季度,数据季度更新。
|
分区列
|
数据样例:

ods_enterprise_share_quarter_report 季度报表
字段英文名
|
字段类型
|
描述
|
是否为分区列
|
rank
|
STRING
|
排序
|
|
code
|
STRING
|
代码
|
|
name
|
STRING
|
名称
|
|
eps
|
STRING
|
每股收益
|
|
eps_yoy
|
STRING
|
每股收益同比(%)
|
|
bvps
|
STRING
|
每股净资产
|
|
roe
|
STRING
|
净资产收益率(%)
|
|
epcf
|
STRING
|
每股现金流量(元)
|
|
net_profits
|
STRING
|
净利润(万元)
|
|
profits_yoy
|
STRING
|
净利润同比(%)
|
|
distrib
|
STRING
|
分配方案
|
|
report_date
|
STRING
|
发布日期
|
|
ds
|
STRING
|
年份
|
分区列
|
quarter
|
STRING
|
季度。数据季度更新。
|
分区列
|
数据样例:

ods_enterprise_share_trade_h 股票价格
字段英文名
|
字段类型
|
描述
|
是否为分区列
|
trde_date
|
STRING
|
日期
|
|
open
|
STRING
|
开盘价
|
|
high
|
STRING
|
最高价
|
|
close
|
STRING
|
收盘价
|
|
low
|
STRING
|
最低价
|
|
volume
|
STRING
|
成交量
|
|
price_change
|
STRING
|
价格变动
|
|
p_change
|
STRING
|
涨跌幅
|
|
ma5
|
STRING
|
5 日均价
|
|
ma10
|
STRING
|
10 日均价
|
|
ma20
|
STRING
|
20 日均价
|
|
v_ma5
|
STRING
|
5 日均量
|
|
v_ma10
|
STRING
|
10 日均量
|
|
v_ma20
|
STRING
|
20 日均量
|
|
turnover
|
STRING
|
换手率
|
|
code
|
STRING
|
股票代码
|
|
ds
|
STRING
|
导入日期。
|
分区列
|
数据样例:
|
|
|
|
二手房产数据集
总体信息:二手房相关信息(注意:目前暂停更新)。
项目
| public_data
|
表集合
|
dwd_prouduct_house_basic_info_out
|
更新周期
| 每日早10 点前更新。至2016 年12 月13 日开始更新,全量更新。
|
查询示例 | Select * from public_data.dwd_prouduct_house_basic_info_out where ds= '20170113'; |
dwd_prouduct_house_basic_info_out信息说明
字段英文名
|
字段口型
|
描述
|
是否是分区列
|
house_id
|
STRING
|
房产 ID
|
|
house_city
|
STRING
|
房产所在城市
|
|
house_total_price
|
STRING
|
房产总价
|
|
house_unit_price
|
STRING
|
房产均价
|
|
house_type
|
STRING
|
房产类型
|
|
house_floor
|
STRING
|
房产楼层
|
|
house_direction
|
STRING
|
房产方向
|
|
house_deckoration
|
STRING
|
房产装修
|
|
house_area
|
STRING
|
房产面积
|
|
house_community_name
|
STRING
|
房产所在小区
|
|
house_region
|
STRING
|
房产所在地区
|
|
proj_name
|
STRING
|
楼盘名称
|
|
proj_addr
|
STRING
|
项目地址
|
|
period
|
STRING
|
产权年限
|
|
property
|
STRING
|
物业公司
|
|
greening_rate
|
STRING
|
绿化率
|
|
property_costs
|
STRING
|
物业费用
|
|
ds
|
STRING
|
数据导入日期
|
分区列
|
数据样例:

影视及票房数据集
总体信息:每日更新国内影视剧信息及票房数据信息 。
项目
| public_data
|
表集合
|
dwd_product_movie_basic_info 电影基本信息
ods_product_movie_box 票房基本信息
|
更新周期
| 每日早10 点前更新。至2016 年12 月13 日开始更新,全量更新。
|
查询示例 | Select * from public_data.dwd_product_movie_basic_info where ds ='20170112' limit 10; |
dwd_ product_ movie_ basic_ info
字段英文名
|
字段类型
|
描述
|
是否是分区列
|
movie_ name
|
STRING
|
电影名称
|
|
dirctor
|
STRING
|
导演
|
|
scriptwriter
|
STRING
|
编剧
|
|
area
|
STRING
|
制片地区/国家
|
|
actors
|
STRING
|
主演
|
|
type
|
STRING
|
类型
|
|
movie_ length
|
STRING
|
电影长度
|
|
movie_ date
|
STRING
|
上映日期
|
|
movie_ language
|
STRING
|
语言
|
|
imdb_ url
|
STRING
|
imdb号
|
|
ds
|
STRING
|
日期
|
分区列
|

ods_product_movie_box 票房基本信息
字段英文名
|
|
字段口型
|
描述
|
是否是分区列
|
rank
|
|
STRING
|
排名
|
|
avgprice
|
|
STRING
|
平均票价
|
|
avppeople
|
|
STRING
|
场均人次
|
|
boxoffice
|
|
STRING
|
单日票房(万)
|
|
boxoffice_ up
|
|
STRING
|
环比变化 (%)
|
|
irank
|
|
STRING
|
排名
|
|
movieday
|
|
STRING
|
上映天数
|
|
moviename
|
|
STRING
|
影片名
|
|
sumboxoffice
|
|
STRING
|
累计票房(万)
|
|
womindex
|
|
STRING
|
口碑指数
|
|
ds
|
|
STRING
|
日期
|
分区列
|
数据样例:

TPC-DS数据集 1TB
总体信息:TPC-DS是一套决策支持系统测试基准,主要针对零售行业。提供99个SQL查询(SQL99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等) 。
项目
|
public_data-非分区表
|
byte
|
MB
|
|
store_sales
|
132403186096
|
126270
|
|
catalog_sales
|
96618400536
|
92142
|
|
web_sales
|
48924735376
|
46658
|
|
store_returns
|
15258734432
|
14552
|
|
catalog_returns
|
9325156968
|
8893
|
|
web_returns
|
4776062944
|
4555
|
|
inventory
|
2354131064
|
2245
|
|
customer
|
545421520
|
520
|
表集合
|
customer_address
|
127890712
|
122
|
|
item
|
21917520
|
21
|
|
customer_demographics
|
2831808
|
2.70
|
|
catalog_page
|
1065000
|
1.02
|
|
date_dim
|
432592
|
0.41
|
|
time_dim
|
246576
|
0.24
|
|
store
|
68680
|
0.07
|
|
promotion
|
47976
|
0.05
|
|
web_page
|
32424
|
0.03
|
|
web_site
|
12000
|
0.01
|
|
call_center
|
10536
|
0.01
|
|
household_demographics
|
9448
|
0.01
|
|
warehouse
|
4640
|
<0.01
|
|
ship_mode
|
2040
|
<0.01
|
|
reason
|
1528
|
<0.01
|
|
income_band
|
1040
|
<0.01
|
|
|
|
|
更新周期
|
更新时间:2018 年7 月13 日
|
|
|
查询示例
|
脚本下载
|
|
|
基于公开数据集的实战
购买&试用MaxCompute,请加入扫码进钉钉群。公开数据集问题,请加入扫码进钉钉群。


