SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作-阿里云开发者社区

开发者社区> 王小雷> 正文

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

简介: SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定分组变量,用于控制SET,MERGE,UPDATE或MODIFY语句。 BY<DESCENDING>variable-1 <...<DESCENDI
+关注继续查看

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序,

2. BY语句,DATA步中,BY语句规定分组变量,用于控制SET,MERGE,UPDATE或MODIFY语句。

BY<DESCENDING>variable-1
  <...<DESCENDING>variable-n><NOTSORTED><GROUPFORMAT>;
其中:
Variable为分类、排序或索引的变量;
GROUPFORMAT为用格式化值分组;
NOTSORTED为未排序。

3. MERGE 多表的横向合并,关系为一对一,一对多,多对一。而多对多需用SQL。

    应用:1)根据某些需求条件更新特定变量2)对主数据的某些变量做历史累加

UPDATE语句后面只能跟两个数据集,最靠近UPDATE语句的是主数据集,随后是更新数据集。UPDATE在横向合并两个数据集时和MERGE相似,都是用更新数据集修改主数据集。
区别:MERGE,对更新数据集缺失值的处理,MERGE语句是不顾后果的,它会统统用远离MERGE语句数据集的数据覆盖靠近MERGE语句数据集的数据,即便是缺失值也会覆盖。
但是,有时候商业需求要求在更新数据集数据缺失的情况下用主数据集数据替代,这时候就是UPDATE语句、在使用SAS做数据仓库的ETL开发时就是如此。
MODIFY:每次更新非常庞大的数据集需要定期更新,但是每次更新对象都是动态的,可以比MERGE/UPDATE减少内存消耗。
MODIFY的四种数据集的访问机制:匹配访问、索引访问、观测访问、观测序列号访问、顺序访问。
@和@@的应用:@ 表示执行下一个操作时,指针移到下一个记录。@@表示执行下一个操作,指针保持在当前记录。
proc:过程步的开始是procedure的缩写。

4.输出观测的方法:4.1没有任何输出语句–输出PDV;4.2OUTPUT;REPLACE;REMOVE

5.put语句:可以输出变量信息到指定地点,包括:输出到SAS系统的日志窗口,输出到FILE语句规划的外部文件,输出到SAS系统的OUTPUT窗口。

        SAS系统使用PUT语句输出时,可以用指针控制,注意列指针控制的@要放在变量之前,行固定说明符的@要放在变量之后。
        PUT应用:输出结果到LOG窗口,调试程序运行过程中变量产生的中间值。输出结果到外部文件。

6.@和@@应用/单尾符和双尾符

一般单尾符应用在PUT,双尾符应用在INPUT。
单尾符:一个数据行用多个PUT语句输出数据,或多个INPUT语句输入数据。
双尾符:一个输入数据行含有多个观测的值,用INPUT语句读入,或者把多个观测输出到一个数据行,用PUT。

7.FIEL语句

FILE语句用于规定当前的输出文件,并且该文件一定是一个不同于SAS文件的外部文件。且与PUT配合使用。
INFILE语句    INFILE file-specification<options><host-options>;独有常用项:DSD dlm='',FRISTOBS,LENGTH,MISSOVER,_INFILE_

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
jQuery EasyUI API 中文文档 - 数据表格(DataGrid)
DataGrid 数据表格 扩展自 $.fn.panel.defaults ,用 $.fn.datagrid.defaults 重写了 defaults 。 依赖 panel resizable linkbutton pagination 用法 1.
1083 0
独家 | ARIMA/Sarima与LSTM的时间序列数据集成学习(附链接)
本文探讨了简单的ARIMA/Sarima与LSTM的时间序列数据集成学习方面的问题。
1590 0
【最佳实践】使用 Elasticsearch SQL 实现数据查询
如何使用 Elasticsearch SQL 来对我们的数据进行查询。
2373 0
SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制
SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制 1. 各种循环与控制 DO组 创建一个执行语句块 DO循环 根据下标变量重复执行DO和END之间的语句 DO WHILE 重复执行直到条件为假则退出循环 DO UNTIL 重复执行直到条件为真则退出循环 DO OVER 对隐含下标
1257 0
服务端编程示例|学习笔记
快速学习服务端编程示例
40 0
使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。
2829 0
SAS进阶《深入解析SAS》之SAS数据挖掘的一般流程
SAS进阶《深入解析SAS》之SAS数据挖掘的一般流程 1. 所谓数据挖掘,是指通过对大量的数据进行选择、探索与建模,来揭示包含在数据中以前不为人所知的模式或规律,从而为商业活动或科学研究提供帮助和服务。 2. 数据挖掘重要的两个类别:有监督分析(SupervisedAnalysis),无监督分析(UnsupervisedAnalysis)。 有监督分析属于目标
1108 0
Django学习笔记----数据库操作实例
上上篇>Django学习笔记----环境搭建基于Windows 上一篇>Django学习笔记----快速入门 修改settings.py配置 在环境搭建篇, 我们已经安装了mysql-client包 安装好后, 在settings.
1206 0
+关注
王小雷
专注大数据,人工智能的多面手,对新兴的技术与知识充满了好奇与渴望!
128
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载
《2021云上架构与运维峰会演讲合集》
立即下载