SAS,R和Python应对数据管理和分析挑战

简介: SAS,R和Python应对数据管理和分析挑战

去年,我与一家公司进行了短暂的咨询工作,该公司正在构建一个主要由基于Web的数据存储库驱动的分析应用程序。数据存储为SAS数据集的集合,“客户”可以通过上载SAS数据步骤和proc SQL脚本来将其作为子集。生成的数据随后可供下载。我的职责是指导团队使用SAS应对数据管理和分析挑战。

在安装和配置WPS之后,我的任务是开发解决方案,以解决我们早期面临的性能挑战。

针对此挑战的替代设计涉及WPS的proc R,其中可以利用将SAS数据集导出/导入到R数据帧以及从SAS / WPS脚本执行R代码的功能。进入R世界之后,识别稀疏列并创建一个删除这些列的新数据框的任务很简单。

首先包含/运行SAS autoexec文件。


接下来定义一个简单的SAS宏“函数”,该函数将数据集名称作为参数并打印行和列的#。在测试SAS数据集上调用它。




将测试SAS数据集导出到R数据帧,确定哪些列为60%或更高notnull,将这些列组装到新数据帧中,然后将该数据帧导入SAS。注意注释的语句除了空值外还标识空白。264列中只有33列达到60%阈值。该单元的执行非常迅速。


接下来,将SAS数据集导出到Python pandas,然后部署Python函数以确定每列中的%notnull并创建一个新的pandas数据框,其中只有%notnull超过.6的列。经过Python处理后,将pandas数据框导入SAS。与R一样 。这个单元比上一个单元耗费了一个数量级的时间。

尽管SAS仍然是一个主要的分析平台,并且不会很快消失,但它已为R和Python的分析工作所取代。对于SAS / WPS程序员而言,Python和R proc是Base SAS的非常有用的附件。确实,商业和开放源代码的竞争数据科学生态系统之间的互操作性将继续提高-这对数据科学世界来说无非是一件好事。目前,WPS的proc R比proc Python快很多,因此是协作SAS工作的选择。希望proc Python将很快成为高性能,使SAS数据程序员能够平等地访问前两个DS平台。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
2月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
3月前
|
缓存 供应链 监控
1688item_search_factory - 按关键字搜索工厂数据接口深度分析及 Python 实现
item_search_factory接口专为B2B电商供应链优化设计,支持通过关键词精准检索工厂信息,涵盖资质、产能、地理位置等核心数据,助力企业高效开发货源、分析产业集群与评估供应商。
|
3月前
|
缓存 监控 算法
item_get - Lazada 商品详情详情接口深度分析及 Python 实现
Lazada商品详情接口item_get可获取商品全维度数据,包括价格、库存、SKU、促销及卖家信息,支持东南亚六国站点,适用于竞品监控、定价策略与市场分析,助力跨境卖家精准决策。
|
3月前
|
JSON 监控 数据格式
1688 item_search_app 关键字搜索商品接口深度分析及 Python 实现
1688开放平台item_search_app接口专为移动端优化,支持关键词搜索、多维度筛选与排序,可获取商品详情及供应商信息,适用于货源采集、价格监控与竞品分析,助力采购决策。
|
3月前
|
缓存 监控 算法
唯品会item_search - 按关键字搜索 VIP 商品接口深度分析及 Python 实现
唯品会item_search接口支持通过关键词、分类、价格等条件检索商品,广泛应用于电商数据分析、竞品监控与市场调研。结合Python可实现搜索、分析、可视化及数据导出,助力精准决策。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
3月前
|
缓存 监控 算法
苏宁item_get - 获得商品详情接口深度# 深度分析及 Python 实现
苏宁易购item_get接口可实时获取商品价格、库存、促销等详情,支持电商数据分析与竞品监控。需认证接入,遵守调用限制,适用于价格监控、销售分析等场景,助力精准营销决策。(238字)

推荐镜像

更多