微软发布了用于交互式数据探索和建模的数据科学工具

简介:

微软最近发布了两个新的数据科学工具,用于交互式数据探索:建模和报告。这些数据科学工具被称为交互式数据探索、分析和报告(Interactive Data Exploration, Analysis and Reporting,IDEAR)和自动建模和报告(Automated Modeling and Reporting,AMAR)。数据科学团队可以通过这些数据科学工具在他们的项目中完成一些具体任务。

数据科学团队花了大量的时间写代码来回答数据相关的问题,如数据模式、丢失的数据元素、个体变量的分布和变换、在数据中特定的聚类模式以及机器学习(Machine Learning,ML)模型的性能等。这两个工具可以用来在数据科学的生命周期中将这些常见的任务自动化。其目标是在组织内的不同项目之间保持数据科学的一致性和完整性。

交互式数据探索:

IDEAR工具可以用来探索、可视化和分析数据,并提供数据洞察。基于R Studio的Shiny库,IDEAR包含了数据导出和报告生成功能。数据导出功能可以保存相关的R脚本,生成可视化数据并保存到R日志文件中。用户可以运行R日志文件来自动生成数据报告。

IDEAR的其他功能包括自动变量类型检测、变量排名和目标泄漏识别、可视化高维数据等。

自动建模和报告:

AMAR用超参数扫描来训练机器学习模型,比较模型的准确性并评估变量的重要性。在一个参数输入文件中我们指定ML模型去运行,指定把哪些数据用于训练和测试,指定参数范围去扫描并且指定选择最佳参数的策略。

由AMAR工具生成的模型报告包含模型信息、模型评价和比较以及特征排名。

IDEAR和AMAR工具在CRAN-R中运行,并能够在GitHub网站上找到。这个库是团队数据科学过程(Team Data Science Process,TDSP)的一部分,上个月在微软的机器学习和数据科学峰会上被推出。

如果你有兴趣学习更多关于这些数据科学工具的内容,请查看微软Technet博客中的文章,或GitHub网站上的AzureTDSP Utilities。

查看英文原文:Microsoft Releases Data Science Tools for Interactive Data Exploration and Modeling

本文转自d1net(转载)

目录
相关文章
|
5月前
|
数据可视化 数据挖掘 知识图谱
精选:15款顶尖Python知识图谱(关系网络)绘制工具,数据分析的强力助手
这里有15款免费工具推荐:NetworkX(Python基础),Graph-tool(C++速度),Graphviz(可视化库),ipycytoscape(Jupyter集成),ipydagred3,ipySigma(NetworkX + Web),Netwulf(交互式),nxviz(Matplotlib绑定),Py3plex(复杂网络分析),Py4cytoscape(Python+Cytoscape),pydot(Graphviz接口),PyGraphistry(GPU加速),python-igraph,pyvis(交互式图形),SNAP(大规模网络分析)。绘制和理解网络图从未如此简单!
344 0
|
6月前
|
机器学习/深度学习 存储 算法
命令行上的数据科学第二版:九、建模数据
命令行上的数据科学第二版:九、建模数据
74 0
|
机器学习/深度学习 自然语言处理 数据可视化
BERT是如何理解语言的?谷歌发布交互式平台LIT,解决模型可视化难题
谷歌之前发布的 What-If 工具就是为了应对这一挑战而构建的,它支持对分类和回归模型的黑盒探测,从而使研究人员能够更容易地调试性能,并通过交互和可视化分析机器学习模型的公平性,但是仍然需要一个工具包来解决 NLP 模型特有的挑战。
219 0
BERT是如何理解语言的?谷歌发布交互式平台LIT,解决模型可视化难题
|
机器学习/深度学习 分布式计算 DataWorks
阿里云机器学习平台PAI使用简明教程(二)
前面在阿里云机器学习平台PAI使用简明教程介绍了使用DataStudio在maxcompute中手动导入数据进行PAI Studio模型的搭建、训练及在线部署调用。实际在使用过程中使用者的数据可能在其它的数据源,目前PAI Studio并不支持直接接入第三方数据源。官方推荐的方式是使用Dataworks的数据集成功能,将数据通过离线同步将数据导入到maxcompute中,然后进行后续操作。本文以Mysql数据库为例,结合GBDT二分类算法组件,演示相关过程的操作流程。
416 0
阿里云机器学习平台PAI使用简明教程(二)
|
机器学习/深度学习 数据采集 存储
ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略
ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略
ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略
|
机器学习/深度学习 人工智能 人机交互
微软开源可解释机器学习工具包lnterpretML
当人工智能系统能够影响人类生活时,人们对它的行为理解是非常重要的。
380 0
|
机器学习/深度学习 Kubernetes API
为什么我们建立机器学习工程平台,而不是数据科学平台?
大约一年前,我们中的一些人开始研究开源机器学习平台 Cortex 。我们的动机很简单:鉴于从模型中构建应用程序是一种可怕的体验,充满了胶水代码和样板,我们需要一个工具,能将这些都予以抽象化。
|
Python 机器学习/深度学习 Shell
带你读《机器学习即服务 将Python机器学习创意快速转变为 云端Web应用程序》之三:在GCP上基于逻辑回归实现实时智能
本书涵盖Kubernetes架构、部署、核心资源类型、系统扩缩容、存储卷、网络插件与网络本书由浅入深地介绍了一系列常见的Python数据科学问题。书中介绍的实践项目简单明了,可作为模板快速启动其他类似项目。通过本书,你将学习如何构建一个Web应用程序以进行数值或分类预测,如何理解文本分析,如何创建强大的交互界面,如何对数据访问进行安全控制,以及如何利用Web插件实现信用卡付款和捐赠。
|
Python 开发工具 git
带你读《机器学习即服务 将Python机器学习创意快速转变为 云端Web应用程序》之二:在Azure上进行共享单车 回归模型智能预测
本书涵盖Kubernetes架构、部署、核心资源类型、系统扩缩容、存储卷、网络插件与网络本书由浅入深地介绍了一系列常见的Python数据科学问题。书中介绍的实践项目简单明了,可作为模板快速启动其他类似项目。通过本书,你将学习如何构建一个Web应用程序以进行数值或分类预测,如何理解文本分析,如何创建强大的交互界面,如何对数据访问进行安全控制,以及如何利用Web插件实现信用卡付款和捐赠。
机器学习工具、平台汇总
1. 平台和系统 TensorFlow — TensorFlow 是谷歌的第二代机器学习系统,内建深度学习的扩展支持,任何能够用计算流图形来表达的计算,都可以使用 TensorFlow PaddlePaddle — 百度研发的深度学习平台,具有易用,高效,灵活和可伸缩等特点,为百度内部多项产品提供深度学习算法支持 Apache SINGA — SINGA 是基于大型数据集训练,大型深度学习模块的常规分布式学习平台。
10748 0