Cloudera全新数据科学工作台加快企业数据科学及机器学习

简介:

近日,机器学习和先进分析平台提供商Cloudera发布了测试版Cloudera数据科学工作台(Data Science Workbench),它是一款基于Cloudera企业版运行数据科学的自助工具。Cloudera数据科学工作台以去年所收购的数据科学初创企业Sense.io的技术为基础,使数据科学家可以使用其偏好的开源语言(包括R、Python和Scala),集成原生Apache Spark和Apache Hadoop的安全企业平台上的资源库,从而加快分析项目从探索到生产的进展速度。

Cloudera全新数据科学工作台加快企业数据科学及机器学习

Cloudera产品高级副总裁Charles Zedlewski表示:“Cloudera的工作重点在于改善数据科学和工程团队的用户体验,尤其是那些希望借助Spark进行数据处理和机器学习、并以此提高分析能力的用户。Sense.io及其团队的加入为我们带来了坚实的基础,使我们的数据科学工作台可以为客户提供大规模的自助式数据科学支持。”

对于数据科学家:

  • 支持将R、Python或Scala搭配个人优选的资源库和框架,通过网页浏览器直接使用
  • 可通过Spark和Impala直接访问安全的Hadoop集群上的数据
  • 与整个团队分享洞察,实现可复制、协作式的研究

对于IT专业人士:

  • 令数据科学团队可自由选择工作方式和时间
  • 与外部支持保持合规,实现Hadoop、尤其是Kerberos的充分安全性
  • 可在本地或云端运行,无论身在何处,均可轻松管理数据

随着开放数据科学跨越了广泛的Python和R生态系统,拓展到了Tensorflow、Microsoft Cognitive Toolkit、MXnet和BigDL等深度学习框架中,加之越来越多的数据被储存在Hadoop环境里,数据科学团队正在努力寻求利用这些工具的方法。Cloudera数据科学工作台提供了一个安全可靠的环境,可将最新的开源创新技术与Cloudera客户所信赖的统一平台相结合。

Zedlewski还表示:“鉴于数据科学家们的需求非常多样化,让他们进入共享环境往往给用户的IT团队带来巨大的挑战,特别是涉及开源工具的情况下,常造成重复工作、分析孤岛,以及降低安全性和管理能力等挑战。与此同时,数据科学家正在为其事业不断追求更大的数据集和更强大的计算平台。凭借我们的数据科学工作台,Cloudera可以帮助IT团队和数据科学家开展协作,让更多用户以灵活和合规的方式加入共享环境。”

原文发布时间为:2017年3月16日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
目录
相关文章
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
7月前
|
机器学习/深度学习 数据可视化 TensorFlow
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。
|
7月前
|
机器学习/深度学习 数据可视化 算法
Python 高级编程与实战:深入理解数据科学与机器学习
在前几篇文章中,我们探讨了 Python 的基础语法、面向对象编程、函数式编程、元编程、性能优化和调试技巧。本文将深入探讨 Python 在数据科学和机器学习中的应用,并通过实战项目帮助你掌握这些技术。
|
11月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
11月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
178 0
|
机器学习/深度学习 API 网络架构
"解锁机器学习超级能力!Databricks携手Mlflow,让模型训练与部署上演智能风暴,一触即发,点燃你的数据科学梦想!"
【8月更文挑战第9天】机器学习模型的训练与部署流程复杂,涵盖数据准备、模型训练、性能评估及部署等步骤。本文详述如何借助Databricks与Mlflow的强大组合来管理这一流程。首先需在Databricks环境内安装Mlflow库。接着,利用Mlflow跟踪功能记录训练过程中的参数与性能指标。最后,通过Mlflow提供的模型服务功能,采用REST API或Docker容器等方式部署模型。这一流程充分利用了Databricks的数据处理能力和Mlflow的生命周期管理优势。
516 7
|
机器学习/深度学习 数据采集 人工智能
ERP系统中的人工智能与机器学习应用:提升企业智能化管理
【7月更文挑战第29天】 ERP系统中的人工智能与机器学习应用:提升企业智能化管理
1682 0
|
机器学习/深度学习 算法 数据处理
从数据科学到机器学习的过渡:技术与思维的演进
【5月更文挑战第21天】本文探讨了从数据科学到机器学习的过渡,强调了技术与思维的转变。数据科学侧重数据处理和分析,为机器学习提供基础;机器学习是数据科学的强大力量,涉及算法开发。过渡需掌握机器学习算法、编程语言(如Python)及库,转变思维方式,注重预测和优化分析。建议包括深入学习算法、实践项目、掌握编程工具和保持好奇心。这一过渡是职业发展的重要步骤。
|
机器学习/深度学习 数据采集 存储
在机器学习和数据科学中,数据预处理是一个至关重要的步骤。数据规范化(或称为特征缩放)是预处理的一种常见技术,它可以帮助我们改进模型的性能。`sklearn.preprocessing`模块提供了多种数据规范化的方法,其中`StandardScaler`和`MinMaxScaler`是最常用的两种。
在机器学习和数据科学中,数据预处理是一个至关重要的步骤。数据规范化(或称为特征缩放)是预处理的一种常见技术,它可以帮助我们改进模型的性能。`sklearn.preprocessing`模块提供了多种数据规范化的方法,其中`StandardScaler`和`MinMaxScaler`是最常用的两种。

热门文章

最新文章