Pentaho 7.0更新:数据准备和分析两不误

简介:

Pentaho公司的软件定位一直是做整合数据集成和分析,不过在即将发布的7.0平台中,该公司提供了用于加速和提升数据准备流程的功能。

升级后的分析、集成、数据准备工具于11月发布,支持用户在处理和准备过程中的任何环节直观地检查数据。这样数据科学家、数据工程师和业务分析师都可以使用图表、图形和其它可视化组件来动态检查数据,发现并提前解决潜在的数据质量问题,而无需等到完成整个分析工作才能发现。

例如,他们可以看到整合两个表的数据结果对于支持准确分析来说,是否缺少了很多数值;或者在抽取、转换和加载(ETL)集成处理过程中应用回归分析技术检查是否产生错误信息。Pentaho 7.0还支持IT团队发布预定义数据源给业务用户,这样可以加速数据准备阶段的协作。

Pentaho公司表示,在运行过程中,通过准备流程以协作的方式可视化检查和评估数据,这样的功能可以缩短数据科学家和其它用户为分析用途准备数据的时间。当然,数据工程师不大可能会对数据质量问题创建流程(减少了错误概率)。(2015年日立集团有限公司收购了Pentaho公司)

Pentaho 7.0还提供了新功能,支持与Spark SQL集成,方便ETL开发人员和数据分析师在Apache Spark集群中使用标准SQL的变体查询数据。还有几种其它类似功能也是专为处理大数据环境的数据而设计,包括支持Kafka消息队列系统、Avro和Parquet文件格式。

David Menninger是Ventana研究公司的一名技术分析师,他说Pentaho的新功能混合了分析和数据准备两方面的工作,这可能意味着数据管理的一种发展趋势。

越来越多的企业都希望可以把数据准备和分析任务更紧密地整合到一起,这样整合过程就更能以自服务的形式完成。Menninger说:“自服务数据准备成为了流行趋势。实际上,它需要与分析过程紧密集成。”

现在,Menninger认为Pentaho公司走在了市场的前沿,但是他预计其它厂商会很快跟风,推出比较类似的功能。

Paxata公司就是这样一个自服务数据工具供应商,该公司才初创几年,致力于拓展软件实现更高级功能。规划增加的功能包括:引导客户做必要的数据转换;通过机器学习技术帮助用户在语义层面更好地理解数据。

Paxata公司位于美国加州Redwood市,该公司上个月迈出了第一步,发布了同名软件的更新版本,新版本利用了Paxata连接技术,可以从不同的Hadoop集群、NoSQL数据库和其它系统中抽取整合数据。Paxata公司首席产品官Nenshad Bardoliwalla表示,该公司计划以季度为周期增加更多功能,不过全面打造设想的平台还有很长的路要走。

本文转自d1net(转载)

目录
相关文章
|
11月前
|
机器学习/深度学习 自然语言处理 监控
智能客服系统集成技术解析和价值点梳理
在 2024 年的智能客服系统领域,合力亿捷等服务商凭借其卓越的技术实力引领潮流,它们均积极应用最新的大模型技术,推动智能客服的进步。
475 7
|
12月前
|
自然语言处理 SEO
企业网站选择什么CMS系统更有利于SEO优化
企业网站选择什么CMS系统更有利于SEO优化
178 5
|
开发框架 安全 .NET
使用VB.NET构建Web服务和REST API的指南
【7月更文挑战第2天】使用VB.NET构建Web服务和REST API的指南:从Web服务基础到ASP.NET Core实践,涵盖控制器、路由、模型绑定、安全措施(如JWT、HTTPS)及测试、部署(Azure、Docker)与监控工具。了解如何利用VB.NET在现代云环境中创建高效、安全的API。开始你的VB.NET Web服务开发之旅!**
550 1
|
数据采集 数据可视化 Ruby
GitHub星标破万!Python学习教程(超详细),真的太强了!
Python 是一门初学者友好的编程语言,想要完全掌握它,你不必花上太多的时间和精力。 Python 的设计哲学之一就是简单易学,体现在两个方面: 1. 语法简洁明了:相对 Ruby 和 Perl,它的语法特性不多不少,大多数都很简单直接,不玩儿玄学。 2. 切入点很多:Python 可以让你可以做很多事情,科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等,总有一个是你感兴趣并且愿意投入时间的。
|
存储 缓存 移动开发
如何在微信小程序中使用本地存储
如何在微信小程序中使用本地存储
|
人工智能
本地离线部署大模型知识库OLLAMA+Anything(保姆级)
本地离线部署大模型知识库OLLAMA+Anything(保姆级)
4916 3
Postman 自定义变量使用详解
Postman是一款强大的API测试工具,支持全局、环境、集合和本地四种变量类型,方便不同场景的测试需求。定义变量涉及全局(在“Manage Environments”>“Globals”),环境(创建新环境并添加),集合(编辑集合>“Variables”),以及脚本内定义的本地变量。使用变量时以`{{variableName}}`格式插入,通过`pm.variables.get()`在脚本中获取。变量优先级:本地>数据>环境>集合>全局,可在Pre-request或Tests脚本中动态设置。掌握变量使用能提升测试效率。
|
Python
Python中如何定义函数 以及实参和形参的区别
Python中如何定义函数 以及实参和形参的区别
383 1
|
资源调度 监控
[Nestjs] 使用log4js-node实现日志生成
安装依赖:使用 npm 或 yarn 安装 log4js。
650 0
|
机器学习/深度学习 并行计算 搜索推荐
【推荐系统论文精读系列】(六)--Field-aware Factorization Machines for CTR Prediction
点击率预测发挥了很大的作用在计算广告领域。针对这个任务,POLY2和FMs被广泛的应用。最近一个FMs的变体FFM,它的表现已经超过了现有的一些模型。基于我们赢得了两次比赛的胜利,本篇论文我们已经建立了一个有效的方式对于阐述现有的大型稀疏矩阵。首先,我们提出一些FFMs的训练实现方式。然后我们深刻分析了FFMs并且对比了这个方法与其它模型。经验表明FFMs是非常有用的对于某些分类问题,最后,我们已经发布了开源的FFMs供大家使用。
305 0
下一篇
开通oss服务