Pentaho 7.0更新:数据准备和分析两不误

简介:

Pentaho公司的软件定位一直是做整合数据集成和分析,不过在即将发布的7.0平台中,该公司提供了用于加速和提升数据准备流程的功能。

升级后的分析、集成、数据准备工具于11月发布,支持用户在处理和准备过程中的任何环节直观地检查数据。这样数据科学家、数据工程师和业务分析师都可以使用图表、图形和其它可视化组件来动态检查数据,发现并提前解决潜在的数据质量问题,而无需等到完成整个分析工作才能发现。

例如,他们可以看到整合两个表的数据结果对于支持准确分析来说,是否缺少了很多数值;或者在抽取、转换和加载(ETL)集成处理过程中应用回归分析技术检查是否产生错误信息。Pentaho 7.0还支持IT团队发布预定义数据源给业务用户,这样可以加速数据准备阶段的协作。

Pentaho公司表示,在运行过程中,通过准备流程以协作的方式可视化检查和评估数据,这样的功能可以缩短数据科学家和其它用户为分析用途准备数据的时间。当然,数据工程师不大可能会对数据质量问题创建流程(减少了错误概率)。(2015年日立集团有限公司收购了Pentaho公司)

Pentaho 7.0还提供了新功能,支持与Spark SQL集成,方便ETL开发人员和数据分析师在Apache Spark集群中使用标准SQL的变体查询数据。还有几种其它类似功能也是专为处理大数据环境的数据而设计,包括支持Kafka消息队列系统、Avro和Parquet文件格式。

David Menninger是Ventana研究公司的一名技术分析师,他说Pentaho的新功能混合了分析和数据准备两方面的工作,这可能意味着数据管理的一种发展趋势。

越来越多的企业都希望可以把数据准备和分析任务更紧密地整合到一起,这样整合过程就更能以自服务的形式完成。Menninger说:“自服务数据准备成为了流行趋势。实际上,它需要与分析过程紧密集成。”

现在,Menninger认为Pentaho公司走在了市场的前沿,但是他预计其它厂商会很快跟风,推出比较类似的功能。

Paxata公司就是这样一个自服务数据工具供应商,该公司才初创几年,致力于拓展软件实现更高级功能。规划增加的功能包括:引导客户做必要的数据转换;通过机器学习技术帮助用户在语义层面更好地理解数据。

Paxata公司位于美国加州Redwood市,该公司上个月迈出了第一步,发布了同名软件的更新版本,新版本利用了Paxata连接技术,可以从不同的Hadoop集群、NoSQL数据库和其它系统中抽取整合数据。Paxata公司首席产品官Nenshad Bardoliwalla表示,该公司计划以季度为周期增加更多功能,不过全面打造设想的平台还有很长的路要走。

本文转自d1net(转载)

目录
相关文章
|
5月前
|
自然语言处理 Serverless Docker
量化交易大揭秘:如何将TA-Lib神兵利器部署于云端函数计算,让策略飞升!
【8月更文挑战第8天】在量化交易中,TA-Lib作为技术分析库备受青睐,支持多语言包括Python。本教程指导如何将其移植至函数计算平台,实现云端交易策略。首先安装Python与TA-Lib;接着选择云服务商并创建实例。确认TA-Lib与平台Python版本兼容,必要时构建自定义运行时。使用`pip`安装TA-Lib并打包依赖。编写函数计算代码示例,如计算移动平均线。部署代码与依赖至平台,定制Dockerfile以支持自定义运行时。最后,通过平台测试功能验证功能正确性。完成移植后,即可享受Serverless架构的自动扩展与成本效益优势。
132 4
|
5月前
|
存储 运维 监控
Entity Framework Core 实现审计日志记录超棒!多种方法助你跟踪数据变化、监控操作,超实用!
【8月更文挑战第31天】在软件开发中,审计日志记录对于跟踪数据变化、监控用户操作及故障排查至关重要。Entity Framework Core (EF Core) 作为强大的对象关系映射框架,提供了多种实现审计日志记录的方法。例如,可以使用 EF Core 的拦截器在数据库操作前后执行自定义逻辑,记录操作类型、时间和执行用户等信息。此外,也可通过在实体类中添加审计属性(如 `CreatedBy`、`CreatedDate` 等),并在保存实体时更新这些属性来记录审计信息。这两种方法都能有效帮助我们追踪数据变更并满足合规性和安全性需求。
149 0
|
8月前
|
SQL 分布式计算 API
Apache Hudi从零到一:深入研究读取流程和查询类型(二)
Apache Hudi从零到一:深入研究读取流程和查询类型(二)
225 1
AppsFlyer 研究(十二)Google Ads MCC 配置统计应用转化
AppsFlyer 研究(十二)Google Ads MCC 配置统计应用转化
|
SQL BI 索引
【SQL开发实战技巧】系列(二十八):数仓报表场景☞人员分布问题以及不同组(分区)同时聚集如何实现
【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作,毕竟SQL开发在数据分析场景非常重要且基础,面试也会经常问SQL开发和调优经验,相信当我写完这一系列文章,也能再有所收获,未来面对SQL面试也能游刃有余~。
【SQL开发实战技巧】系列(二十八):数仓报表场景☞人员分布问题以及不同组(分区)同时聚集如何实现
|
存储 分布式计算 资源调度
膜拜!华为内部都在强推的783页大数据处理系统:Hadoop源代码pdf
大数据处理系统:Hadoop源代码情景分析,采用的是Hadoop2.6。如果你有点野心,想对大数据处理系统有比较深入透彻的了解,特别是想有朝一日自己也设计一个这样的系统,甚至自己把它写出来,那么你真应该认真读一下这本文,以及 Hadoop的源代码,看看人家是怎么设计怎么实现的。
|
SQL JSON 供应链
【墨菲安全实验室】Apache IoTDB grafana-connector模块SQL注入分析
【墨菲安全实验室】Apache IoTDB grafana-connector模块SQL注入分析
【墨菲安全实验室】Apache IoTDB grafana-connector模块SQL注入分析
五分钟带你玩转Elasticsearch(十九)企业实战——ElasticTemplate删除时间段内的数据
五分钟带你玩转Elasticsearch(十九)企业实战——ElasticTemplate删除时间段内的数据
321 0
|
存储 API
架构决策记录在 Spotify 的应用
Spotify 有多个团队使用架构决策记录(ADR)记录他们做出的各项决策。ADR 为 Spotify 带来了许多好处,包括改进新晋开发人员的入职管理,提升组织调整导致项目所有权移交的灵活性,改善团队之间关于最佳实践认知的一致性。
|
存储 分布式数据库 Apache
Apache HBase2.0正式发布——内附导读材料
激动 HBase2.0 啥时候发布?好奇宝宝也是期待了很久,曾几何时都把stack问“烦”了,就在2018年4月30日中午, 期待已久的HBase 2.0发布啦! 你是不是也很迫不及待想了解它?这次,作为一枚HBase搬运工,已经为你准备好了一大波 HBase 2.0.0导读材料,拿走不谢~ 北京时间2018年4月30日(星期一) 中午12:24,HBase的“掌门人”Michael Stack 在Announce Mail List中宣布了HBase 2.0.0 版本正式Release,大家可以开始下载使用了。
10860 0