开源机器学习平台 Alink 1.1.1 在易用性上有哪些优化?

简介: 本文将详解介绍 Alink 1.1.1 版本中的新增功能及修复内容,并分享 Alink 1.1.1 在易用性方面的小技巧。

2019年11月28日,在 Flink Forward Asia 大会上,机器学习算法平台 Alink 宣布开源,成为众多开发者关注的焦点。今年2月,Alink 1.10 发布,对 Flink 1.10 和 Flink 1.9 提供了支持。近期 Alink 团队持续发力,发布了最新的 Alink 1.1.1 版本,不仅开发了新功能,还对部分已有功能进行了增强和完善。

本文将详解介绍 Alink 1.1.1 版本中的新增功能及修复内容,并分享 Alink 1.1.1 在易用性方面的小技巧。

版本更新下载及 Github 送 Star
https://github.com/alibaba/Alink

Alink 1.1.1 Release Note 概览

Alink 1.1.1 增强功能和新功能:

  • 数据列参数的检验和提示
  • 枚举类型参数的检验和提示
  • 优化 Alink 批式组件与 Python Dataframe 之间数据转换的速度
  • 当 useRemoveEnv 时自动检测 localIp
  • 新增组件,将 CSV、JSON 和 KV 格式的字符串解析为多列
  • 新增组件 WindowGroupByStreamOp,简化流式数据的窗口分组操作
  • Tokenizer 支持多个空格的字符串拆分
  • 添加 FTRL 示例

Alink 1.1.1 修复和完善:

  • 修复 dill 版本冲突
  • 修复 HasVectorSize 别名错误
  • 修复使用 collect 方法时出现 mysqlsource 错误

了解更多 Alink 1.1.1 feature:
https://github.com/alibaba/Alink/releases

Alink 1.1.1 在易用性方面的小技巧

在使用 Alink 算法时,经常遇到一些枚举类型的参数,譬如:对于卡方特征选择器 ChiSqSelector,其参数 SelectorType 可以填写 NumTopFeatures、Percentil、FPR 等,是枚举类型,但是我们在写脚本的时候,可能会记错,譬如,我们输入了“aaa”,脚本代码如下:

1.jpg

在之前的 Alink 版本,会显示如下信息:

v2-dcbbf616e50f727340fd6c264da59cd9_r.jpg

SelectorType 输出错误的值 AAA,异常信息不明显,没有指出是哪个参数写错了。

在 1.1.1 版本优化之后, 异常信息中会有哪个参数填写错误,和值可能是什么。

v2-ddf2c2d35d0c4f19d919e7a1d6875837_r.jpg

如果使用 Java 编辑器,建议使用枚举类型作为参数的方法,编辑器的自动提示进行选择。

v2-b8b0a17c47d8a42edef8e219cb1e1587_r.jpg

我们在使用算法组件的时候还经常遇到这种情况,算法中会有些列名参数,我们也有输入错误的可能,如下图所示,将 text 列名写为 text1。

v2-54e477d77c3f62f7736aaea31f7549af_r.jpg

在 1.1.1 版本里,不仅抛出哪列不存在,也会提示最可能的列名,帮助用户做判断。

v2-148d0774a36a2ecac457ac10cfac1701_r.jpg

以上分享希望对你有所帮助,了解更多 Alink 上手实践文章,后续公众号将分享更多 Alink 技术干货,欢迎大家持续关注!

目录
相关文章
|
5月前
|
机器学习/深度学习 SQL 运维
数据库出问题还靠猜?教你一招用机器学习优化运维,稳得一批!
数据库出问题还靠猜?教你一招用机器学习优化运维,稳得一批!
182 4
|
10月前
|
人工智能 Linux API
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
1132 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
|
5月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。
|
5月前
|
机器学习/深度学习 存储 Java
Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用(190)
本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析,开发者可深入洞察玩家行为特征,构建个性化运营策略。同时,利用回归模型优化游戏数值与付费机制,提升游戏公平性与用户体验。
|
7月前
|
数据可视化 Rust 机器学习/深度学习
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
mlop.ai 是首个为国区用户优化的机器学习工具,全栈免费开源,是主流付费解决方案 ClearML/WandB 的开源平替。常规实验追踪的工具经常大幅人为降速,mlop因为底层为Rust代码,能轻松支持高频数据写入。如需更多开发者帮助或企业支持,敬请联系cn@mlop.ai
443 12
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
|
11月前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
8月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
10月前
|
机器学习/深度学习 人工智能 并行计算
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
Unsloth 是一款开源的大语言模型微调工具,支持 Llama-3、Mistral、Phi-4 等主流 LLM,通过优化计算步骤和手写 GPU 内核,显著提升训练速度并减少内存使用。
1580 3
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
|
10月前
|
人工智能 自然语言处理 物联网
阿里万相重磅开源,人工智能平台PAI一键部署教程来啦
阿里云视频生成大模型万相2.1(Wan)重磅开源!Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,轻松实现高质量的视频生成。同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署阿里万相重磅开源的4个模型,可获得您的专属阿里万相服务。

热门文章

最新文章