前端机器学习的利器,更快的 Pipcook 1.2

简介: 转眼两个月的时间过去了,Pipcook 迎来了第二个稳定版(v1.2)的发布,接下来就看看,在这个版本中都有哪些改进和提升吧。
作者 | 雷姆(Yorkie)

转眼两个月的时间过去了,Pipcook 迎来了第二个稳定版(v1.2)的发布,接下来就看看,在这个版本中都有哪些改进和提升吧。
image.png

重要特性一览

在过去的两个多月,开发团队针对服务的启动、插件安装以及 Pipeline 的执行时间都做了针对性的优化,尤其是之前被内部用户吐槽最多的执行 Pipeline 开始训练的时间,从之前的需要5分钟以上才能开始训练模型,到现在优化过的 Pipeline 只需要10秒内就可以开始了。

训练模型更快

在 v1.0 版本中,每个 Pipeline 中分为不同的阶段,比如负责收集数据集的 DataCollect,以及负责定义模型的 ModelDefine,或者是用于处理数据集的 DatasetProcess。在上一个稳定版本中,训练一个简单的组件(图片)分类的任务就需要花费将近2分钟来处理数据(时间随数据集的大小线性增长)。

这其中的原因有两个:

  • 在 v1.0 Pipeline 的定义中,在前一个阶段没有完全处理完数据前,是不会进入下一个阶段的,但其实比如在数据收集和处理的过程中,有大量的 I/O 等待时间和 CPU 空闲时间。
  • 在 v1.0 Pipeline 的定义中,数据类插件(DataCollect、DataAccess、DataProcess)之前都是通过文件的路径来传递的,这不仅使得在一次 Pipeline 的过程中会增长大量重复的磁盘读写操作,还使得一些像归一化(Normalization)这样针对数字进行的计算无从做起。

于是在 PR#410中,通过引入了异步 Pipeline 的机制,并使用 Sample 作为插件之间传递数据的单元,这样做的好处是:

  • 一旦前一个插件产出第一个 Sample,便能够开始加载后面的插件,这样就解决了之前后续插件需要等待数据全部处理完的问题,大大提前了训练开始的时间。
  • 减少了不必要且重复的读写操作,插件之间将 Sample 放到内存中传递,并且处理后的值就存储在内存中,供后面阶段的插件使用。

在异步 Pipeline 的帮助下,我们成功将 Pipeline 进入训练的时间由1分15秒降低到11秒,同时也缩短了整体的训练时间。

插件安装更快

在新版本中,我们也优化了插件安装的流程,在现在 Pipcook 中的大部分 Pipeline 还是依赖于 Python 生态的,因此在安装这些插件时,会同时安装 Python 和 Node.js 的依赖,而在 v1.2 之前,Pipcook 都是串行安装的,于是在 PR#477中,我们将 Python 和 Node.js 包的安装并行化,从而减少了总体的安装时间。

在后续的版本中,我们依然会继续挖掘并行化所带来的优化,尝试将每个安装任务(Python 和 Node.js 包)统一分析后调度安装任务,以实现更合理的并行安装。

初次启动更快

从 Pipcook 1.2 开始,用户将不再需要在本地安装 Pipboard 了,我们将 Pipboard 通过 Vercel 部署成了在线服务,并将代码全部迁移到了 https://github.com/imgcook/pipboard 下。

用户通过 https://pipboard.vercel.app/ 即可使用 Pipboard 的功能,不过目前仍然有一些需要调整的部分,比如还不支持使用远程的 Pipcook Daemon 等。

Pipboard 后续的发布周期将独立于 Pipcook,也就是说,我们鼓励大家基于 Pipcook SDK 开发属于自己的 Pipboard,而 Pipboard 本身将是作为 Demo 或者默认提供的示例性应用提供。

支持 Google Colab

如果持续关注 Pipcook 的用户一定很早就发现,官方文档中的部分教程的开头增加了 Google Colab 的链接!是的,Pipcook 支持在 Google Colab 上运行了,这意味着对于受困于没有 GPU 的初学者而言,可以通过 Google Colab 上免费的 GPU/TPU 来学习 Pipcook 了,只需从下面两个链接开始,即可开始你的前端组件识别之旅:

面向算法工程师的插件 Python 运行时

为了方便算法工程师以更低门槛地为 Pipcook 贡献模型,我们增加了对纯 Python 运行时的支持,对于贡献者来说,除了需要额外定义一个 package.json 外,不需要写任何 JavaScript 代码就能完成插件(模型类)的开发,并且为了方便算法工程师简单地上手,我们基于 Python 的插件运行时,开发了一条 NLP(NER)的 Pipeline,相关的插件如下:

Pipcook SDK 发布

正如前面提到的,我们将 Pipboard 移出了 Pipcook 并独立发布,就是希望开发者们通过 Pipcook SDK 能够开发适合自己需要的 Pipboard 或者其他任何形式的应用,因此我们将在 v1.2 正式发布 Pipcook SDK,它支持在 Node.js 与 JavaScript 运行环境使用指定 Pipcook 服务来完成 Pipeline 和训练任务的管理。

const client = new PipcookClient('your pipcook daemon host', port);
const pipelines = await client.pipeline.list(); // 显示当前所有的 pipeline

Daily(Beta)版本与 Release 版本

为了让用户有选择性的使用 Pipcook,我们这过去两个月针对我们的版本发布周期进行了更新,具体规则如下:

  • Beta 版本或 Daily 版本,每天会由 CI(GitHub Actions) 系统自动构建与发布,如果你想尝试最新版本的用户可以使用 pipcook init beta 或 pipcook init --beta 获取。
  • Release 版本

    • 基数版本(如 1.1、1.3 等)为非稳定版,主要合入一些较大的实验性质特性
    • 偶数版本(如 1.0、1.2 等)为稳定版,主要针对稳定性、性能等进行较多的修复和优化
    • 所有 Release 版本都会遵循 Semver2.0 的规范

下版本计划(v.1.4)

按照计划,我们将于两个月后发布 Pipcook v1.4,开发团队仍然会将如何让 Pipcook 更“快”,作为工作重心。

比如,现在训练完模型后,如果想要在 Node.js 环境下使用,还是需要非常冗长的步骤来执行 NPM 的安装(其中会安装 Python 和相关依赖),我们希望训练完成后的模型就能直接使用,而不再需要任何繁琐的前置步骤。

模型方面,我们将支持更轻量级的目标检测模型(YOLO/SSD),这对于一些简单场景的目标检测任务也能轻松胜任。

拓展阅读


image.png
关注「Alibaba F2E」
把握阿里巴巴前端新动向

相关文章
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
258 4
|
3月前
|
机器学习/深度学习 自然语言处理 前端开发
前端大模型入门:Transformer.js 和 Xenova-引领浏览器端的机器学习变革
除了调用API接口使用Transformer技术,你是否想过在浏览器中运行大模型?Xenova团队推出的Transformer.js,基于JavaScript,让开发者能在浏览器中本地加载和执行预训练模型,无需依赖服务器。该库利用WebAssembly和WebGPU技术,大幅提升性能,尤其适合隐私保护、离线应用和低延迟交互场景。无论是NLP任务还是实时文本生成,Transformer.js都提供了强大支持,成为构建浏览器AI应用的核心工具。
671 1
|
5月前
|
API UED 开发者
如何在Uno Platform中轻松实现流畅动画效果——从基础到优化,全方位打造用户友好的动态交互体验!
【8月更文挑战第31天】在开发跨平台应用时,确保用户界面流畅且具吸引力至关重要。Uno Platform 作为多端统一的开发框架,不仅支持跨系统应用开发,还能通过优化实现流畅动画,增强用户体验。本文探讨了Uno Platform中实现流畅动画的多个方面,包括动画基础、性能优化、实践技巧及问题排查,帮助开发者掌握具体优化策略,提升应用质量与用户满意度。通过合理利用故事板、减少布局复杂性、使用硬件加速等技术,结合异步方法与预设缓存技巧,开发者能够创建美观且流畅的动画效果。
95 0
|
8月前
|
机器学习/深度学习 前端开发 算法
使用机器学习优化前端用户体验
在当今高度竞争的互联网市场中,用户体验是至关重要的。本文将探讨如何利用机器学习技术来优化前端用户体验,从而提高用户满意度和留存率。我们将介绍如何利用机器学习算法分析用户行为数据,优化网站性能和内容推荐,以及如何实时调整界面设计和交互方式,从而实现个性化、智能化的用户体验。
|
8月前
|
机器学习/深度学习 前端开发 算法
利用机器学习优化Web前端性能的探索与实践
本文将介绍如何利用机器学习技术来优化Web前端性能,探讨机器学习在前端开发中的应用,以及通过实际案例展示机器学习算法对前端性能优化的效果。通过结合前端技术和机器学习,提升Web应用的用户体验和性能表现。
|
机器学习/深度学习 存储 文字识别
前端也要懂机器学习(下)
前端也要懂机器学习(下)
前端也要懂机器学习(下)
|
机器学习/深度学习 数据采集 算法
前端也要懂机器学习(上)
前端也要懂机器学习(上)
前端也要懂机器学习(上)
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
140 4
|
4天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
45 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
20天前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
41 2