暂时未有相关云产品技术能力~
LLM/LLMOps,公众号:吃果冻不吐果冻皮,LLM教程:https://github.com/liguodongiot/llm-action
随着机器学习逐渐成为数字化产品的主流,了解机器学习的基础知识对许多产品经理来说变得越来越重要。今天的产品人员是一个相当多样化的群体。对于一些人来说,重点主要放在用户体验上(例如,如果主要价值主张围绕着一个杀手级的 UI),而另一些人已经在设计需要深入理解数据和代码的产品。 理解机器学习对于频谱的两端都是必要的——只是原因略有不同。对于以 UI 为中心的产品和 PM,模糊逻辑和机器学习功能将从根本上改变用户与产品的交互方式。因此,这些特征的呈现变得非常重要。另一方面,管理 API 或技术平台的产品经理会更关心 AI 算法是如何集成的。
MLOps 通过自动化可重复的任务来帮助简化 ML 生命周期。它还提供了帮助数据科学团队与其他团队有效协作、沟通和协调的最佳实践。 机器学习管道是 MLOps 中的一个关键概念。理想情况下,一旦机器学习模型投入生产,就会构建一个可以根据需要重新训练模型的系统,并且可以进一步开发该系统,而不是依赖临时工作流。 许多公司的一个重要问题是找到最合适的平台来管理他们的自动化工作流程。一些人正在寻找为 ML/MLOps 构建的特定工具,例如:Kubeflow,而另一些人则在寻找更通用的编排器,例如:Argo 或 Airflow,它们可以适用于机器学习工作流。
如果你关注业界的大佬,你可能已经注意到吴恩达在以数据为中心的人工智能方面的竞赛,这是今年的趋势。我们(Valohai 和 Ingedata)非常高兴,经过十年的大肆宣传,终于可以适当地关注数据、其有效性和可靠性,首先是大数据,然后是机器学习模型和人工智能系统。每个人都知道这一点;数据,尤其是其质量是最重要的。大多数数据集并没有那么大,而好的旧逻辑回归将在大部分时间发挥作用,产生可解释的结果。
地球上的每一项业务和行为都包含风险,包括机器学习,或者更广泛地说人工智能也是如此。但是,出于多种原因,您公司的传统风险管理通常不会处理 AI 风险。 首先,算法通常基于专有数据,模型和技术是在特定(业务)问题的领域范围内开发的。其次,算法可能是复杂的、不可预测的并且难以解释。最后,ML 场景相对较新,因此我们也缺乏最佳实践,同时,监管滞后。
Apache Airflow 是一个流行的平台,用于在 Python 中创建、调度和监控工作流。 它在 Github 上有超过 15,000 颗星,被 Twitter、Airbnb 和 Spotify 等公司的数据工程师使用。 如果您使用的是 Apache Airflow,那么您的架构可能已经根据任务数量及其要求进行了演变。 在 Skillup.co 工作时,我们首先有几百个 DAG 来执行我们所有的数据工程任务,然后我们开始做机器学习。
什么是 Docker? 想象一下自己是空间站上的宇航员,并计划到户外欣赏美景。
什么是依赖管理? 依赖管理是管理项目所依赖的所有外部部分的行为。 当它起作用时,你甚至不知道它的存在,但当它失败时,它变得非常痛苦,几乎不可能被忽视。
机器学习和智能设备的结合引发了新的自动化浪潮。 从智能冰箱到无收银员结账和自动驾驶汽车,支持机器学习的设备将对我们的日常生活产生深远影响。 随着用例的复杂性和设备数量的增加,我们将不得不采用新的策略来向用户部署这些 ML 功能并对其进行管理。
什么是无代码与无代码AI 无代码人工智能正在成为主流。初创公司和老牌公司都在考虑补充现有产品或开发新产品,让客户能够使用人工智能增强自己的能力,而无需终端用户拥有博士学位
随着世界进入第四次工业革命,人工智能继续改变着社会。正如商业和 IT 领导者所明确强调的那样,强大的技术有可能创造跨行业的范式转变。去年,谷歌首席执行官桑达尔·皮查伊指出,人工智能对人类的影响将比电力、互联网更深远。除了技术和商业领袖,研究人员还证实了人工智能对社会的潜在变革影响。哈佛商业评论最近的一份报告显示,新冠疫情大流行加速了人工智能和数据驱动创新的采用。据普华永道研究人员称,由于新冠疫情大流行,52% 的公司加快了人工智能采用战略。此外,AI Journal 的一项研究发现,74% 的企业高管相信 AI 将有助于创建新的商业模式并促进新产品和服务的开发
什么是训练编排? 训练编排使数据科学和机器学习团队能够运行高度并发、可扩展和可维护的训练工作流。
您的团队如何跟踪机器学习模型和实验的所有数据? 这是数据科学团队经常遇到的问题。 为了在所有版本更新之后保持最新和一致,您的团队需要正确的工具。查看下面的 MLOps 领域中的最佳数据版本控制工具列表。
机器学习和大数据正变得越来越流行,它们对社会的影响也在不断扩大。许多行业越来越依赖机器学习算法和人工智能模型来做出每天影响企业和个人的关键决策。 了解偏见和公平的概念,以及它们如何在数据和机器学习中表现出来,有助于确保您在实践可靠的人工智能和治理。
随着越来越多的企业采用机器学习来支持其决策过程,充分了解 ML 模型如何进行预测至关重要。构建和扩展模型生产已不足以改善结果。这些模型需要透明才能理解它们为什么做出特定的预测。
对于越来越多的数据科学团队来说,特征存储正在成为他们 ML 管道的重要组成部分。如果您的公司正在处理大量数据,那么拥有一个作为可在各种 ML 模型中使用的文档化特征的仓库的特征平台可能非常有价值。
当您向机器学习 (ML) 工程师询问他们面临的最大挑战时,监控和可观察性通常是最重要的。 造成这种情况的原因有很多,包括数据漂移、概念漂移、偏见和公平以及对抗性输入等等。 发现问题通常是解决问题的第一步,这就是监控和可观察性的用武之地。
当您已经花了几个月的时间来研究您的 ML 模型:测试各种特征组合、不同的模型架构,并微调超参数,直到最后,您的模型准备就绪!也许更多的优化可以进一步提高性能分,但它已经为现实世界做好了准备。 您要么将其交给工程团队,要么自行准备用于生产。
目前,有多种技术可用于机器学习检测概念漂移的方法。熟悉这些检测方法是为每个漂移和模型使用正确度量的关键。 在本文章中,回顾了四种类型的检测方法:统计、统计过程控制、基于时间窗口和上下文方法。
机器学习模型监控 什么是机器学习 (ML) 模型监控? 机器学习监控是一组用于观察生产中的 ML 模型并确保其性能可靠性的技术。 ML模型通过观察数据集中的示例进行训练,并将代表模型在训练任务中表现的好坏的错误最小化。
机器学习模型监控 什么是机器学习 (ML) 模型监控? 机器学习监控是一组用于观察生产中的 ML 模型并确保其性能可靠性的技术。 ML模型通过观察数据集中的示例进行训练,并将代表模型在训练任务中表现的好坏的错误最小化。
随着机器学习模型成为自动化和预测任务越来越流行的解决方案,许多科技公司和数据科学家采用了以下工作范式:数据科学家负责解决特定问题,他们会得到可用相关数据的快照,他们致力于训练模型来解决它。 一旦模型经过测试,它就会进入生产阶段。最终,模型的性能开始下降,这通常是由于概念漂移。 概念漂移是指目标变量(模型试图预测的内容)的统计特性随时间以不可预见的方式发生变化的情况。
本文是由 Umang 博士分享关于 ML 可解释性方面面临的挑战。
本文是由 Umang 博士分享关于 ML 可解释性方面面临的挑战。
与 DevOps 或数据工程相比,MLOps 作为一种实践仍然相对年轻,尽管增长巨大。虽然很容易将其与 DevOps 相提并论,因为它的一些最佳实践很容易延续到 MLOps,但业内大多数人都认为,在将 ML 投入生产时存在一系列独特的挑战和需求。不幸的是,很少有可靠的行业调查来记录团队在应对这些不同挑战方面的表现。
安装 使用一下命令即可安装 MLflow:
MLflow 是一个简化机器学习开发的平台,包括跟踪实验、将代码打包以便于可复现的运行以及共享和部署模型。 MLflow 提供了一组轻量级 API,可用于任何现有的机器学习应用程序或库(TensorFlow、PyTorch、XGBoost 等),无论您当前在何处运行 ML 代码(例如:在笔记本电脑、独立应用程序或云平台中)。
本文 Diego 深入探讨了为什么机器学习项目会失败,以及为什么我们在生产中看不到机器学习,尽管该技术有多么强大。 同时,他也分享了有关将 ML 投入生产的问题的经验。
KServe 提供 一个 Kubernetes 自定义资源定义,用于在任意框架上提供机器学习 (ML) 模型服务。 它旨在通过为常见的 ML 框架(如:Tensorflow、XGBoost、Scikit-Learn、PyTorch 和 ONNX)提供高性能、高度抽象的接口来解决生产模型服务场景。
特征平台已于 2021 年问世,成为实现 AI 的一项重要技术。 尽管高科技公司对特征平台充满热情,但大多数传统 ML 平台仍然缺少它们,并且在许多企业公司中相对不为人知。在这里,我们将介绍特征平台的常见功能,以及在你自己的工作中采用这种方法的利弊。
现代数据栈作为首选云数据架构在科技界迅速崛起,尽管它的受欢迎程度一直在迅速上升,但有时它的定义可能会模棱两可。本文,我们将讨论它是什么,它是如何形成的,以及未来的发展方向。
AI 人工智能高速发展数十年后的现在,企业对于发展 AI 应用的进程,从探索期接续进入构建、扩展及输出的阶段。
特征工程是任何 ML 工作流程的关键部分。 在 Continual 中,我们认为它实际上是 ML 流程中最具影响力的部分,并且应该对其应用最多的人工干预。 然而,在 ML 文献中,该术语经常在几个不同的主题中被过度使用,我们希望为 Continual 的用户提供一些引导以了解该概念。 在本文中,我们将把特征工程分解为几个不同的概念,并为每个概念提供引导。
特征工程是任何 ML 工作流程的关键部分。 在 Continual 中,我们认为它实际上是 ML 流程中最具影响力的部分,并且应该对其应用最多的人工干预。 然而,在 ML 文献中,该术语经常在几个不同的主题中被过度使用,我们希望为 Continual 的用户提供一些引导以了解该概念。 在本文中,我们将把特征工程分解为几个不同的概念,并为每个概念提供引导。
通过明确定义的获取数据的位置和类型来标准化元数据管理 加快了解哪些输入和参数是有效的,哪些是无效的时间。 极大地改善了数据科学团队成员之间的协作。
谈到数据产品,很多时候有一种误解,认为这些产品无法通过自动化来进行测试。 尽管流水线的某些部分由于其实验性和随机性而无法通过传统的测试方法进行测试,但大部分流水线可以。 除此之外,更加不可预测的算法可以通过专门的验证过程。
我们谈了很多关于将机器学习代码投入生产的过程。 但是,一旦模型投入生产,您还没有完成,您才刚刚开始。 模型将不得不面对它最大的敌人:现实世界!
背景 数据科学和机器学习正逐渐成为解决复杂现实问题以及在所有领域创造价值的核心功能。现在,有效运用机器学习技术的各种要素都已具备:
背景 数据科学和机器学习正逐渐成为解决复杂现实问题以及在所有领域创造价值的核心功能。现在,有效运用机器学习技术的各种要素都已具备:
什么是 Kubernetes ? Kubernetes 是一个基于容器技术的分布式开源平台,主要功能是生产环境中的容器编排。
将机器学习/人工智能/数据科学生产化是一项挑战。 不仅机器学习算法的输出经常编译需要整合到现有生产服务中的制品,而且用于开发这些模型的语言和技术通常与构建实际服务时使用的语言和技术大不相同。
现代机器学习 (ML) 平台的起步已经大约有十年的时间了,这一平台的灵感主要来自数据科学家不断增长的基于Python的开源技术生态系统。现在是让我们来回顾已经取得的进展,同时突出企业在现有 ML 平台上存在的主要问题,并讨论下一代平台会是什么样子的好时机。正如我们将要讨论的,我们相信 ML 平台市场的下一个颠覆将是数据优先的 AI 平台的增长。
现代机器学习 (ML) 平台的起步已经大约有十年的时间了,这一平台的灵感主要来自数据科学家不断增长的基于Python的开源技术生态系统。现在是让我们来回顾已经取得的进展,同时突出企业在现有 ML 平台上存在的主要问题,并讨论下一代平台会是什么样子的好时机。正如我们将要讨论的,我们相信 ML 平台市场的下一个颠覆将是数据优先的 AI 平台的增长。
基础知识重点摘录 字符串 在Python中,用引号括起的都是字符串,其中的引号可以是单引号,也可以是双引号。这种灵活性让你能够在字符串中包含引号和撇号:
基础知识重点摘录 字符串 在Python中,用引号括起的都是字符串,其中的引号可以是单引号,也可以是双引号。这种灵活性让你能够在字符串中包含引号和撇号:
之前讲述了MySQL体系结构,当时谈到了MySQL区别于其他数据库的最重要特点是其插件式的表存储引擎。他根据MySQL AB公司提供的文件访问层抽象接口来定制一种文件访问的机制(该机制叫存储引擎)。MySQL 的核心就是存储引擎。
Conda 是一个开源的软件包管理系统和环境管理系统,用于安装多个版本的软件包及其依赖关系,并在它们之间轻松切换。
机器学习应用程序在我们的行业中变得越来越流行,但是与更传统的软件(例如: Web 服务或移动应用程序)相比,开发、部署和持续改进它们的过程更加复杂。 它们会在三个轴上发生变化:代码本身、模型和数据。 他们的行为通常很复杂且难以预测,而且他们更难测试、更难解释、更难改进。 机器学习的持续交付 (CD4ML) 是将持续交付原则和实践引入机器学习应用程序的学科。
机器学习应用程序在我们的行业中变得越来越流行,但是与更传统的软件(例如: Web 服务或移动应用程序)相比,开发、部署和持续改进它们的过程更加复杂。 它们会在三个轴上发生变化:代码本身、模型和数据。 他们的行为通常很复杂且难以预测,而且他们更难测试、更难解释、更难改进。 机器学习的持续交付 (CD4ML) 是将持续交付原则和实践引入机器学习应用程序的学科。
机器学习应用程序在我们的行业中变得越来越流行,但是与更传统的软件(例如: Web 服务或移动应用程序)相比,开发、部署和持续改进它们的过程更加复杂。 它们会在三个轴上发生变化:代码本身、模型和数据。 他们的行为通常很复杂且难以预测,而且他们更难测试、更难解释、更难改进。 机器学习的持续交付 (CD4ML) 是将持续交付原则和实践引入机器学习应用程序的学科。
什么是 Docker ? Go 语言开发,容器虚拟化技术,C/S 架构,具有隔离、快速、轻便的特点。