1.拖放或流构建器工具
在大多数数据科学项目中,您实际构建的是管道。 数据科学管道是一组流程,将原始数据转换为业务问题的可行答案。创建管道后,您可以使用它来自动化从源到目的地的数据流,最终为您提供制定业务决策的见解。 一个运行良好的 AI 工作流在投入生产时就可以工作,而管道是其核心构造。
Python 和 R 中的大多数机器学习库都允许创建这样的管道。 在下图中,您可以看到 AI 管道的简化图。 您选择数据源,进行适当的转换,训练您的模型并调整其参数。
接下来通常会将该管道转换为可以从最终应用程序或仪表板调用的 Web 服务。
第一种无代码 AI 工具(也是我最喜欢的工具之一)是我喜欢称之为流构建器或可视化建模的工具。您基本上可以直观地构建管道,而不是使用代码,画布中的每个节点都代表管道中的一个转换或步骤。
这些工具的用户界面在过去几年中得到了很大改进,其中大多数都允许集成 R 或 Python,以防您需要额外的定制。这些管道可能会变得非常复杂,但 UX 可以帮助您组织它们并轻松地向企业解释您实际在做什么。您还拥有自动化工具,可帮助您选择最佳算法或自动创建数据特征。此外,生产这些管道非常容易,通常可以使用无代码来完成。
这些工具的例子有 IBM SPSS Modeler、Knime、Alteryx 或 Rapidminer。一些公司可能担心的是,这些管道通常不是基于开源构建的,所以你被供应商“锁定”了。其中一些提供将可视化的工作流导出为代码的选项,但有一定的限制。
流构建器接口示例如下图所示:Knime(左边), IBM SPSS Modeler(右边)
2.AutoML
正如您之前所见,这些管道有很多步骤,并且很快就会变得非常复杂。 数据科学家的大部分时间都花在数据转换过程中,以便为训练模型做好数据准备。 这包括数据清理、查找新特征或正确格式化它,以便算法可以从中学习。
在模型训练步骤中,需要进行大量的实验和调优。 在多个可用选项中选择正确的算法,每个选项上都有超参数配置,等等。 为了直观地展示它,下图展示了 AutoML 如何简化机器学习工作流程:
AutoML 领域中的工具示例如下:
- 无代码 AutoML 工具:IBM AutoAI(我的最爱!)、DataRobot, H2O Driverless AI, Google AutoML Tables 等等。
- 开源 AutoML 库:auto sklearn, auto weka, auto keras
AutoML 工具带有令人惊叹的用户体验(UX),可帮助评估和信任结果。 IBM 的工具还允许将生成的所有管道导出到 Python notebook中,数据科学家可以轻松地从中获取并使用它作为起点,从而赋予他们超能力并节省大量时间!
AutoML用户界面示例如下:DataRobot(左边),IBM AutoAI(右边)
最近有一些文章谈论 AutoML 取代数据科学家,这种说法远非事实。 AutoML 允许数据科学家构建高度自动化的模型,并对不同类型的算法进行超参数搜索,否则这可能是耗时且重复的。团队可以减少创建功能模型所需的时间。它降低了构建、测试和部署全新 ML 框架所带来的复杂性,AutoML 简化了解决业务线挑战所需的流程。确实,业务用户可以通过简单地让他们定义业务问题并指导行动来使用一些新工具,但这将帮助数据科学家专注于更难和更专业的问题。
有新的初创公司筹集投资以继续推动人工智能的创新和简化,以支持商业用户。一个很好的例子是Obviously.ai,这家初创公司刚刚筹集了 360 万美元,是为非数据科学家的商业用户而构建的。另一个是 Pecan.ai,几天前刚刚筹集了 3500 万美元。两者都有令人惊叹的产品,具有很大的潜力。另一个需要密切关注的是 Akkio,它声称您可以在 10 分钟内从数据转到 AI,而无需任何代码或数据科学技能。
下图展示了如何让业务用户非常简单地构建流失预测 AI(左边是Obviously.ai,右边是 Pecan.ai)
3. 预训练 API
如果您有 AI 用例但没有数据科学家或数据来训练模型怎么办?没问题!可以通过已经为您训练的 API 访问非常强大的模型。这些模型非常复杂,通常大型组织和研究实验室(例如 IBM、AWS、OpenAI 或 Google)会与非常有才华的 AI 专家一起对模型进行繁重的训练,并提供服务供您使用。它们有局限性,有时缺乏灵活性,但它们涵盖了一些最常见的用例,可以立即使用!
以下是您可以涵盖的一些用例示例:
- 视觉识别和物体检测
- 面部识别
- 视觉 OCR 从文档或图像中提取文本
- 文本分类器可用于情感分析、支持票据中的紧急检测或滥用检测
- 关键字和实体提取器
- 文本翻译
- 文本生成
- 语音转文本或文本转语音
同样强大的是,这些 API 中的大多数还负责测试模型的准确性,并确保使用的训练集没有偏见或不公平。如果这是一个问题,他们会提供带有基准的报告。提供这些经过训练的 AI API 的热门供应商有 IBM Watson、Google AI、AWS ,或者 MonkeyLearn 、 Clarifai 等初创公司。
4.迁移学习工具
如果 AI API 可以为您提供一个起点但还不够好,并且您有可用于训练的数据,那么迁移学习工具可能是您最好的朋友。这些工具允许机器学习专业知识有限的用户训练高质量的模型,让您抢先一步,并为之前训练的模型添加“知识”。
对于语言对翻译、自然语言分类和图像分类等用例,这些系统已经具有自动深度迁移学习(意味着它从在其他数据上训练的现有深度神经网络开始)和神经架构搜索(意味着它将找到额外网络层的正确组合)。
例如,您可以使用通用计算机视觉模型对汽车、卡车、火车、自行车等车辆进行分类,但它可能不太适合汽车制造商对汽车进行分类。使用这些工具,您可以重新训练计算机视觉模型,添加额外的知识。这很有帮助,因为您不需要标记那么多训练数据,也不需要弄清楚神经网络架构。此外,这些工具通常是无代码且对用户非常友好的,您需要一点耐心标记数据,这是一个手动步骤。
右边是IBM Watson图像识别训练工具,左边是谷歌AutoML视觉工具。
迁移学习的一个更高级的例子是在模拟器中学习,然后将这些知识转移到现实生活中。 例如在自动驾驶汽车中,许多驾驶情况之前都是在 3D 模拟器中训练的,这样更安全,并且可以并行化以加速创新。 这超出了我们的无代码 AI 社区的范围,但它太棒了,不能不提。 我建议您查看 Unity Simulation 解决方案,该解决方案使用引擎创建视频游戏,但应用于构建环境以在实时 3D 虚拟世界中训练、测试和验证 AI。
下图展示了基于 GTA V 的 Udacity 自动驾驶汽车模拟器。
下图解释了迁移学习的工作原理,以及为什么它一直是业界使用机器学习加速新用例的主要驱动力之一。左图是迁移学习的工作原理,右图是迁移学习在商业用例中推动成功。
5.人工智能应用程序和仪表板构建器
人工智能的最终目标是解决实际问题,这意味着将这些模型提供给业务用户、主题专家和一线决策者,以利用模型生成的人工智能预测。
此类别的重点是创建无需编码即可将任何模型转化为 AI 应用程序。您可以使用拖放小部件、数据可视化和强大的预构建模板构建仪表板或应用程序,从而在几分钟内创建和部署强大的新 AI 应用程序。您无需与多个团队和 IT 部门交谈即可实现这一目标,这进一步简化了流程,并且还可能会根据组织增加安全问题。
对于无代码应用程序开发,有很多选择。 Copy.ai 使用 Webflow 创建了他们的应用程序,它是为无代码 Web 开发而设计的。 Bubble.io 也是一个不错的选择。
如果您需要在仪表板中显示结果,Cognos, Tableau, PowerBI 或 Looker 等 BI 供应商允许业务用户在报告中嵌入 AI 模型。他们还将使用 AI 助手来帮助您构建最佳可视化效果,并使这些仪表板更具叙述性和易于使用。
在低代码领域有 Plotly Dash,它将数据科学 Python 脚本转换为生产级应用程序。在“无代码/低代码”中还有 Palantir,它提供了一个非常先进的全栈平台,具有本体管理和与先进数据平台的集成。
还有很多选择
我希望这种按类别划分的分类是有意义的,如果我应该添加任何其他类别,请告诉我。我没有包括市场上所有可用的供应商或工具,有很多令人兴奋的,而且大多数时候,要构建一个端到端的人工智能解决方案,你需要将它们结合起来。