开发人员亲自上场:Julia语言搞机器学习和Python 比,哪个好用?

简介: 开发人员亲自上场:Julia语言搞机器学习和Python 比,哪个好用?


前几年就流传着这样一种说法:Julia 会替代 Python,成为新的最受欢迎的编程语言之一。我们暂且对这种说法持观望态度,但作为科学计算方面的强大工具,Julia 优势已然显现,这意味着程序员的选择又多了一种。

在数据科学、人工智能等领域,仔细对比 Julia 和 Python,我们会发现:相同的任务,只要 Python 能实现的的,Julia 都可以做,而且效率高得多,语法也简洁优雅,只是在传播度上,名气还不如 Python。

近日,reddit 上的一则热帖引来广大网友的讨论,这个帖子提到,最近,一些 Julia 语言包的开发人员讨论了 Julia 中 ML 的当前状态,并将其状态与 Python ML 生态系统进行了比较。

image.png


原贴地址:https://www.reddit.com/r/MachineLearning/comments/s1zj44/r_julia_developers_discuss_the_current_state_of/

来自乌得勒支大学的  JordiBolibar 认为,「 Julia 确实在机器学习方面拥有巨大的潜力,但它目前的状态有点喜忧参半。更具体地说,我在 SciML  中坚持使用 Julia 的主要原因是,DifferentialEquations.jl 库工作得非常好,但在 Python  中没有发现任何类似的东西。然而,对于我的研究来说,真正痛苦的是 AD 部分。自从我开始使用 Julia ,我在 Zygote  中遇到了两个错误,这使我的工作速度减慢了几个月。但我仍然认为 Julia 是 SciML  的最佳选择,但这些库(及其文档)应该优化的更加用户友好。」

image.png


网友  @jgreener64 表示:「Julia 中的 ML 在某些领域应用非常强大,Julia 一切皆有可能。Julia 面临的问题是:Julia  中的 ML 需要大量现有知识或大量时间搜索 / 反复试验。在个人层面上,我目前正在用 Julia 开发新颖的可微分算法。」

image.png


除了网友的热烈讨论外,Julia  软件包开发人员 Christopher Rackauckas 围绕以下 7 个问题,解答了网友比较关心的内容。Rackauckas 是 MIT  和马里兰大学的数学家和药理学家,主要用 Julia 进行编程。Rackauckas 为  Julia、数学和随机生物学开了专门博客,来介绍相关内容,并且 Rackauckas 在 Julia  中开发了一些库,包括(但不限于)DifferentialEquations.jl 和 Pumas。

image.png

Christopher Rackauckas

问题包括:

  1. 今天 Julia 中的 ML 在哪些地方真正大放异彩?在不久的将来该生态系统在哪些方面优于其他流行的 ML 框架(例如 PyTorch、Flax 等),为什么?
  2. 目前 Julia 的 ML 生态系统在功能或性能方面存在哪些缺点?Julia 在这些领域变得具有竞争力的时间节点在哪?
  3. Julia 的标准 ML 包(例如深度学习) 在性能方面与流行的替代方案相比如何(更快、更慢、相同数量级)?
  4. 有没有重要的 Julia 实验,可以针对流行的 ML 替代方案进行基准测试?
  5. 如果一家公司或机构正在考虑创建职位来为 Julia 的 ML 生态系统做出贡献,有没有最佳案例?为什么他们应该这样做?哪些贡献最有影响力?
  6. 为什么与其他框架合作的独立开发人员应该考虑为 Julia 的 ML 生态系统做出贡献?
  7. 对于某些特定任务,Julia 开发人员倾向于使用哪些软件包?Julia 开发人员希望添加目前不存在的哪些内容?


下文中我们挑选了几个大家比较关心的问题进行报道:

问题 3:Julia 在「标准 ML」中的表现如何?

Julia  的内核速度很好:在 CPU 上,我们做得非常好,在 GPU 上,每个人都只是调用相同的 cudnn 等;Julia 的 AD 速度也很好。不过  Zygote 可能会有一些开销,但与 Jax/PyTorch/TensorFlow 相比,Zygote  在大多数情况下速度是很快的。具体来说,PyTorch 开销要高得多,在标准 ML  工作流程中甚至无法测量。一个足够大的矩阵乘法会解决分配问题或其他 O(n) 问题;Julia  不融合内核,因此在大多数基准测试中,如果用户查看它,就会发现它没有融合 conv 或 RNN cudnn 调用。

问题 4:我们应该跟踪哪些重要的实验和基准?

XLA  的分布式调度器非常好。当我们考虑扩展时,我们应该忽略 PyTorch,去考虑 DaggerFlux 与 TensorFlow/Jax。XLA  有更多的灵活性来改变操作,所以我认为 XLA 才是赢家,我们需要使用 e-graphs  技巧来匹配它。另一件需要注意的事情就是「自动微分中缺少中间部分」,这种情况还需要解决。

问题 7:有什么推荐的软件包?

我倾向于在需要时使用 Flux,但大家还是尽量使用 DiffEqFlux。就现有内核而言,Flux 是最完整的,但它的风格让我感到厌烦。我希望有一个 Flux 不使用隐式参数,而是使用显式参数。我希望这些参数由 ComponentArrays 表示。

更多内容请参考:https://discourse.julialang.org/t/state-of-machine-learning-in-julia/74385

相关文章
|
21天前
|
Unix 编译器 C语言
[oeasy]python052_[系统开发语言为什么默认是c语言
本文介绍了C语言为何成为系统开发的首选语言,从其诞生背景、发展历史及特点进行阐述。C语言源于贝尔实验室,与Unix操作系统相互促进,因其简洁、高效、跨平台等特性,逐渐成为主流。文章还提及了C语言的学习资料及其对编程文化的影响。
24 5
|
2月前
|
缓存 前端开发 JavaScript
使用 aws lambda 时,开发人员面临的常见挑战之一是管理大型 python 依赖项。
在我们快速发展的在线环境中,只需几秒钟加载的网站就能真正脱颖而出。您是否知道加载时间较快的网站的转化率比加载时间较长的网站高出三倍?
26 0
使用 aws lambda 时,开发人员面临的常见挑战之一是管理大型 python 依赖项。
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
2月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
105 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
50 2
|
2月前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
118 1
|
2月前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
143 1
|
2月前
|
机器学习/深度学习 数据采集 算法
Python机器学习:Scikit-learn库的高效使用技巧
【10月更文挑战第28天】Scikit-learn 是 Python 中最受欢迎的机器学习库之一,以其简洁的 API、丰富的算法和良好的文档支持而受到开发者喜爱。本文介绍了 Scikit-learn 的高效使用技巧,包括数据预处理(如使用 Pipeline 和 ColumnTransformer)、模型选择与评估(如交叉验证和 GridSearchCV)以及模型持久化(如使用 joblib)。通过这些技巧,你可以在机器学习项目中事半功倍。
64 3
|
2月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
45 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
65 0