人工智能的主流之路:20年机器学习

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

联合编译:章敏,高斐


人工智能的主流之路:20年机器学习

当我在1995参加了计算机科学的时候,数据科学并不存在,但我们仍然在使用许多早已存在的算法。这不仅仅是因为神经网络的回归,也可能是从那时起,就已经没有发生太多根本性的变化。至少给我的感觉是这样的。有趣的是,从今年开始,人工智能似乎终于已经成为主流。

在云计算机,智能手机,或聊天机器人出现之前,1995年听起来像是非常痛苦的时期。但在了解过去的几年时,如果你未身处其境,感觉起来就像是很久以前的事一样。就如自我延续一样,它将一切都贴在一起,虽然已经改变很多,但与现在相比,世界没有感觉到根本不同的。

坚持不懈从事计算机科学

计算机科学从未像现在一样未接近主流。后来,随着2000年左右的第一个网络泡沫。有些人甚至质疑我学习计算机科学的选择,因为编程计算机很显然变得非常容易,再也不需要专家了。

事实上,人工智能是我学习电脑科学的主要原因之一。将它作为一种建设性的方法来理解人类思想的想法,对我来说非常耐人寻味。前两年我都在训练,以确保自己有足够的数学水平来解决道路上的阻碍,且最终上了第一堂AI课(由Joachim Buhmann授课),那时波恩大学的教授Sebastian Thrun 正准备离开美国。我得查看我参加了他的哪一个演讲周期,他在计算机视觉中有两个讲座,一个是模式识别(多数是旧版本的Duda&Hart的书中知识),一个是信息理论(类似于Cover和Thomas的书)。材料是非常有趣的,但也有点令人失望。正如我现在所知,人们停止了AI方面象征性的工作,不再坚持用更多的统计方法来学习,这种方法学习的本质是,基于有限数量的观察减少选择正确函数的问题。计算机视觉讲座,甚至学习的更少,且更依赖于明确的物理建模,以获得正确的估计,例如,从视频中重建运动。那时的方法比现在更加生理化和物理化。虽然神经网络存在,但每个人都很清楚,他们只是“另一种函数逼近。”除了Rolf Eckmiller,和另一个我曾经在其手下工作过的教授之外,每个人都这么想。Eckmiller在“神经计算”在某种程度上比传统的计算好得多前提下建立了他的整个实验室。这可以追溯到NIPS有着完整的路径致力于研究神经元的生理学和工作机制的日子,甚至有人认为在我们的大脑中有着本质性差异东西发生,也许是在量子水平,这增加了人的心灵,这种差异是研究真正智能机器的一大阻碍。

虽然Eckmiller很善于推销他的观点,但他的大部分工作人员都庆幸脚踏实地。也许这是一件非常德国化的事情,但每个人都很关心这些计算模型到底能不能做到,这也是研究中一直困扰我的问题。我毕业于2000十月,发表了相当牵强的硕士论文,试图在学习和努力优化问题之间建立联系,然后开始了我的博士论文,并坚守在该领域进行研究直到2015。

机器学习的研究方法很多,但解决的本质问题基本一样

虽然一直试图证明行业的相关性,当它是一个长时间的非常学术性的努力,且社区是相当封闭的。有一些个人成功的故事,例如手写字符识别,但许多公司在机器学习方面的研究失败了。我记得有一个公司叫Beowulf Labs和NIPS,他们用一个视频到处去招聘人才,承诺要成为下一个“mathtopia”。在本质上,这是DeepMind的故事,招聘一群优秀的研究人员,然后希望它会起飞。

整个社会也会围绕着一个时尚到下一个。有一件奇怪的事情是,机器学习作为一个整体,除了一大堆方法外,只有极少数本质不同的问题,如分类,回归,聚类等。它不像物理(我假设)或数学一样,一些普遍认为没有解决的疑难问题,存在可以推进出最好结果的解决方案。这意味着,进步经常是做横向的,通过用一个新的方法更换现有的方法,仍然以不同的方式解决同一个问题。例如,首先有神经网络。然后支持向量机出现了,声称其效果更好,因为相关的优化问题是凸面的。然后有boosting,random forests,等等,直到回到神经网络。我记得,中国餐馆进程(Chinese Restaurant Processes) “火”了两年,但没有人知道他们现在的意义是什么。

大数据与数据科学

大数据与数据科学的时代已然到来了。当时立身于学术界,我总觉得大数据与数据科学肯定来自于外界,可能来自于像谷歌这样切实处理庞大数据的公司。大规模学习确实是存在的,例如,生物信息学中基因组数据,但是我们应当寻找更为有效的算法或近似算法来解决这些问题,而非蛮干。

诸如谷歌这样的公司最终证实了,我们可以运用庞大的数据完成一些事情,最终将改变人们对人工智能持有的主流观点。有一些技术,如Hadoop和NoSQL,看似非常流行,能够娴熟地在市场上推广并不断革新,这些技术将免于现存体系中技术方面的限制。然而,这将对机器学习的研究者产生什么影响?给我的印象是,这些研究者感到高兴的是,大数据与数据科学时代的到来使他们最终得到认同,不过,他们也为自己得到认同的方式感到悲哀。要理解这一点,我们要意识到,多数ML研究者并不是计算机领域的科学家,或者非常擅长,对编码非常感兴趣。他们中许多人来主攻物理,数学或其他学科,在这些学科领域中,他们卓越的数学训练能力使其能够熟练运用各种算法,并为机器学习构建核心模型。

另一方面,Hadoop分布式系统基础架构偏科技性。用Java编写,这种语言在当时被认为专业性极强,与MatLab和Python两种计算机语言相比,Hadoop的语言不免显得复杂难懂。即使那些C++编程人员也会有相同的感觉,对他们来讲,Java语言也会显得冗杂,特别是在数值计算和模拟方面。但是,当前尚未找到解决这一问题的途径,因而,他们将自己所做的一切都重新命名为大数据,或者开始强调,大数据仅为大规模计算提供基础数据资源,而你需要专业的人才,方能弄懂这些数据信息。

这种解决方法应当是不会出错的。我认为,在一定程度上,这种区分依然是存在的。如果为数据分析选择合适的语言,Python当是最优之选,存在一些技术,如Spark,试图通过绑定Python语言来分析数据,不论该种方法在性能方面是否讲得通。

深度学习的回归

甚至在谷歌研发出人工智能技术DeepDream之前,神经网络已经掀起回归热潮了。有一些人,如Yann LeCun,一直以来坚持这种方法,但是,大概在10年前,有一些研究显示如何使用分层训练及其他训练方法,训练“深层”网络,这种类型网络的规模超出人们之前所能设想的。

得根据训练实例进行评估,以训练神经网络,然后,调整所有权值进一步减小误差。倘若沿着权重下降的方向记录梯度值,那么将从最后一层开始把错误传播回来。不管怎样,可以这样理解,错误信息将逐层递减,如此将增加多层次训练网络的难度。就我所知,许多人依然采用背景法,我不确定这种观点是否依然正确。但是,可以肯定的是,可使用的数据量,工具及原始计算能力均发生了变化。因而,最初一些研究文献点燃了人们对神经网络的兴趣,人们随后开始继续使用这些神经网络,并在一些应用领域中取得了卓越的成就,这些神经网络最早成功应用于计算机视觉,随后在言语加工处理等领域。

我认为,这种类型的神经网络之所以能够吸引人是因为其多样化的用途。有了这种方法,人们可以免于理解多种不同途径的麻烦。此外,神经网络拥有一个模块化的结构,人们可以挑选出并组合不同层级和结构,将其用于解决各种各样的问题。

谷歌当时发表了一篇关于DeepDream人工智能技术的优秀论文,文中提到他们能够运用一个包含信息丰富的网络衍生出一些数据,而我们人类具备即时学习结构与属性的能力,很快便能学会运用这种网络。因而,如今谷歌可以称得上一家一流的人工智能公司。人工智能将拯救全世界。

尚待解决的一个基本问题

我曾经与许多学者交流过,他们对于深度学习的主导作用感到不满,原因是这种方法能够产生很好的效果,有时这种效果甚至过于理想化,但是,仍然不能帮助我们进一步理解人类大脑的工作原理。

我对此也持相同的看法,即这一基本问题仍未得到解决。我们是如何理解世界的?我们是如何创造出新概念的?深度学习依旧停留在模仿行为的层面,尽管对于一些人来讲,深度学习的效果已经相当不错了,但我对此还不太满意。此外,我认为将太多智能因素归功于这些系统,存在风险。对原始数据来讲,这些系统的性能可能很不错,但是,在其他方面,这些系统将以完全不同的方式运行。

尽管谷歌翻译工具能够允许人们跳过外国网站上发布的内容,该种系统的性能仍有待改进,这一点是明白无误的。有时我觉得没有人会在意这一点,也许是因为没有人会因此受到伤害,不是吗?但是,也可能是由于我的德国文化背景的缘故,我希望我们能够以事物最初的模样来看待这些事物的发展。


本文作者:章敏


本文转自雷锋网禁止二次转载,原文链接

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
7天前
|
机器学习/深度学习 传感器 人工智能
人工智能与机器学习:改变未来的力量####
【10月更文挑战第21天】 在本文中,我们将深入探讨人工智能(AI)和机器学习(ML)的基本概念、发展历程及其在未来可能带来的革命性变化。通过分析当前最前沿的技术和应用案例,揭示AI和ML如何正在重塑各行各业,并展望它们在未来十年的潜在影响。 ####
63 27
|
19天前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
37 12
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
89 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
20天前
|
机器学习/深度学习 人工智能 算法
探索人工智能与机器学习的融合之路
在本文中,我们将探讨人工智能(AI)与机器学习(ML)之间的紧密联系以及它们如何共同推动技术革新。我们将深入分析这两种技术的基本概念、发展历程和当前的应用趋势,同时讨论它们面临的挑战和未来的发展方向。通过具体案例研究,我们旨在揭示AI与ML结合的强大潜力,以及这种结合如何为各行各业带来革命性的变化。
35 0
|
1月前
|
机器学习/深度学习 人工智能 自动驾驶
揭秘AI:机器学习如何改变我们的世界
在这篇文章中,我们将深入探讨机器学习如何改变我们的世界。从自动驾驶汽车到智能医疗诊断,机器学习正在逐步渗透到我们生活的每一个角落。我们将通过实例和代码示例,揭示机器学习的工作原理,以及它如何影响我们的生活。无论你是科技爱好者,还是对人工智能充满好奇的普通读者,这篇文章都将为你打开一扇新的大门,带你走进机器学习的世界。
29 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
人工智能与机器学习:解锁数据洞察力的钥匙
人工智能与机器学习:解锁数据洞察力的钥匙
|
1月前
|
机器学习/深度学习 数据采集 人工智能
自动化测试的未来:AI与机器学习的融合之路
【10月更文挑战第41天】随着技术的快速发展,软件测试领域正经历一场由人工智能和机器学习驱动的革命。本文将探讨这一趋势如何改变测试流程、提高测试效率以及未来可能带来的挑战和机遇。我们将通过具体案例分析,揭示AI和ML在自动化测试中的应用现状及其潜力。
42 0
|
26天前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
84 4
|
5天前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
22 2