谷歌机器学习项目备受关注的四项核心

简介:

作为最初被设计为支持谷歌系统规模伸缩的技术方案,TensorFlow目前已经可为每位用户也享受。


作为谷歌公司专门为应用智能化目标打造的开源机器学习项目,每个人都能轻松选择TensorFlow,而它也会根据各类头条消息预测用户的行为与喜好。不过除此之外,该项目还拥有更加野心勃勃的目标,即随着数据规模的持续增长成为开源机器学习系统日渐庞大的生态系统整体的重要组成部分。


以下为四项TensorFlow值得技术从业者加以关注的重要理由


1.它将成为谷歌内部机器学习系统的下一代方案

根据谷歌公司CEO Sundar Pichai在博文当中所指出,TensforFlow的构建目的与谷歌此前发布的众多其它开源解决方案相同:旨在解决谷歌公司内部机器学习解决方案在面对规模化数据时所遭遇的实际难题。


而在另一篇博文当中,谷歌公司研究员Jeff Dean(曾参与BigTable与MapReduce项目)提到了谷歌早期深度学习系统DistBelief的大量细节,包括其在运行当中面临的诸多局限。除了与谷歌的内部基础设施的关联过于紧密之外,其设计目标还专门用于处理神经网络侮。Dean在一段YouTube视频当中进一步对此进行了解释,包括DistBelief在可扩展性与生产培训方面的出色表现,但他同时提到其在研究工作方面显得不够灵活。


相比之下,TesorFlow能够与任意基于梯度的机器学习算法相协作,这就为其开辟了更为广阔的适用范围。出于运行速度考量而以C++编写的TensorFlow不需要开发人员对底层承载硬件具备任何了解。其同时能够运行在多种设备及架构之上,因此其适应平台从手机等系统芯片设备到配备数十块GPU的分布式系统皆可涵盖。


考虑到硬件设备的发展速度之快以及抽象层的快速普及——事实上,即使是像C++这样的语言也会与其运行所在的设备之间存在抽象层,这种设计方式具有重大意义。这是一种前瞻性设计策略,允许谷歌公司以性价比极高的方式利用先进硬件构建规模化体系,同时保证TensorFlow始终能够与之顺畅对接。


TensorFlow是谷歌公司所发布的公共使用基础设施当中的最新组成部分。原先,谷歌曾经大规模推广过容器编排工具Kubernetes,而如今其已经被广泛视为容器生态系统当中的重要成员之一。


2. 来自谷歌的支持令TensorFlow拥有更多深层含义

如果能够得到像谷歌这类巨头级企业的支持,特别是对于技术概念极为复杂的机器学习这类方案,开源项目将能够迎来更为可观的发展潜力以及来自开发者群体的支持热情。


因为这种来自巨头的支持往往意味着这些方案已经在这些老牌企业当中进行了内部使用——谷歌公布TensorFlow时也正好符合这种情况。在这种情况下,开源项目当中那些影响最大、最为严重的漏洞早已在其内部使用过程当中得到了解决。另外,当背后支持方拥有像谷歌这样可观的规模,那么该开源项目往往已经被应用在了相当广泛的场景之下。


对该项目进行开源意味着将有更多用户得以为其贡献力量,并成为其发展背后的有力推手。几乎没有几家贡献方能够拥有像谷歌这样的业务规模,但他们仍然有机会想到并设计出谷歌单凭自身力量根本无法想到的可能性用例。


3. 易用性出众——这一点非常重要

在利用任何框架处理数学、统计或者机器学习任务时,我们面临的首要难题就是易用性。Apache Spark之所以吸引到了众多支持者,除了其极具吸引力的内存内处理速度优势之外,它所采用的相对简单的编程接口同样功不可没。IBM公司曾经利用Spark编写出其重要数据处理产品DataWorks,而且蓝色巨人强调称这一选择将其原本设想的4000万行代码顺利削减到了500万行。


同样的,TensorFlow的一大固有优势也正在于易用性。除了能够由其它C++应用程序直接实现接入之外,它还提供面向Python的接口——其中包括支持Ipython/Jupyter笔记本/这就使得使用感受更为直观而且易于理解。目前开发团队还在为打造更为强大的其它语言前端,包括谷歌Go。另外,Python 3支持问题已经被标记为需要尽快解决的缺陷。虽然TensorFlow的构建元素尚未完全齐备,但目前的储备及阵容已经相当可观。


4.施压压力令机器学习默认选择开源路线

谷歌公司的Mtt Cutts提出了这一观点,并指出以Hadoop为代表的“整个山寨行业”都在努力对谷歌发布的MapReduce技术论文进行重构。“但结果却很难称得上理想,”他写道,“因为外部代码当中往往存在着一系列我们已经在谷歌内部解决过了的问题。”


以专有方式开发算法代码的优势正在逐步减少。算法目前已经不再是机器学习方案当中最为重要的组成部分——特别是在将机器学习部署在云环境当中的情况下。相反,算法用于培训自身所导入的数据以及需要与之对接的真实世界数据源才是最重要的元素。考虑到IBM最近刚刚收购了Weather Company,很明显可以看到蓝色巨人想要的不仅仅是实时、真实世界数据流,而更多地是用于生成这些数据的传感器阵列。


而只有当相关算法与框架的开发工作拥有足够充裕的人手介入,其处理数据的实际效果才能真正达到顶峰。


原文发布时间为:2015-11-18

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
6月前
|
机器学习/深度学习 人工智能 前端开发
机器学习PAI常见问题之web ui 项目启动后页面打不开如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
6月前
|
机器学习/深度学习 数据采集 监控
大模型开发:描述一个典型的机器学习项目流程。
机器学习项目涉及问题定义、数据收集、预处理、特征工程、模型选择、训练、评估、优化、部署和监控。每个阶段都是确保模型有效可靠的关键,需要细致操作。
83 0
|
6月前
|
TensorFlow 算法框架/工具 开发工具
使用 TensorFlow 构建机器学习项目:6~10(3)
使用 TensorFlow 构建机器学习项目:6~10(3)
51 0
|
20天前
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
58 1
|
2月前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
103 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
3月前
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
68 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
3月前
|
机器学习/深度学习 数据处理 定位技术
构建您的首个机器学习项目:从理论到实践
【8月更文挑战第28天】本文旨在为初学者提供一个简明的指南,通过介绍一个基础的机器学习项目——预测房价——来揭示机器学习的神秘面纱。我们将从数据收集开始,逐步深入到数据处理、模型选择、训练和评估等环节。通过实际操作,你将学会如何利用Python及其强大的科学计算库来实现自己的机器学习模型。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往机器学习世界的大门。
|
3月前
|
机器学习/深度学习 数据可视化 数据处理
Python vs R:机器学习项目中的实用性与生态系统比较
【8月更文第6天】Python 和 R 是数据科学和机器学习领域中最受欢迎的两种编程语言。两者都有各自的优点和适用场景,选择哪种语言取决于项目的具体需求、团队的技能水平以及个人偏好。本文将从实用性和生态系统两个方面进行比较,并提供代码示例来展示这两种语言在典型机器学习任务中的应用。
89 1
|
4月前
|
机器学习/深度学习 数据处理 Python
机器学习实战:房价预测项目
【7月更文挑战第13天】本文详细介绍了基于机器学习的房价预测项目的实战过程。从数据准备、特征工程、模型构建到结果评估,每一步都至关重要。通过合理的特征选择和模型优化,我们可以构建出性能优异的房价预测模型,为房地产行业的决策提供有力支持。未来,随着机器学习技术的不断发展和应用场景的不断拓展,房价预测模型将更加智能化和精准化。
|
5月前
|
机器学习/深度学习 API 索引
机器学习项目实践-基础知识部分
创建Python隔离环境使用`python -m venv`命令,如`python -m venv ml`来创建名为`ml`的虚拟环境。激活环境通过`.\<Scripts>\activate`(Windows)。然后可以使用`pip`安装库,如`numpy`、`pandas`、`matplotlib`和`jupyter notebook`。在虚拟环境中,`numpy`是用于数组计算的库,支持数学操作和绘图。`pip install`命令后面可添加`-i Simple Index`指定索引源。完成安装后,激活环境并启动`jupyter notebook`进行开发。