AI时代,拥有更多数据的巨头会垄断么,创业公司是否还有机会?

简介: “纯粹”的人工智能公司,未来可能将不复存在。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!


阿尔法公社说:在AI越来越普及的时代,拥有大量数据的科技巨头会形成垄断么?创业公司应该如何高效的利用数据?后进的AI领域创业公司还有机会么?创业者应该如何利用AI技术切入行业?如果你也有这些疑问,欢迎阅读。

AI,包括机器学习现在是重要的技术趋势,在这个领域已经有不少独角兽创业公司,科技巨头们更是早早布局。只要对这项技术稍有了解就会明白,数据是机器学习的养料,那么已经拥有大量数据的科技巨头公司会不会强者更强,甚至形成垄断,后来的创业公司还有机会么?

为什么数据对于机器学习很重要?

首先,为什么数据对于机器学习如此重要?举例说明。在过去,利用传统的方法构建一个系统来识别某样事物,需要一系列复杂的规则,例如要识别图片里的一只猫,需要构建识别猫的轮廓、毛发、腿、眼睛、耳朵等一系列的规则,并把它们整合在一起。但在实践中,这样的方法过于复杂,可行度不高。

v2_6be618a032b54085a59fae07b8244506_img_000_jpeg

如果用机器学习来识别猫,你不需要写规则,而是给一个统计引擎提供数据和例子,这个引擎就会生成一个具有分辨能力的模型。然后你给它10万张标有 "猫"的图片和10万张标有 "不是猫 "的图片,机器就能分辨出它们的区别。机器学习用数据中自动确定的模式取代了手写的逻辑步骤,对于一些非常广泛的问题,机器学习的效果会更好,例如在计算机视觉、文字和语音方面,它都有非常典型的用例。

对于机器学习,你需要多少数量的数据才能达到目标是一个浮动的数字,有一些研究方向是让机器学习使用更小的数据集就可以完成工作,但是在目前,更多的数据几乎总是能得到更好的结果。

巨头拥有很多数据,这会帮助它们垄断么?

因此,问题来了:如果机器学习可以重构很多重要的事情,并且数据越多机器学习就给你越好的结果。那么,是否意味着已经是巨头,拥有巨量数据的公司会变得更加强大?这种赢家通吃的效应会有多强?因为这背后的道理似乎很清楚:"更多的数据=更准确的模型=更好的产品=更多的用户=更多的数据"。于是有一些说法就会出现:“谷歌/Facebook/亚马逊拥有所有的数据,中国拥有所有的数据,那些拥有大量数据的科技公司和人口众多,数据丰富的国家将在竞争中获得优势。”

某种程度上,这能成立。

不过,虽然机器学习需要大量的数据,但你使用的数据必须是非常具体的,只有这样才能解决特定的问题。GE有很多燃气轮机的遥测数据,Google有很多搜索数据,Amex有很多信用卡欺诈数据。你不能用涡轮机的数据作为例子来发现欺诈性交易,也不能用网络搜索的数据来发现即将出现故障的燃气轮机。也就是说,机器学习是一种通用的技术,你既能用它来欺诈监测也能进行人脸识别,但是用它构建的具体应用互相之间是不通用的。每一个特定的模型或应用只能做一件事。

这和之前的自动化技术普及大同小异:就如洗衣机只能洗衣服不能洗碗一样,机器学习支持的翻译程序也不能识别猫的图片。你构建的应用程序和这些应用程序需要的数据集是非常具体的,他们只会胜任特定的任务(当然,现在有一些前沿研究试图使某些数据集能够拥有更广泛的通用性。)

v2_07f5361161fd48fb83ba44c543c6dc74_img_000_jpeg

所以,利用机器学习可以实现的应用是非常广泛而分散的。谷歌不会“拥有所有的数据”,它只会拥有谷歌自己的数据。谷歌会利用机器学习技术获得更好的搜索结果,GE获得更好的引擎遥测,沃达丰获得更好的通话模式分析和网络规划,而这些都是不同公司建立的不同业务和功能。谷歌可以利用机器学习让它自己的业务变得更好,但不意味着谷歌可以利用机器学习垄断一切业务。

也就是说,机器学习可以让每个行业的大公司变得更强大——沃达丰,GE,谷歌拥有各自行业“所有的数据”,这会让他们拥有更强的竞争优势,让已经存在的护城河变的更深。但是问题其实也不那么简单,我们可以提出疑问:到底谁拥有数据,这些数据到底多有用,在什么层面上它是有效的,怎样去聚合与分析它们才是正确的?

如何聚合与分析数据才是有意义的?

作为一个公司的创始人,可以思考以下的问题:作为一家行业公司,你是否有收集和管理好自己的数据,并建立机器学习系统来分析它,还是说你找了对口的AI供应商来做这件事;你的供应商提供的是一个已经在别的数据集上训练好的成品,还是根据你的数据定制训练,或者将你的数据与其他数据集混合起来一起训练?你的供应商是否需要你的数据来优化模型,还是说整个行业的数据已经非常丰富,用现成的数据集就已足够?在业务的不同部分,不同的行业,不同的细分业务中,这些问题的答案是不同的。

换到另一端,如果你是一家AI创业公司,要切入某个细分行业解决实际问题,那么有两个关于数据的基本问题:如何获得你的第一个数据集来训练你的模型,并以此来获得你的第一个客户,另外你到底需要多少数据?

第二个问题可以分解成很多问题:是用相对较少的、获取相当容易的数据集(但很多竞争对手也能获取)来解决问题,还是用更难获取,规模更大的数据集,如果是后一种,是否可以从网络效应中获益,从而形成赢家通吃的态势?以此构建的产品,是会随着数据越来越多,变得越来越好,还是有一条S曲线?

这取决于以下这些因素:

有些数据集对企业或产品来说是独一无二的,或者能提供强大的专有优势。GE的发动机遥测数据可能对分析罗罗的航空发动机没有什么用处,即便有用处,它们也不会分享。这可能就是一个创业机会,但同时也是很多大公司内部IT和外包项目承包商眼馋的地方。

有些数据集则更具有共性,可以适用于更多的行业和公司。“这个客户有些奇怪”可能适用于所有信用卡公司,“客户听起来很生气”则适用于大多数呼叫中心。这种共性问题可以诞生很多公司,他们可以基于此解决不同行业的共性问题,这里有数据的网络效应。

但是也可能出现另一种情况,到了某种分界点后,模型已经很成熟,厂商不需要更多的数据,就已经能够很好的构建产品了。

AI创业,到底应该怎么切入?

在实际的创业中,随着机器学习的应用范围越来越广,创业公司总能在细分领域找到切入点。例如Everlaw进入的是法律相关的领域:一场官司会产生堆积如山的纸质卷宗,机器学习可以对这些卷宗进行分析,一方面,可以找出具有共性的卷宗,例如“包含焦虑情绪的文件”,另一方面可以做聚类分析,找到和选出的某一份卷宗差不多的其他卷宗。而这些不需要根据某一个特定案件的数据训练,用一些行业通用的数据集就可以解决。

Drishti,是一家利用计算机视觉来分析工厂生产线的公司,它的其中一些能力需要客户公司的数据进行训练,但它的能力具有较强的通用性,可以跨行业工作。

举一个极端的例子,我最近接触到一家大型的汽车主机厂,他们利用机器学习来优化爆胎监测传感器,使它更加准确。这些训练数据是他们自己制造的,做了很多爆胎和没有爆胎的试验。很明显,想要得到数据,你总能获得数据,只是数据,并不能构建护城河。

因此,回到核心,对于机器学习创业公司,都要面对两个问题:如何获得数据,需要多少数据?但这些只是技术性问题:你更应该考虑你的目标市场是什么,如何进入市场,你要解决的问题对你的客户有多大价值,等等。也就是说,很快就不会再有 "人工智能 "创业公司了,它们将是工业流程分析公司,法律平台公司,或者销售优化公司等等。事实上,机器学习的普及并不意味着谷歌变强,而是意味着各种创业公司可以比以前更快地用这种先进技术来建立业务。

我用一个比喻来做最后的总结,我们可以把机器学习比作数据库。数据库非常重要,它是一种基础设施,融入了各种各样的场景。如果你不使用它,而你的竞争对手使用它,你就会落后。在它还是一个新鲜事物时,有的公司曾经依靠这种技术获得过竞争优势,沃尔玛的部分成功来自于使用数据库,从而可以更有效的管理库存和物流。但在今天,如果你创办了一家零售商,并说,我们正在使用最先进的数据库技术;那这并不会让你变得与众不同。数据库已经变成了一种普遍化的技术基础设施,它不再有特殊性,同样的事情在未来也会发生在机器学习上。

本文综合编译自知名投资人Benedict Evans的个人博客。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-06-24
本文作者:阿尔法公社
本文来自:“36kr”,了解相关信息可以关注“36kr

相关文章
|
2天前
|
人工智能 自然语言处理 数据可视化
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
134 9
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
|
4天前
|
人工智能 Linux 开发工具
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
315 7
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
|
29天前
|
数据采集 SQL 人工智能
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
数据标准是数据治理的核心抓手,通过梳理数据标准可以有效提升数据质量。瓴羊Dataphin平台利用AI技术简化数据治理流程,实现自动化的数据标准建立、质量规则构建和特征识别,助力企业在大模型时代高效治理数据,推动数据真正为业务服务。
332 28
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
|
4天前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
49 14
|
2月前
|
人工智能 安全 DataX
【瓴羊数据荟】 Data x AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
第三期瓴羊数据Meetup 将于2025年1月3日在线上与大家见面,共同探讨AI时代的数据治理实践。
142 10
【瓴羊数据荟】 Data x  AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
|
1月前
|
人工智能 安全 Dubbo
Spring AI 智能体通过 MCP 集成本地文件数据
MCP 作为一款开放协议,直接规范了应用程序如何向 LLM 提供上下文。MCP 就像是面向 AI 应用程序的 USB-C 端口,正如 USB-C 提供了一种将设备连接到各种外围设备和配件的标准化方式一样,MCP 提供了一个将 AI 模型连接到不同数据源和工具的标准化方法。
|
1月前
|
传感器 机器学习/深度学习 人工智能
智能电网巡检与传感器数据AI自动分析
智能电网设备巡检与传感器数据分析利用AI技术实现自动化分析和预警。通过信息抽取、OCR技术和机器学习,系统可高效处理巡检报告和实时数据,生成精准报告并提供故障预判和早期识别。AI系统24小时监控设备状态,实时发出异常警报,确保设备正常运行,提升运维效率和可靠性。
|
1月前
|
传感器 机器学习/深度学习 人工智能
技术分享:智能电网巡检与传感器数据自动分析——AI助力设备状态实时监控与故障预警
这篇文章介绍了AI在智能电网巡检与传感器数据分析中的应用,通过信息抽取、OCR识别和机器学习等技术,实现设备状态监控和故障预警的自动化。AI系统能够高效处理巡检报告和传感器数据,精准识别设备故障并实时预警,显著提升了电网运营的安全性和可靠性。随着AI技术的发展,其在智能电网管理中的作用将日益重要。
|
1月前
|
存储 数据采集 算法
构建AI数据管道:从数据到洞察的高效之旅最佳实践
本文探讨了大模型从数据处理、模型训练到推理的全流程解决方案,特别强调数据、算法和算力三大要素。在数据处理方面,介绍了多模态数据的高效清洗与存储优化;模型训练中,重点解决了大规模数据集和CheckPoint的高效管理;推理部分则通过P2P分布式加载等技术提升效率。案例展示了如何在云平台上实现高性能、低成本的数据处理与模型训练,确保业务场景下的最优表现。
|
2月前
|
人工智能 Cloud Native 数据管理
数据+AI融合趋势洞察暨阿里云OpenLake解决方案发布
Forrester是全球领先的市场研究与咨询机构,专注于新兴技术在各领域的应用。本文探讨如何加速现代数据管理,推动人工智能与客户业务的融合创新。面对数据标准缺乏、多云环境复杂性、新兴业务场景及过多数据平台等挑战,Forrester提出构建AI就绪的数据管理基石,通过互联智能框架、全局数据管理和DataOps、端到端数据管理能力、AI赋能的数据管理以及用例驱动的策略,帮助企业实现数据和AI的深度融合,提升业务价值并降低管理成本。

热门文章

最新文章