参加阿里云开发者大会对于大数据与AI 的未来思考

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 应阿里云MVP团队邀请有幸通过线上渠道参加本次开发者大会,应个人发展方向的关系对于大数据和AI部分的内容介绍特别感兴趣,以下简单介绍下个人对这两方面未来的思考

应阿里云MVP团队邀请有幸通过线上渠道参加本次开发者大会,应个人发展方向的关系对于大数据和AI部分的内容介绍特别感兴趣,以下简单介绍下个人对这两方面未来的思考。

低代码的未来

低代码是目前即热门又有些争议的话题,典型的争论的点就是对于算法开发的替代性究竟会到哪个程度,是否随着低代码的推进,算法开发会逐步退出历史舞台。由于个人同时在阿里云PAI平台上进行过实验,平时主要还是采用Python和R语言研究自己的算法,因此对于这个问题觉得不要过于极端的偏向任何一种看法较好,写代码进行算法开发和低代码是完全可以融合的,不但可以面向不同的对象,哪怕同一个算法工程师或者数据科学家也可以同时采用两种方式,并不存在哪个较为有优势的问题。
算法的设计除了技术更是一门艺术,成品是算法模型和通过模型预测出的结果。我们的世界不管是商业还是工业,场景众多,数据种类也众多,面对这些千变万化的情况,绝对不敢说算法都已经开发完毕了或者说不会再产生新的算法了。这样低代码在应对这些复杂场景的时候因为它产生的原因就是高度封装所以缺乏灵活性是个不可避免的问题,核心就是低代码模式下封装的颗粒度,颗粒度太粗则虽然易于使用但是灵活性不佳的特点愈发明显,颗粒度太细则模块的数量太多最终又和写代码的方式越来越接近,最后使用者觉得还不如自己写代码比较方便。
个人觉得,对于低代码的定位需要清楚,它的优势就是高度封装,因此面向的是业务人员而不是开发人员或研究人员。当算法开发完毕已经能够被广泛的用于生产场景的时候,低代码其实优势就很明显,能够作为业务人员和开发人员之间的桥梁,也能让业务人员更多的参与到算法的设计和改进过程中来。特别是在工业互联网中,很多技术专家对于自己所从事的本专业极其精通,但是具体到大数据和AI怎么落地的时候,写代码成为了一道壁垒,而开发人员虽然有很熟练的开发技术,但是又无法说各类场景的原理和生产过程都十分了解。这使双方因为自身的短板无法很好的将个人擅长的东西糅合到一起从而让大数据算法和AI产生叠加的生产力,低代码的推广使这个壁垒有了打破的工具,业务人员通过模块形式搭建自己需要的算法逻辑,运行之后可以直接看到自己所设计的算法的结果,如果是因为模块的问题而造成的结果不理想,则开发和研究人员因为有了业务层面的第一手反馈而大幅度的提高了改进的效率和速度。最终,业务人员对于生产过程的宝贵技术经验真正的通过低代码工具能够沉淀下来,开发人员因为有了业务上的反馈避免了很多无意义的劳动。从这个角度上分析,低代码最大的意义不是取代开发工作和研究工作,而是一个让不同专业能够相互沟通的手段和桥梁,具有非常大的发展价值,甚至推进了大数据和AI在各领域落地的速度。

开发与算法的融合性

仔细学习了这次开发者大会上各位老师的演讲和资料,大部分集中于数据架构的改良和新的基于云上服务的形成。个人理解就是开发对于算法的支撑力越来越强,虽然严格从专业上看开发和算法是区别较明显的两个领域,但是从目标都是对于数据进行处理这个角度两者又必须进行融合才能让数据的价值体现出来。
一般在回答别人提问什么是大数据的时候其实这个问题因为范围过大,很难真正完全讲透,大部分情况下都是用大数据的4V特征来介绍,符合4V特征的就是大数据。那开发和算法就是分别从不同的角度来体现和解决4V特征,首先是数据的多样性,粗略的进行分类一般就是结构化、半结构化和非结构化,开发通过形成各个工具和面向不同种类数据的数据库确保这些异构数据能够被顺利接入,算法通过设计分析算法、挖掘算法从这些接入的数据中提取和挖掘价值,使数据成为信息,并且尽最大的努力让同样的一份数据能够产生更多的信息;其次是数据的体量大,这个方面开发的作用更大一些,事实上云计算的产生就是因为需要有海量数据的处理技术,计算力能够保证后才又推动了物联网的发展。随着机器学习和深度学习的大规模落地,巨大的计算量在缺少底层支持的情况下各类算法都无法快速的工作,这对于搜索、个性推荐、实时控制这些对于时间有严格要求的场景来说直接关系到存在的基础。充分体现了开发与算法发展有区别但又必须融合的思想,开发的意义本质上在于提高数据的处理能力和安全性,是对算法的底层支撑,而算法有了底层强大的基础后才有可能进一步推进算法的研究、开发和落地。毕竟机器学习和人工智能的很多算法和思想其实并不是这两年才有,过去虽然有这个想法甚至理论,但是计算力基础没有造成了很长一段时间研究工作陷于停顿,只能有限的范围内进行使用而无法大规模落地。

大数据和AI数据处理的未来发展

大数据和AI数据处理的未来上,其实很关注于对于数据清洗能力提升的方面。目前很多场景的问题不是缺乏数据,而是数据过多并且过杂,这从4V特征讲就是价值高但是价值密度低。从事过算法设计工作的都有直观理解,数据清洗的工作量占整个算法设计和开发工作量的70%并且只会更多而不会少,是个工作量很大,很繁琐但是又不得不做的工作。这个方面如果能不断的有更自动化和实用的工具出现自然是很受各方面欢迎的。对于AI来说,因为数据基本是非结构化的语音、图像、视频,因此数据清洗工具能力的提升直接关系到数据预处理和特征工程,进而影响整个算法的结果,这些问题随着数据量的变大只会越来越突出。中台一直各方都认为很强大,它的本质其实就是增加数据的处理能力,也是很大程度的关注于数据的清洗能力和预处理能力,这比计算力更难解决,而一旦解决,数据真正的成为数据资产的效率也就更高。这次开发者大会上,看到了平台不断的在增加这方面的处理能力也是非常的开心,期待这方面今后能有更多的发展,在有了数据、有了计算力后,不因清洗能力的落后而遗漏了可能会挖掘出的价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
14天前
|
人工智能 Java Serverless
阿里云函数计算助力AI大模型快速部署
随着人工智能技术的快速发展,AI大模型已经成为企业数字化转型的重要工具。然而,对于许多业务人员、开发者以及企业来说,探索和利用AI大模型仍然面临诸多挑战。业务人员可能缺乏编程技能,难以快速上手AI模型;开发者可能受限于GPU资源,无法高效构建和部署AI应用;企业则希望简化技术门槛,以更低的成本和更高的效率利用AI大模型。
73 12
|
4天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
2天前
|
JSON 分布式计算 数据处理
加速数据处理与AI开发的利器:阿里云MaxFrame实验评测
随着数据量的爆炸式增长,传统数据分析方法逐渐显现出局限性。Python作为数据科学领域的主流语言,因其简洁易用和丰富的库支持备受青睐。阿里云推出的MaxFrame是一个专为Python开发者设计的分布式计算框架,旨在充分利用MaxCompute的强大能力,提供高效、灵活且易于使用的工具,应对大规模数据处理需求。MaxFrame不仅继承了Pandas等流行数据处理库的友好接口,还通过集成先进的分布式计算技术,显著提升了数据处理的速度和效率。
|
3天前
|
人工智能 大数据 测试技术
自主和开放并举 探索下一代阿里云AI基础设施固件创新
12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。
|
4天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
4天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
23 2
|
17天前
|
人工智能 NoSQL MongoDB
阿里云与MongoDB庆祝合作五周年,展望AI赋能新未来
阿里云与MongoDB庆祝合作五周年,展望AI赋能新未来
|
12天前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。
|
17天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
19天前
|
人工智能 Kubernetes Cloud Native
荣获2024年AI Cloud Native典型案例,阿里云容器产品技术能力获认可
2024全球数字经济大会云·AI·计算创新发展大会,阿里云容器服务团队携手客户,荣获“2024年AI Cloud Native典型案例”。