参加阿里云开发者大会对于大数据与AI 的未来思考

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 应阿里云MVP团队邀请有幸通过线上渠道参加本次开发者大会,应个人发展方向的关系对于大数据和AI部分的内容介绍特别感兴趣,以下简单介绍下个人对这两方面未来的思考

应阿里云MVP团队邀请有幸通过线上渠道参加本次开发者大会,应个人发展方向的关系对于大数据和AI部分的内容介绍特别感兴趣,以下简单介绍下个人对这两方面未来的思考。

低代码的未来

低代码是目前即热门又有些争议的话题,典型的争论的点就是对于算法开发的替代性究竟会到哪个程度,是否随着低代码的推进,算法开发会逐步退出历史舞台。由于个人同时在阿里云PAI平台上进行过实验,平时主要还是采用Python和R语言研究自己的算法,因此对于这个问题觉得不要过于极端的偏向任何一种看法较好,写代码进行算法开发和低代码是完全可以融合的,不但可以面向不同的对象,哪怕同一个算法工程师或者数据科学家也可以同时采用两种方式,并不存在哪个较为有优势的问题。
算法的设计除了技术更是一门艺术,成品是算法模型和通过模型预测出的结果。我们的世界不管是商业还是工业,场景众多,数据种类也众多,面对这些千变万化的情况,绝对不敢说算法都已经开发完毕了或者说不会再产生新的算法了。这样低代码在应对这些复杂场景的时候因为它产生的原因就是高度封装所以缺乏灵活性是个不可避免的问题,核心就是低代码模式下封装的颗粒度,颗粒度太粗则虽然易于使用但是灵活性不佳的特点愈发明显,颗粒度太细则模块的数量太多最终又和写代码的方式越来越接近,最后使用者觉得还不如自己写代码比较方便。
个人觉得,对于低代码的定位需要清楚,它的优势就是高度封装,因此面向的是业务人员而不是开发人员或研究人员。当算法开发完毕已经能够被广泛的用于生产场景的时候,低代码其实优势就很明显,能够作为业务人员和开发人员之间的桥梁,也能让业务人员更多的参与到算法的设计和改进过程中来。特别是在工业互联网中,很多技术专家对于自己所从事的本专业极其精通,但是具体到大数据和AI怎么落地的时候,写代码成为了一道壁垒,而开发人员虽然有很熟练的开发技术,但是又无法说各类场景的原理和生产过程都十分了解。这使双方因为自身的短板无法很好的将个人擅长的东西糅合到一起从而让大数据算法和AI产生叠加的生产力,低代码的推广使这个壁垒有了打破的工具,业务人员通过模块形式搭建自己需要的算法逻辑,运行之后可以直接看到自己所设计的算法的结果,如果是因为模块的问题而造成的结果不理想,则开发和研究人员因为有了业务层面的第一手反馈而大幅度的提高了改进的效率和速度。最终,业务人员对于生产过程的宝贵技术经验真正的通过低代码工具能够沉淀下来,开发人员因为有了业务上的反馈避免了很多无意义的劳动。从这个角度上分析,低代码最大的意义不是取代开发工作和研究工作,而是一个让不同专业能够相互沟通的手段和桥梁,具有非常大的发展价值,甚至推进了大数据和AI在各领域落地的速度。

开发与算法的融合性

仔细学习了这次开发者大会上各位老师的演讲和资料,大部分集中于数据架构的改良和新的基于云上服务的形成。个人理解就是开发对于算法的支撑力越来越强,虽然严格从专业上看开发和算法是区别较明显的两个领域,但是从目标都是对于数据进行处理这个角度两者又必须进行融合才能让数据的价值体现出来。
一般在回答别人提问什么是大数据的时候其实这个问题因为范围过大,很难真正完全讲透,大部分情况下都是用大数据的4V特征来介绍,符合4V特征的就是大数据。那开发和算法就是分别从不同的角度来体现和解决4V特征,首先是数据的多样性,粗略的进行分类一般就是结构化、半结构化和非结构化,开发通过形成各个工具和面向不同种类数据的数据库确保这些异构数据能够被顺利接入,算法通过设计分析算法、挖掘算法从这些接入的数据中提取和挖掘价值,使数据成为信息,并且尽最大的努力让同样的一份数据能够产生更多的信息;其次是数据的体量大,这个方面开发的作用更大一些,事实上云计算的产生就是因为需要有海量数据的处理技术,计算力能够保证后才又推动了物联网的发展。随着机器学习和深度学习的大规模落地,巨大的计算量在缺少底层支持的情况下各类算法都无法快速的工作,这对于搜索、个性推荐、实时控制这些对于时间有严格要求的场景来说直接关系到存在的基础。充分体现了开发与算法发展有区别但又必须融合的思想,开发的意义本质上在于提高数据的处理能力和安全性,是对算法的底层支撑,而算法有了底层强大的基础后才有可能进一步推进算法的研究、开发和落地。毕竟机器学习和人工智能的很多算法和思想其实并不是这两年才有,过去虽然有这个想法甚至理论,但是计算力基础没有造成了很长一段时间研究工作陷于停顿,只能有限的范围内进行使用而无法大规模落地。

大数据和AI数据处理的未来发展

大数据和AI数据处理的未来上,其实很关注于对于数据清洗能力提升的方面。目前很多场景的问题不是缺乏数据,而是数据过多并且过杂,这从4V特征讲就是价值高但是价值密度低。从事过算法设计工作的都有直观理解,数据清洗的工作量占整个算法设计和开发工作量的70%并且只会更多而不会少,是个工作量很大,很繁琐但是又不得不做的工作。这个方面如果能不断的有更自动化和实用的工具出现自然是很受各方面欢迎的。对于AI来说,因为数据基本是非结构化的语音、图像、视频,因此数据清洗工具能力的提升直接关系到数据预处理和特征工程,进而影响整个算法的结果,这些问题随着数据量的变大只会越来越突出。中台一直各方都认为很强大,它的本质其实就是增加数据的处理能力,也是很大程度的关注于数据的清洗能力和预处理能力,这比计算力更难解决,而一旦解决,数据真正的成为数据资产的效率也就更高。这次开发者大会上,看到了平台不断的在增加这方面的处理能力也是非常的开心,期待这方面今后能有更多的发展,在有了数据、有了计算力后,不因清洗能力的落后而遗漏了可能会挖掘出的价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
14天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
10天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
20天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
72 10
|
16天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
1月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
27 1
|
5天前
|
机器学习/深度学习 人工智能 算法
AI在医疗领域的应用与挑战
本文探讨了人工智能(AI)在医疗领域的应用,包括其在疾病诊断、治疗方案制定、患者管理等方面的优势和潜力。同时,也分析了AI在医疗领域面临的挑战,如数据隐私、伦理问题以及技术局限性等。通过对这些内容的深入分析,旨在为读者提供一个全面了解AI在医疗领域现状和未来发展的视角。
30 10
|
6天前
|
机器学习/深度学习 人工智能 监控
探索AI在医疗领域的应用与挑战
本文深入探讨了人工智能(AI)在医疗领域中的应用现状和面临的挑战。通过分析AI技术如何助力疾病诊断、治疗方案优化、患者管理等方面的创新实践,揭示了AI技术为医疗行业带来的变革潜力。同时,文章也指出了数据隐私、算法透明度、跨学科合作等关键问题,并对未来的发展趋势进行了展望。