前端智能化在阿里云大数据研发平台中的实践

简介: 前端智能化有哪些实际应用场景?
作者 | 秦奇

image.png
在这个 AI 浪潮改变人们生活方方面面的时候,人工智能技术也在改变各个岗位的技术研发生态,阿里在这方面走还是非常前端,以阿里前端智能化小组为例,不仅有D2C(Design to Code)的 Imgcook ,前端算法工程体系Pipcook,也有 C2C (Code to Code),智能 UI 等能力。本文重点介绍了C2C 在阿里云飞天大数据平台中的一些实践,期望通过实际的方案介绍让大家对前端智能化有更深入的了解。

业务背景

先简单介绍下业务背景,阿里云飞天大数据平台是阿里巴巴10年大数据建设最佳实践的结晶,每天有数万名数据和算法工程师正在使用飞天大数据平台,承载了阿里巴巴99%的数据业务构建。同时广泛应用于城市大脑、数字政府、电力、金融、新零售、智能制造、智慧农业等各个领域的大数据建设。

具体的发展历程,产品架构和前端页面概览可以参见下图:
image.png
image.png

业务挑战

从上面几张图就可以清晰地看到阿里云大数据研发平台中前端页面的几个特点:

  • 重编程场景,存在大量的WebIDE 和 编辑器场景,每天超过 70% 的用户会用编程
  • 重可视化交互,存在大量数据的可视化展现,任务的编排的场景。

而且作为一个研发平台除了稳定性外,对提升客户,也就是在上面做研发人员的效率是最重要的事情,因此我们产品前端智能化的要核心去解决就是效率问题。

解决方案

从业务挑战看,前端智能化方案在业务落地,主要解决的就是两个问题:

  • 各个产品组件的智能化升级
  • 统一的算法工程能力,保证算法的持续更新迭代和快速部署的能力

针对这些思考,我们把整个智能化的建设布局做成如下:
image.png
以下分别会从智能编辑器,智能化可视化,以及算法工程方面主要阐述。

智能编辑器

编辑器是大数据研发中的核心组件,如何让开发者快速进行数据开发一直是我们的核心需求。借助于智能化和机器学习,我们加强了编辑器的核心能力,比如智能代码推荐、代码诊断等。
image.png

智能代码推荐

代码推荐是指在编写代码时,编辑器会基于当前上下文,列举出可能的候选项供用户进行选择。用户一旦选择了推荐项,则会自动补全对应的输入,这样可以极大提升开发者的编码效率。

借助于智能化的算法和大部分用户的使用习惯,我们实现了代码推荐的智能模型,结合语言语法规则,可以推荐出当前最符合语法规则的代码。代码推荐采用的算法一般为语言模型算法(Language Model),常用的模型算法有n-gram、LSTM以及最近比较火热的GPT和CodeGPT(GPT基于编程语言预训练模型)。

考虑到代码编写每个人都有不同的代码风格和编码习惯,通用的推荐算法可能并不是最佳的方案。受淘宝“千人千面“机制的启发,代码推荐是否也能根据个人的编码习惯进行推荐呢?为此我们对用户的实际编码习惯进行了研究,实现了一套“千人千面”的推荐模型,从而可以针对每个人推荐出符合个人习惯的代码。

代码诊断

image.png
代码缺陷一直是开发者很头痛的存在,而引起缺陷的原因也是多种多样,如果能够在编写阶段即可发现代码缺陷,能够节省大量的人力物力,而代码诊断正是为此而生。借助于引擎侧的能力,和众多语法规则,以及代码审查的相关信息,在使用智能化算法进行训练之后,已经基本具备了代码缺陷检测的能力。这里的训练模型可以参考监督模型,常用的是支持向量机(Support Vector Machine, SVM)。

智能可视化

在大数据平台中,数据是最核心的内容,而可视化则是展示数据特性、价值的最佳工具。尤其在数据分析的场景下,可视化展示可以帮助用户快速、直观的发现数据的规律。

数据探查

Data profiling is the process of examining the data available from an existing information source (e.g. a database or a file) and collecting statistics or informative summaries about that data. The purpose of these statistics may be to: Find out whether existing data can be easily used for other purposes. --维基百科

image.png
数据探查是获取数据的统计信息和信息摘要的过程。如何实现数据类型、特征的自动分析和图表的自动选择是核心问题。其中数据类型分析我们基于DataWizard 的 Analyzer 与 Statistic 模块进行分析,可以分析出字段类型、基本字段特征等。图表推荐参考如下经典的决策图,基于对比、分布、组成和关系四个纬度进行推荐。整个探查过程我们已经封装了组件,可以快速调用实现自己的探查产品。
image.png
并且我们正在基于数据-图表的对应训练智能模型,实现数据特征的智能识别和图表的智能推荐。

算法工程

以上提到的众多智能模型的训练,借助于阿里云机器学习平台,我们形成了通用的模型训练、评估和部署链路。

模型训练

借助于PAI DSW的交互式建模能力,我们可以基于Notebook的形式快速实现模型的训练过程,包括数据的加载、预处理、训练集、测试集切分等操作。然后基于Tensorflow完善的模型实现,可以很快实现自己的训练过程。

image.png

模型评估

模型评测是体现模型效果的重要的方法,模型是为了解决实际的生产问题,所以模型的评估方案也必须符合问题的定义,能够真实反映出模型对该问题的效果。常见的评估方法有准确率、召回率等,同时经常也需要根据实际问题自定义评估的指标。比如针对代码推荐的场景,除了准确率(Top-N)之外,还有推荐耗时、推荐长度等指标,只有结合这些指标去综合评估才能反映出模型的真实效果。

模型部署

PAI EAS提供了模型在线部署的能力,一键上传即可实现模型的部署,之后通过API即可快速调用。

未来展望

  • 立足于智能化,能够紧跟业界进展,将好用的算法应用于我们的产品中,为用户提供更强大的服务。
  • 发掘更多的智能化场景,使用机器学习的方式去解决问题,

写在最后

机器学习带来了一种解决问题的思路,我们发现很多业务上的问题其实都可以借鉴机器学习的思路去考量。更深一步,我觉得人人都会机器学习是未来的趋势。就像数据分析,机器学习也会变得越来越容易上手。比如pipcook就是一个能够让前端同学也能快速上手机器学习的框架,希望这种工具能够越来越多。集团前端智能化在P(RD)2C、以及D(esion)2C和C(ode)2C几个方向共建,目的就是针对前端场景,以智能化的手段去解决业务问题,欢迎一起交流。


image.png

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
22天前
|
前端开发 编解码 数据格式
浅谈响应式编程在企业级前端应用 UI 开发中的实践
浅谈响应式编程在企业级前端应用 UI 开发中的实践
20 0
浅谈响应式编程在企业级前端应用 UI 开发中的实践
|
1月前
|
SQL 分布式计算 关系型数据库
阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践
本文以云厂商售后技术支持的角度,从客户的需求出发,对于阿里云EMR-Trino集群的选型,外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录,模拟客户已有的业务场景,满足客户需求的同时对过程中的问题点进行解决、记录和分析,包括但不限于Mysql、ODPS、Hive connector的配置,Hive、Delta及Hudi等不同表格式读取的兼容,aws s3、阿里云 oss协议访问异常的解决等。
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
719 2
|
29天前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
110805 100
阿里云实时计算Flink的产品化思考与实践【下】
|
30天前
|
编解码 前端开发 UED
现代前端开发中的响应式设计原则与实践
在当今移动互联网时代,响应式设计已成为现代前端开发的重要组成部分。本文将介绍响应式设计的基本原则及实践方法,包括弹性网格布局、媒体查询和流式布局等技术,以及在实际项目中的应用经验和常见挑战。
|
1月前
|
编解码 前端开发 UED
现代前端开发中的响应式设计原则与实践
在当今移动互联网时代,响应式设计已成为现代前端开发的必备技能。本文将介绍响应式设计的基本原则和实践方法,通过案例分析展示其在不同设备上的应用,帮助读者更好地理解和运用响应式设计。
|
1月前
|
前端开发 数据可视化 搜索推荐
数据驱动的前端设计与开发实践
本文将介绍如何在前端设计与开发中充分利用数据驱动的方法,通过数据分析、用户行为追踪和可视化等手段,指导前端界面设计和功能开发,提高用户体验和产品质量。
|
1月前
|
机器学习/深度学习 前端开发 算法
利用机器学习优化Web前端性能的探索与实践
本文将介绍如何利用机器学习技术来优化Web前端性能,探讨机器学习在前端开发中的应用,以及通过实际案例展示机器学习算法对前端性能优化的效果。通过结合前端技术和机器学习,提升Web应用的用户体验和性能表现。
|
1月前
|
弹性计算 网络协议 关系型数据库
网络技术基础阿里云实验——企业级云上网络构建实践
实验地址:<https://developer.aliyun.com/adc/scenario/65e54c7876324bbe9e1fb18665719179> 本文档指导在阿里云上构建跨地域的网络环境,涉及杭州和北京两个地域。任务包括创建VPC、交换机、ECS实例,配置VPC对等连接,以及设置安全组和网络ACL规则以实现特定服务间的互访。例如,允许北京的研发服务器ECS-DEV访问杭州的文件服务器ECS-FS的SSH服务,ECS-FS访问ECS-WEB01的SSH服务,ECS-WEB01访问ECS-DB01的MySQL服务,并确保ECS-WEB03对外提供HTTP服务。
|
1月前
|
缓存 运维 监控
应用研发平台EMAS 常见问题之用华为的推送界面阿里云收不到如何解决
应用研发平台EMAS(Enterprise Mobile Application Service)是阿里云提供的一个全栈移动应用开发平台,集成了应用开发、测试、部署、监控和运营服务;本合集旨在总结EMAS产品在应用开发和运维过程中的常见问题及解决方案,助力开发者和企业高效解决技术难题,加速移动应用的上线和稳定运行。
382 2