数据分析的人工智能画板—马良

本文涉及的产品
可视分析地图(DataV-Atlas),3 个项目,100M 存储空间
简介: 阿里巴巴数据技术专家言顾在D2的分享。

点击查看精彩视频

阿里巴巴数据技术专家言顾在D2的分享。

“马良”的诞生

DataV一直致力于解决云上中小企业数据可视化的难题,也包括城市大脑的数据可视化业务。今天向大家介绍我们的新成果马良,我们希望将来做数据分析和调研时,仅仅通过手绘方式就能达到我们想要的数据分析规律。

image.png
image.png

如图为我们与麻省理工感知城市实验室合作的关于字体在城市中分布的研究,我们将城市中的常用字体进行分类,用谷歌的街景方式提取到街景中的字体和文字信息,我们也是用的物体识别模型来做这样一个提取方案,在我们提取到整个城市近百万张的街景之后,我们发现字体分布与街区的经济和商业都是有很强相关性的。

image.png

每一个不同的字体在区域内都和经济呈现正相关或者负相关,比如设计师经常用的无衬线字体与伦敦中心经济呈负相关,而衬线字体是正相关的,所以,高收入人群可能更倾向于选择带衬线字体,人们可能因为其它趋势选择无衬线字体。

通过这个研究,希望让大家了解我们对可视化的看法,我们希望从设计的角度和思维去解决工程化的问题。

马良仅仅通过手绘稿就可以生成完整的数据可视化大屏,同时,我们支持设计稿的上传,取得的设计稿通过马良可以在秒级内生成供大家继续编辑的数据可视化大屏。

可视化界面搭建难题

在整个马良研发过程中遇到的最大问题是可视化界面的搭建,我们在搭建过程中确实遇到了许多问题,其中也涉及到了业务方需求,我们发现很多时候做数据可视化大屏搭建时,首先要考虑设计中原型的搭建和开发,但近年来,很多可视化产品都极大降低了开发门槛,在设计方面并没有很好的解决。

image.png

我们现在在解决数据可视化设计问题时,在大屏领域包括DataV或其它可视化产品,都是通过选择模板来降低可视化设计的高开发门槛。在提供模板时,会遇到一些问题,比如自己做数据可视化大屏时,没有办法完全匹配自己的数据维度,数据可视化模板数量的限制导致没有办法选取更多样的风格。为了解决这样的问题,我们研发了马良这样的产品。

image.png

我们对近年来的数据可视化产品进行了相关分析,我们发现,可视化大屏创建包括了设计和研发,而很多可视化产品都在coding方面极大降低了开发成本,我们希望马良在开发和设计方面能够做好。

可视化大屏模板的设计流程

首先,可视化大屏模板需要有产品经理帮助我们梳理数据,同时设计师需要对梳理好的数据进行模板布局,包括颜色选取,最终交由工程师完成产品落地,可以看到整个流程非常冗长,需要不同角色配合。有了马良之后,任何单一角色不需要依赖于其他角色,都能够完成整个数据可视化大屏的搭建,比如产品经理不需要有设计知识也可完成搭建,设计师也可用草稿搭建数据可视化大屏。而且,马良对数据规律可以进行真正意义上的探索。

image.png

如图,右边为马良的时长,同样时长下我们相信有更多分析尝试,以前做一块大屏需要几天,如果大家用过DataV就会知道,DataV是支持拖拽的,可以选择图表组件进行拖拽,大概几小时完成。

为什么要推出马良?因为很多用户没有很好的设计背景和专业知识,同样只是简单的拖拽图表组件和布局,普通用户和设计师做的是完全不一样的,我们希望当发现很好的案例时,可以直接拖下来用马良生成,完成数据风格的迁移,而不是再拖拽,之前做过相应的测试,发现拖拽的创建过程还是要以小时计算的。而马良是以秒级来计算流程的。

基于深度学习辅助大屏可视化设计的方法

随着深度学习的发展,尽管深度学习与可视化有很强的沟通,但是一直没有很完善的产品让我们理解深度学习和可视化二者如何互相帮助的,我们知道一些比较知名的可视化与深度学习结合的案例如google用可视化来可视整个深度学习的神经网络,同样,我们相信可以通过深度学习及物体识别技术等能够帮助可视化进行搭建和还原。

image.png

如图为马良两个主要案例,上面为手绘稿生成,下面为设计稿生成,以应对生产环境中的两种需求。生成手绘稿是因为很多产品经理做数据可视化大屏时,可能更倾向于把想法概念绘制下来,这样当有新想法时更容易移除或擦除,有了马良之后,可以依据手绘稿生成继续支持开发的可视化大屏模板;同时我们也支持设计稿,很多时候产品经理拿着网上找到的设计稿可视化大屏与工程师沟通,希望工程师按照某种风格开发,有了马良之后,自己找到的设计稿可以很快实现数据可视化大屏。这样,单一角色可以完成搭建数据可视化大屏工作,同时,如果后续有更多个性化需求,更多人员接入,整个效果会有更好的提升。

图表识别与可视化界面识别的区别

整个技术内部最重要的是图表位置提取和生成可视化界面布局优化。在可视化领域,图表识别与可视化界面识别的区别在于,可视化界面识别不仅要识别图表是什么,同时要知道你的位置在哪里。

image.png

图表领域最原始的深度学习研究是斯坦福教授FeiFei Li和Jeffrey Heer发表的这篇文章,ReVision是把对应图表的特征提取出来,提取出来的便于机器理解的特征进行一个全链接层的映射,得到结果图形,但是并没有解决物体识别和位置识别。

image.png

因此,我们引入了物体识别模型如Faster R-CNN等,物体识别不仅知道你的物体在哪里,这样的模型应用于交通领域比较多,比如行人、车辆等,去年开始,我们与浙大在图表识别领域进行合作,得到了不错的效果。

image.png

深度学习和机器学习需要非常大的训练样本,我们在做相关的训练样本收集时,为了让我们的模型识别不同的风格,尽量让更多的参与者去参与,能够识别不同的风格。

image.png

如图就是一个训练样本,一个参与者绘制完不同的图表之后,对图表进行打标。为什么没有用随机的生成方式呢?因为让许多参与者参与需要大量的时间,能不能用随机的方式,比如有了图表之后,更换布局在一个空白的界面上随机放置,只要不重叠情况下就可以作为训练数据。我们最终没有使用这个方法,而是选择了DataV自己的数据,是因为我们相信可视化图表在界面中是有一定规律的,这也引入了我们对物体识别模型更多的算法和函数的思考和提高。

可视化界面的概率密度函数

image.png

可视化界面内部也有自己的概率密度,比如如图所示的大屏,title所在的位置一般都在图表的上半部分,地球map一般都会在屏幕中间,我们也是通过自己已有的数据进行概率密度的匹配和测试。

image.png

我们发现大部分的图表确实是有概率存在的,比如一些柱状图如果是横向柱状图,因为Y轴在图表左侧,所以横向柱状图更倾向于在整张大屏的左侧。

image.png

我们可以对深度学习模型做更高的优化。如图左侧是正常的深度学习模型,包括扔进图片之后经过训练得到一个结果,扔进一个数据可视化大屏进去得到具体信息,比如bar chart在屏幕什么位置,大小是什么,同时在这时进行概率密度的计算,我们会计算bar chart在某个位置的概率大概是多少,这就引入了后半部分Learning-Based Validation概率密度函数,引入此函数对整个模型准确率提升6%~7%左右。

返回到图中,当我知道在某处有一个bar chart或pie chart时,对bar chart 或 pie chart在这个位置的概率再进行一次计算,如果概率非常低,我就认为识别到的是错误的,相当于先有识别结果,但同时对识别结果再进行一次验证,这样对整个模型优化是非常大的。

image.png

同时我们也希望我们的产品不止能够识别电子版上的业务场景,同时也能够识别包括会议室内的数据分析,草图绘制也上传到马良,马良会在秒级内回复一个编辑好的数据可视化大屏。如果之前你有数据已经导入的情况下,可以很快地得到一个非常完善的可视化大屏。

image.png

无论是手绘稿识别还是设计稿识别,马良都遵循着如图几个步骤。首先会有一个图表识别,接下来会有一个颜色提取部分,第三步会被之前识别到的位置结果进行优化,最后基于之前收集到的数据可视化信息,生成一幅已选择的设计风格的数据可视化大屏。

主题色提取及赋予生成可视化界面的颜色

image.png

可视化界面颜色生成部分,我们做了主题色提取和色板生成。首先要提取背景色和主题色,同时依据背景色也会推荐字体颜色和其它辅助颜色,我们也会推荐不同的色板方案供大家参考。

image.png

有时,我们喜欢的图片不一定是数据可视化作品,可能只是一个音乐会或自然风光等不同场景,用这样的图片来生成数据可视化颜色,对此,我们也做了相应的工作,只要你上传任何图片,我们能够把图片风格的颜色设置到大屏中。

image.png

以上给大家介绍的更多的是依图生图的功能,我们现在也在做数据生图和风格迁移,底层使用的模型算法包括深度学习算法、机器学习算法和基础算法等,通过识别、回归和概率计算帮助上层的信息搭建。

image.png

图中彩色部分是马良现在做的部分,用户可以上传自己的可视化屏幕进行识别,整个识别是依据马良现有的模型,我们也在做马良的自动机器学习,使用户可以上传自己的图表,数据打标非常痛苦,可能上万张图片,马良作为迁移学习的模型后,相信大家可以只上传几十张上百张的图表就可以更针对的识别属于自己的数据可视化图表库。

image.png

我们从google上搜索不同的dashboard,随机的选取结果后拖下来由马良来生成,上面为原始数据可视化大屏,下面是由马良生成的数据可视化大屏。通过用户的反馈,我们了解到有一些生成的颜色和布局是优于原始可视化大屏的,这样的结果是激励我们前进。

现有场景中,很多厂商因为没有自己的能力,没有自己的专业的数据可视化设计团队,导致很多厂商的数据可视化从来不换。有了马良之后,我们希望至少快速帮助用户测试是否能够生成一个更好的更美的更适合的数据可视化模板。


image.png
关注「Alibaba F2E」
把握阿里巴巴前端新动向

相关实践学习
DataV Board用户界面概览
本实验带领用户熟悉DataV Board这款可视化产品的用户界面
阿里云实时数仓实战 - 项目介绍及架构设计
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
相关文章
|
7月前
|
数据采集 人工智能 数据可视化
Streamline Analyst: 基于LLMs、一键完成全流程的数据分析AI Agent 🚀
Streamline Analyst 🪄是一个开源的基于GPT-4这样的大语言模型的应用,目标简化数据分析中从数据清洗到模型测试的全部流程。分类预测、聚类、回归、数据集可视化、数据预处理、编码、特征选择、目标属性判断、可视化、最佳模型选择等等任务都不在话下。用户需要做的只有选择数据文件、选择分析模式,剩下的工作就可以让AI来接管了。所有处理后的数据和训练的模型都可下载。
527 2
Streamline Analyst: 基于LLMs、一键完成全流程的数据分析AI Agent 🚀
|
3月前
|
机器学习/深度学习 传感器 人工智能
AI与未来医疗:重塑健康管理新格局随着人工智能(AI)技术的飞速发展,医疗行业正迎来一场前所未有的变革。AI不仅在数据分析、诊断支持方面展现出巨大潜力,还在个性化治疗、远程医疗等多个领域实现了突破性进展。本文将探讨AI技术在医疗领域的具体应用及其对未来健康管理的影响。
人工智能(AI)正在彻底改变医疗行业的面貌。通过深度学习算法和大数据分析,AI能够迅速分析海量的医疗数据,提供精准的诊断和治疗建议。此外,AI在远程医疗、药物研发以及患者管理等方面也展现出了巨大的潜力。本文将详细探讨这些技术的应用实例,并展望其对健康管理的深远影响。
|
3月前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
67 0
|
4月前
|
存储 SQL 人工智能
AnalyticDB for MySQL:AI时代实时数据分析的最佳选择
阿里云云原生数据仓库AnalyticDB MySQL(ADB-M)与被OpenAI收购的实时分析数据库Rockset对比,两者在架构设计上有诸多相似点,例如存算分离、实时写入等,但ADB-M在多个方面展现出了更为成熟和先进的特性。ADB-M支持更丰富的弹性能力、强一致实时数据读写、全面的索引类型、高吞吐写入、完备的DML和Online DDL操作、智能的数据生命周期管理。在向量检索与分析上,ADB-M提供更高检索精度。ADB-M设计原理包括分布式表、基于Raft协议的同步层、支持DML和DDL的引擎层、高性能低成本的持久化层,这些共同确保了ADB-M在AI时代作为实时数据仓库的高性能与高性价比
|
5月前
|
机器学习/深度学习 人工智能 TensorFlow
🔥零基础逆袭!Python数据分析+机器学习:TensorFlow带你秒变AI大师
【7月更文挑战第29天】在这个数据驱动的时代,掌握Python与机器学习技能是进入AI领域的关键。即使从零开始,也能通过TensorFlow成为AI专家。
63 8
|
4月前
|
人工智能 供应链 数据挖掘
解锁商业数据金矿!AI Prompt秘籍:让你的数据分析秒变未来视野
【8月更文挑战第1天】在数据驱动的时代,AI Prompt技术正革新商业数据分析领域,使其从梦想变为现实。AI Prompt通过预设指令增强AI模型的任务执行能力,大幅提升数据处理效率与准确性。以零售业为例,借助AI Prompt技术,企业能迅速分析销售数据,预测市场趋势,并优化决策。示例代码展示了如何利用AI Prompt进行销售预测及库存调整建议,显著提升了预测精度和决策效率,为企业带来竞争优势。随着技术进步,AI Prompt将在商业智能中扮演更重要角色。
97 4
|
4月前
|
机器学习/深度学习 人工智能 供应链
💰钱途无量!掌握AI Prompt在商业数据分析中的5大赚钱技巧
【8月更文挑战第1天】在数据驱动的商业时代,掌握AI Prompt技术为企业开启财富之门。本文探讨通过AI Prompt实现商业数据分析中的五大赚钱技巧:1)精准市场预测,利用历史数据预测未来趋势;2)个性化营销,分析客户行为提高转化率;3)优化库存管理,智能调整采购计划降低成本;4)风险预警,实时监测并提出应对策略;5)数据洞察驱动创新,挖掘深层规律引领市场。掌握这些技巧,企业将在竞争中脱颖而出,实现商业价值最大化。
76 2
|
4月前
|
机器学习/深度学习 数据采集 人工智能
🔍深度揭秘!AI Prompt如何重塑商业数据分析,让决策快人一步
【8月更文挑战第1天】在数字化转型中,商业数据分析至关重要。AI Prompt技术作为智能分析的催化剂,通过自然语言指令高效处理大规模数据,挖掘深层信息,加速精准决策。基于深度学习等技术,分析师仅需简单Prompt即可自动完成从数据清洗到生成决策建议的全过程。例如,零售业可通过此技术快速分析销售数据,优化商品陈列。AI Prompt简化流程,降低门槛,使企业能迅速响应市场变化,有望成为商业分析的标准工具,引领高效决策的新时代。
67 2
|
4月前
|
人工智能 数据挖掘 Python
💡灵感爆发!AI Prompt创意引导,让商业数据分析报告也能讲故事
【8月更文挑战第1天】在商业领域, 数据分析报告常被视为枯燥的数据堆砌。但AI技术, 尤其是AI Prompt的创意引导功能, 正革新数据呈现方式。传统报告重准确性轻生动性; 而AI Prompt创意引导下的报告则如电影般, 通过故事化叙述使复杂洞察变得生动有趣。例如分析电商平台季节性销售时, AI Prompt可以生成主题为“穿越四季购物之旅”的创意指令, 将数据编织成引人入胜的故事篇章, 使读者不仅能获取商业洞察, 更能感受到数据背后的情感与温度, 大大提升报告的吸引力和传播力。这标志着数据分析报告新时代的到来。
78 0
|
5月前
|
机器学习/深度学习 人工智能 数据挖掘
从0到1构建AI帝国:PyTorch深度学习框架下的数据分析与实战秘籍
【7月更文挑战第30天】PyTorch以其灵活性和易用性成为深度学习的首选框架。
69 2