StartDT_AI_Lab | 开启“数据+算法”定义的新世界

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 栏目围绕视觉智能引擎、商业洞察引擎和业务决策引擎,介绍算法技术及背后故事。

继「数据中台技术汇」栏目推出以来,获得了不少技术极客的喜爱。作为AI驱动的数据中台创导者,深度关注核心算法技术的自研创新、融合探索,故推出全新AI算法栏目「StartDT_AI_Lab」,主要介绍算法团队所承担的角色与工作。本文先回顾这些年大数据之路,帮大家理解在奇点云发展过程中,人工智能技术是如何由业务需求孵化并成长为产品一部分的,同时为今后的分享内容做一个宏观概述。

2013年,一本《大数据》成了不少技术人案头必备的读物。它像是一盏照灯,将数字世界的完整尺度突然照亮,这时大家才意识到原来数字世界已经长如此大了。

从彼时起,大数据成了之后几年最热门的话题。随之而出的各类概念,如“DT时代”、“云计算”、 “DMP”等等,层出不穷。而其中的核心要素就是 “数据” ,数据两字似乎已成为技术界的圭臬。很多人将这次由大数据而带起的技术革新浪潮誉为“第四次工业革命”,而将数据比喻为本次工业革命的 “石油”。恍惚间,颇有 “得之则生,弗得则死”之意。随后几年,各家公司都掀起了“囤数据”运动,凡是能存入硬盘的,绝不删除。“不管现在有用没用,先存着,未来一定有用”的观念,成了各家公司CIO、CDO们的指导思想。

然而,在“囤数据”运动方兴未艾,正推着硬盘价格也一路上涨的发展进程中,却有一个声音如幽灵般飘来,并日渐响亮:数据无用!这声音来自于这一运动中“出师未捷身先死”的烈士们,他们曾是“大数据”最忠实的拥趸,却在数据价值的追寻中日趋迷茫,最终被“囤数据”、“开采数据”所带来的成本飙涨压垮。

数据有用还是无用,成了一个可以讨论的辩题。双方各执一词,谁也说服不了谁,共同在这DT时代吐出了这样一句饱含憧憬却无奈的叹息:

如果你爱他,请给他数据,因为数据为王。

如果你恨他,请给他数据,因为数据为亡。

那么数据到底有没有用呢?不妨从奇点云多年积累的数据经验视角,我们一起来认真审视一下。

如果只是裸数据本身,可能确实是用处不大,正如汽车无法通过灌注原油驱动一样。

所以从数据中提取的信息才有用是吗?也不尽然,因为提取出来的信息大都支离破碎,并无法直接洞察商业情报。那么从信息中组合分析得出的商业情报才是价值点?还不够,因为情报本身如果不能转化为决策去执行,再多的情报也无法带来收益。

那以情报为依据,通过业务经验分析判断进行决策,是否就是DT时代的智能商业呢?还不完整,因为同一业务问题,解法是多元的,决策还需有效评估与优化迭代才能补全数据回环。

现在,一幅比较完整的数据转化利用的回环已经形成,而这也是我们的使命「让商业更智能」背后的方法论。

_1_

有了这一方法论为依归,整体建设思路也就基本明晰了。目前大家在已有的文章中,已知道我们的Simba和数据中台,其在商业智能化回环中的位置如下图所示:

_2

显然,这一产品架构并没有覆盖整条商业智能化回环。尤其,从我们的愿景出发,帮助实体商家拥有淘宝一样的数据化运营能力,其中很重要的一点是帮助实体商家把线下非数字化、非结构化的各类商业场景数字化、结构化并上云,否则商业智能化回环将无法覆盖实体商家的主要商业场景,所谓的商业效益的提升也就无从谈起了。这其中缺失的便是本文介绍的重点,也是「StartDT_AI_Lab」的主体工作。为了实现覆盖实体商家全面商业场景的完整商业智能化回环而特别研发的三大智能化引擎。其在产品架构中的位置如下:

_3

现在简单为大家介绍一下这三大引擎。

视觉智能引擎,作为数据入口,显然是重中之重。其肩负着为数字世界开疆拓土的重任,有点石成金,化水为油之魔力。

在对其进行产品定义时,我们主要从三个必然和两个凡是对其进行了概念描述:

在战略意义层面:

达成公司愿景的必然前提。

·将实体商家线下场景进行数字化并上线。

线下场景在数字化改造中对于实施成本,部署难度,复制性,易用性等方面要求下的必然要求。

信息革命浪潮中的必然途径。

·拓展互联网,万物互联,全部在线。

在产品定义层面:

凡是实体商家数字化场景需要的。

凡是计算机视觉技术可以发挥比较优势的。

在产品功能定义方面:

可回溯实时多级标签策略

·基础单元->单元属性->行业行为属性->情报摘要,例如人为一级标签,穿着衣饰为二级,是否 试穿某服装为三级,当天这件服装试穿客户的画像分析是四级;

·有业务分析需求反向要求线下数字化;

视频检索

可以回溯视频检索,例如要抽取二级标签相关的信息,只需要根据一级标签的时序、位置信息进行结构化升级和搜索即可;

Vision AI + X:从行业中来的特异性视觉模型

比如“双偷模型”这样的特异模型;

而关于商业洞察引擎和业务决策引擎,在之前的中台栏目中已做过相关介绍,在此不再赘述,只做一点补充。在两个引擎中广泛使用的大数据分析和预测模型得益于视觉智能引擎提供的线下场景数字化后的结构数据,形成了一系列紧贴实体商家实际商业逻辑和经验的特有的大数据模型。

从今日起,本栏目将围绕这三大引擎,自下而上逐一介绍其建构中用到的各类型算法技术和背后的故事,敬请期待!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
21小时前
|
存储 移动开发 算法
【狂热算法篇】解锁数据潜能:探秘前沿 LIS 算法
【狂热算法篇】解锁数据潜能:探秘前沿 LIS 算法
|
23小时前
|
人工智能 BI
【瓴羊数据荟】 AI x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
瓴羊「数据荟」Meet Up城市行系列活动第四期活动将于3月7日在上海举办,由中国信息通信研究院与阿里巴巴瓴羊专家联袂呈现,共同探讨AI时代的数据应用实践与企业智能DNA的革命性重构。
【瓴羊数据荟】  AI  x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
|
3天前
|
机器学习/深度学习 算法 搜索推荐
联邦学习的未来:深入剖析FedAvg算法与数据不均衡的解决之道
随着数据隐私和数据安全法规的不断加强,传统的集中式机器学习方法受到越来越多的限制。为了在分布式数据场景中高效训练模型,同时保护用户数据隐私,联邦学习(Federated Learning, FL)应运而生。它允许多个参与方在本地数据上训练模型,并通过共享模型参数而非原始数据,实现协同建模。
|
3天前
|
算法 Serverless 数据处理
从集思录可转债数据探秘:Python与C++实现的移动平均算法应用
本文探讨了如何利用移动平均算法分析集思录提供的可转债数据,帮助投资者把握价格趋势。通过Python和C++两种编程语言实现简单移动平均(SMA),展示了数据处理的具体方法。Python代码借助`pandas`库轻松计算5日SMA,而C++代码则通过高效的数据处理展示了SMA的计算过程。集思录平台提供了详尽且及时的可转债数据,助力投资者结合算法与社区讨论,做出更明智的投资决策。掌握这些工具和技术,有助于在复杂多变的金融市场中挖掘更多价值。
25 12
|
6天前
|
人工智能 自然语言处理 数据可视化
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
172 9
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
|
8天前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
73 14
|
8天前
|
人工智能 Linux 开发工具
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
439 7
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
|
21小时前
|
机器学习/深度学习 算法 数据可视化
基于线性核函数的SVM数据分类算法matlab仿真
本程序基于线性核函数的SVM算法实现数据分类,使用MATLAB2022A版本运行。程序生成随机二维数据并分为两组,通过自定义SVM模型(不依赖MATLAB工具箱)进行训练,展示不同惩罚参数C下的分类结果及决策边界。SVM通过寻找最优超平面最大化类别间隔,实现高效分类。 核心代码包括数据生成、模型训练和结果可视化,最终绘制了两类数据点及对应的决策边界。此实现有助于理解SVM的工作原理及其在实际应用中的表现。
|
2天前
|
算法
基于遗传优化算法的风力机位置布局matlab仿真
本项目基于遗传优化算法(GA)进行风力机位置布局的MATLAB仿真,旨在最大化风场发电效率。使用MATLAB2022A版本运行,核心代码通过迭代选择、交叉、变异等操作优化风力机布局。输出包括优化收敛曲线和最佳布局图。遗传算法模拟生物进化机制,通过初始化、选择、交叉、变异和精英保留等步骤,在复杂约束条件下找到最优布局方案,提升风场整体能源产出效率。
|
2天前
|
算法 安全 机器人
基于包围盒的机械臂防碰撞算法matlab仿真
基于包围盒的机械臂防碰撞算法通过构建包围盒来近似表示机械臂及其环境中各实体的空间占用,检测包围盒是否相交以预判并规避潜在碰撞风险。该算法适用于复杂结构对象,通过细分目标对象并逐级检测,确保操作安全。系统采用MATLAB2022a开发,仿真结果显示其有效性。此技术广泛应用于机器人运动规划与控制领域,确保机器人在复杂环境中的安全作业。

热门文章

最新文章