StartDT_AI_Lab | 开启“数据+算法”定义的新世界

简介: 栏目围绕视觉智能引擎、商业洞察引擎和业务决策引擎,介绍算法技术及背后故事。

继「数据中台技术汇」栏目推出以来,获得了不少技术极客的喜爱。作为AI驱动的数据中台创导者,深度关注核心算法技术的自研创新、融合探索,故推出全新AI算法栏目「StartDT_AI_Lab」,主要介绍算法团队所承担的角色与工作。本文先回顾这些年大数据之路,帮大家理解在奇点云发展过程中,人工智能技术是如何由业务需求孵化并成长为产品一部分的,同时为今后的分享内容做一个宏观概述。

2013年,一本《大数据》成了不少技术人案头必备的读物。它像是一盏照灯,将数字世界的完整尺度突然照亮,这时大家才意识到原来数字世界已经长如此大了。

从彼时起,大数据成了之后几年最热门的话题。随之而出的各类概念,如“DT时代”、“云计算”、 “DMP”等等,层出不穷。而其中的核心要素就是 “数据” ,数据两字似乎已成为技术界的圭臬。很多人将这次由大数据而带起的技术革新浪潮誉为“第四次工业革命”,而将数据比喻为本次工业革命的 “石油”。恍惚间,颇有 “得之则生,弗得则死”之意。随后几年,各家公司都掀起了“囤数据”运动,凡是能存入硬盘的,绝不删除。“不管现在有用没用,先存着,未来一定有用”的观念,成了各家公司CIO、CDO们的指导思想。

然而,在“囤数据”运动方兴未艾,正推着硬盘价格也一路上涨的发展进程中,却有一个声音如幽灵般飘来,并日渐响亮:数据无用!这声音来自于这一运动中“出师未捷身先死”的烈士们,他们曾是“大数据”最忠实的拥趸,却在数据价值的追寻中日趋迷茫,最终被“囤数据”、“开采数据”所带来的成本飙涨压垮。

数据有用还是无用,成了一个可以讨论的辩题。双方各执一词,谁也说服不了谁,共同在这DT时代吐出了这样一句饱含憧憬却无奈的叹息:

如果你爱他,请给他数据,因为数据为王。

如果你恨他,请给他数据,因为数据为亡。

那么数据到底有没有用呢?不妨从奇点云多年积累的数据经验视角,我们一起来认真审视一下。

如果只是裸数据本身,可能确实是用处不大,正如汽车无法通过灌注原油驱动一样。

所以从数据中提取的信息才有用是吗?也不尽然,因为提取出来的信息大都支离破碎,并无法直接洞察商业情报。那么从信息中组合分析得出的商业情报才是价值点?还不够,因为情报本身如果不能转化为决策去执行,再多的情报也无法带来收益。

那以情报为依据,通过业务经验分析判断进行决策,是否就是DT时代的智能商业呢?还不完整,因为同一业务问题,解法是多元的,决策还需有效评估与优化迭代才能补全数据回环。

现在,一幅比较完整的数据转化利用的回环已经形成,而这也是我们的使命「让商业更智能」背后的方法论。

_1_

有了这一方法论为依归,整体建设思路也就基本明晰了。目前大家在已有的文章中,已知道我们的Simba和数据中台,其在商业智能化回环中的位置如下图所示:

_2

显然,这一产品架构并没有覆盖整条商业智能化回环。尤其,从我们的愿景出发,帮助实体商家拥有淘宝一样的数据化运营能力,其中很重要的一点是帮助实体商家把线下非数字化、非结构化的各类商业场景数字化、结构化并上云,否则商业智能化回环将无法覆盖实体商家的主要商业场景,所谓的商业效益的提升也就无从谈起了。这其中缺失的便是本文介绍的重点,也是「StartDT_AI_Lab」的主体工作。为了实现覆盖实体商家全面商业场景的完整商业智能化回环而特别研发的三大智能化引擎。其在产品架构中的位置如下:

_3

现在简单为大家介绍一下这三大引擎。

视觉智能引擎,作为数据入口,显然是重中之重。其肩负着为数字世界开疆拓土的重任,有点石成金,化水为油之魔力。

在对其进行产品定义时,我们主要从三个必然和两个凡是对其进行了概念描述:

在战略意义层面:

达成公司愿景的必然前提。

·将实体商家线下场景进行数字化并上线。

线下场景在数字化改造中对于实施成本,部署难度,复制性,易用性等方面要求下的必然要求。

信息革命浪潮中的必然途径。

·拓展互联网,万物互联,全部在线。

在产品定义层面:

凡是实体商家数字化场景需要的。

凡是计算机视觉技术可以发挥比较优势的。

在产品功能定义方面:

可回溯实时多级标签策略

·基础单元->单元属性->行业行为属性->情报摘要,例如人为一级标签,穿着衣饰为二级,是否 试穿某服装为三级,当天这件服装试穿客户的画像分析是四级;

·有业务分析需求反向要求线下数字化;

视频检索

可以回溯视频检索,例如要抽取二级标签相关的信息,只需要根据一级标签的时序、位置信息进行结构化升级和搜索即可;

Vision AI + X:从行业中来的特异性视觉模型

比如“双偷模型”这样的特异模型;

而关于商业洞察引擎和业务决策引擎,在之前的中台栏目中已做过相关介绍,在此不再赘述,只做一点补充。在两个引擎中广泛使用的大数据分析和预测模型得益于视觉智能引擎提供的线下场景数字化后的结构数据,形成了一系列紧贴实体商家实际商业逻辑和经验的特有的大数据模型。

从今日起,本栏目将围绕这三大引擎,自下而上逐一介绍其建构中用到的各类型算法技术和背后的故事,敬请期待!

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
4月前
|
消息中间件 人工智能 Kafka
AI 时代的数据通道:云消息队列 Kafka 的演进与实践
云消息队列 Kafka 版通过在架构创新、性能优化与生态融合等方面的突破性进展,为企业构建实时数据驱动的应用提供了坚实支撑,持续赋能客户业务创新。
511 46
|
5月前
|
消息中间件 人工智能 运维
事件驱动重塑 AI 数据链路:阿里云 EventBridge 发布 AI ETL 新范式
“一个简单的数据集成任务,开始时总是轻松愉快的,但随着业务扩展,数据源越来越多,格式越来越乱,整个数据链路就会变得一团糟。”陈涛在演讲中指出了当前 AI 数据处理的普遍困境。扩展难、运维难、稳定性差,这三大挑战已成为制约 AI 应用创新和落地的关键瓶颈。针对这些痛点,在2025云栖大会期间,阿里云重磅发布了事件驱动 AI ETL 新范式,其核心产品 EventBridge 通过深度集成 AI 能力,为开发者提供了一套革命性的解决方案,旨在彻底改变 AI 时代的数据准备与处理方式。
509 39
|
4月前
|
机器学习/深度学习 算法 前端开发
别再用均值填充了!MICE算法教你正确处理缺失数据
MICE是一种基于迭代链式方程的缺失值插补方法,通过构建后验分布并生成多个完整数据集,有效量化不确定性。相比简单填补,MICE利用变量间复杂关系,提升插补准确性,适用于多变量关联、缺失率高的场景。本文结合PMM与线性回归,详解其机制并对比效果,验证其在统计推断中的优势。
1384 11
别再用均值填充了!MICE算法教你正确处理缺失数据
|
4月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
5528 76
|
4月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
209 0
|
4月前
|
机器学习/深度学习 人工智能 监控
拔俗AI智能营运分析助手软件系统:企业决策的"数据军师",让经营从"拍脑袋"变"精准导航"
AI智能营运分析助手打破数据孤岛,实时整合ERP、CRM等系统数据,自动生成报表、智能预警与可视化决策建议,助力企业从“经验驱动”迈向“数据驱动”,提升决策效率,降低运营成本,精准把握市场先机。(238字)
168 0
|
4月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
371 0
|
4月前
|
机器学习/深度学习 人工智能 算法
拔俗AI智能营运分析助手:用技术破解企业“数据焦虑”
AI智能营运分析助手破解企业“数据多却难洞察”难题,通过自动化集成、定制化模型、可视化输出,助力中小企业实现低门槛数据驱动决策,提升营运效率与精准度。
184 0
|
4月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI体征营养指导系统:从数据到建议的技术闭环
AI如何读懂身体并给出科学营养建议?本文从开发者视角揭秘三大核心技术:多源异构数据融合,构建个性化推荐引擎,以及反馈驱动的持续学习系统。通过打通“感知-决策-反馈”闭环,AI真正实现千人千面的动态营养指导,成为可进化的健康伙伴。(238字)
200 0