做得好 ≠ 看得懂?DataV Note 量化标准给 AI 报告打分

简介: DataV数据可视化团队于2023年推出智能分析创作平台DataV-Note,融合数据分析与文字表达,提供洞察报告、行业分析及学术研究报告智能仿写服务。平台上线免费“数据报告智能生成”功能,助力智能数据决策。

AI 技术蓬勃发展的时代浪潮中,DataV 数据可视化团队于 2023 年推出 DataV-Note 智能分析创作平台,通过提供数据分析洞察、行业数据分析报告、学术/医学研究报告的智能仿写等创新服务,致力于实现数据价值与文字表达的深度融合。值得一提的是,我们在 DataV.AI 智能数据创作平台上正式上线了免费的「数据报告智能生成」服务,为用户提供更开放更智能的数据决策支持。

各类 Data/Analyze Agent 如春笋般相继涌现,然而用户的实际反馈表明,这类智能工具仍面临两大核心问题:缺乏统一的评估标准,以及其判断准确性和技术成熟度的持续争议。这种认知差异不仅影响产品价值的有效传达,也给行业规范化发展带来重要挑战。


640 - 2025-07-18T110846.891.png


一.建立量化评估标准,构建评估模型

1.评估模型的目标确立

在构建评估模型前,我们需系统梳理其核心目标及应用场景,以细化后续系统设计工作:

  • 产品验证:建立可量化的准确度评估指标;输出符合行业标准的评估报告;竞品分析:通过多维度对比,生成差异化竞争力评估报告
  • 自动化测试:对于模型的频繁切换、提示词优化、AI工程优化等需求进行回归测试评估
  • 准确度提升:通过将评估模型深度嵌入产品优化闭环系统,动态校准原有智能体的幻觉


2.评估模型的初步设计

① 设计前言

在着手搭建评估模型前,我们先研究现有分析报告的产物,这将有助于更优雅地设计把握模型设计的架构:(下图是对自然灾害的分析报告部分片段)


640 (68).jpg


从上图可以看出,与传统评估模型侧重文字和数值判断不同,我们的评估体系覆盖了更立体的分析维度。评估范围不仅包含文本、图表、代码、表格,还延伸至整体分析框架和方法论。大多数的数据分析产品通常输出 PDF、Word、PNG 或 HTML 格式的产物。因此,我们设计的模型既需要识别多模态的内容,也需要支持读取丰富格式的导出产物。

② 设计架构

经过综合考量,我们选用了 Qwen VL 模型负责内容提取,Qwen 3 模型承担内容评估工作,并据此制定了以下技术架构方案:


640 - 2025-07-18T111212.403.png


③ 设计细节 视觉识别提示词调优

虽然市面上已有不少提示词优化工具和教程,但对于涉及视觉识别的任务来说,这些工具往往只能实现 70-80 分的水平。如下面例子所示,这类任务需要我们特别注意:

  • 完整描述视觉元素:清晰地描述所有的视觉元素,以及所有元素的特征
  • 明确操作流程:将复杂任务拆解为可执行的步骤,每个可执行的步骤必须清楚、细致
  • 严格的边界限制:以免幻觉和意外的结果发生


视觉识别 Prompt:

## 角色
你是一位专业的图像分析专家,擅长从图片中提取图表、表格、代码和文字等类型的内容,并能够准确描述对应内容的详细信息和数值。
## 任务
### 任务1:提取图表类型的对应信息
  - 1、特别仔细的观察图片,图表的背景和报告的背景颜色明显不同
  - 2、识别图表的**图表类型**,可通过图表展示或者图表的上下文提示来进行识别,如柱状图、折线图、饼图等等
  - 3、识别图表的**标题**,假如图表上方出现加粗的字体,则为图表的标题,若没有图表上方加粗字体,则输出"无"
  - 4、识别图表的**元信息**,例如:柱状图需要识别x、y轴信息,饼图需要识别每个扇区的名称等等
  - 5、识别图表的**内容**,即图表的完整具体数据,数据只允许来源于图表识别,识别不出则输出"无法识别"
### 任务2:提取表格类型的对应信息
  - 1、识别表格的**元信息**,即表格的头部(columns)信息,数据只允许来源于表格识别,识别不出则输出"无法识别"
  - 2、识别表格的**内容**,即表格的具体数据,数据只允许来源于表格识别,识别不出则输出"无法识别"
### 任务3:提取代码类型的对应信息
  - 1、识别代码中的**类型**,请识别语言的类型,类型有"SQL"和"Python"
  - 2、识别代码中的**内容**
### 任务4:提取文字类型的对应信息
  - 1、识别代码中的**文字类型**,类型有"内容"、"注释"。注释一般是较小的字体,有可能伴随着斜体,颜色会比正常内容更浅
  - 2、识别代码中的**内容**,需要识别图上除了图表标题以为的所有问题
## 输出格式
- 参照以下例子的格式作为输出格式:
{
  '文件名': 'xxx',
  '标题': 'xxx',
  '正文': [{
    '章节标题': 'xxx',
    '内容': [{
      '类型': 'xx', // 类型为“图表”、“表格”、“代码”和“文字”等类型
      '内容': 'xxxx'
    }, {
      '类型': 'xx',
      '内容': '' 
    }, {
      '类型': 'xx', 
      '图表类型': 'xxx', // 只有“图表”类型有
      '标题': '',  // 只有“图表”类型有
      '元信息': '', // 只有“图表”类型有
      '内容': xxx, // “图表”类型中,内容输出json格式
    }] 
  }]
}
## 限制
- 只针对图片内容进行描述和分析,不涉及其他无关信息
- 提取信息过程忽略页头和页尾
- 必须按照图片报告的排版顺序进行解析
- 在描述图片时,确保信息的准确性和完整性
- 在提取“文字”信息时,确保文字的清晰度和可读性
- 在提取“图表”信息时,确保图表的信息准确性和完整性,必须输出所有内容,不能省略某些信息
- 在提取“图表”的“内容”字段信息时,内容可以根据所在章节的上下文进行数值校验,以文字描述为主
- 判断类型时,严格按照给定的类型进行分类
- 请再三检查,严格按标准的输出格式进行输出,输出的JSON格式不能有语法错误

③ 设计细节 智能体的原子性

三心两意,对于打工人“牛马”都做不到,更何况现在“不太聪明”的智能体。因此,智能体必须保持原子性,主要体现到以下两点:

  • 功能/角色原子性:每个智能体都是相对独立的功能单元。例:不能让智能体既要做图片识别的工作又要评估的工作。
  • 维度/类别原子性:每个智能体都是单独维度、类别的单元。例:在“评估推理大师”的角色中,不能让大模型既要做“归因分析”的评估,又要做“可视化”的评估。

常见的误解:在设计智能体时要把握好切分的尺度,过度拆分会导致增加token消耗,又可能导致并发负载过高。举个实际场景,在分析报告时,"中位数"和"平均数"这类同属统计维度的概念,完全可以通过同一个智能体完成识别解析,没有必要拆分

③ 设计细节 之 输入数据过滤、清洗

输入数据的过滤、清洗尤为关键,主要体现为以下两点:

  • 千万不要用大模型来做数据清洗工作。大模型虽然擅长搜索和推理,但在处理数据清洗、字段拼接这类操作时效率较低,而且结果往往不如预期理想。
  • 遵循最小化原则。如②所述,每个智能体都是相对独立的功能单元,通过最小化数据输入既能减少 token 消耗,也能让模型更专注处理核心内容片段。

如下图所示,“归因分析评估智能体”主要聚焦于文本内容分析,“可视化评估智能体”则专注于图表识别。若直接将完整报告内容全部输入,不仅会显著增加各智能体的处理负担,导致 Token 消耗激增,还可能引发模型输出偏差(幻觉)。建议通过内容切片、分类机制,按需输入对应模块所需数据,既能提升处理效率,又能保证分析准确性


640 (69).jpg


3.评估标准的建立

在实际体验中,当用户提问数次都未能获得有效反馈时,用户就很可能给这款 AI 产品判“死刑”。因此,在搭建评估体系时,必须从各个维度全面地评估产品,并且不能忽视大模型的随机性。具体来说,我采用两种评估方式:

  • 纵向评估:我会针对同一问题生成 5-10 份分析报告。以“基础维度”、“可视化维度”、“归因分析维度”来作为评估的维度,并且会给每一份报告打分。
  • 横向对比评估:将多份报告并列比对时,重点排查“主题”、“建议”、“核心指标”等异常的情况。

值得注意的是:在进行横向对比时,需要特别注意前提条件的严格把控,不能出现“牛头不搭马嘴”的情况。例:当我们比较核心指标时,必须确保统计维度、计算规则和业务背景都保持一致。

① 纵向(单份报告评估)评估体系


640 (70).jpg


考虑到篇幅限制,我将重点呈现"归因分析维度"的评估内容:

### 归因分析维度
* 数据统计维度
  * 内容:内容中是否存在“基础统计分析”、“分析特征”、“趋势变化分析”等维度进行分析;并输入其上下文
  * 评分:
    - 0分:否
    - 35分:是
* 关联分析维度
  * 内容:内容中是否存在“因素相关性”、“交叉分析”、“维度组合分析”、“地理、时间、群体、流程、成本、收益、技术等等维度对比”等维度进行分析;并输入其上下文
  * 评分:
    - 0分:否
    - 35分:是
* 异常拐点维度
  * 内容:内容中是否存在“数据异常点”、“特殊模式”、“变化拐点”等维度进行分析;并输入其上下文
  * 评分:
    - 0分:否
    - 5分:是
* 原因分析维度
  * 内容:内容中是否存在“直接原因”、“根本原因”、“关联因素”等维度进行相关分析;并输入其上下文
  * 评分:
    - 0分:否
    - 5分:是
* 影响评估维度
  * 内容:内容中是否存在“问题严重度”、“影响范围”、“持续时间”等维度进行相关分析;并输入其上下文
  * 评分:
    - 0分:否
    - 5分:是
* 机会识别维度
  * 内容:内容中是否存在“改进空间”、“优化机会”、“创新点”等维度进行相关分析;并输入其上下文
  * 评分:
    - 0分:否
    - 5分:是
* 行动建议维度
  * 内容:内容中是否存在“解决方案”、“实施路径”、“效果评估”等维度进行分析;并输入其上下文
  * 评分:
    - 0分:否
    - 5分:是
* 数理统计专业性
  * 内容:是否使用了专业数理统计分析理论,如“平均数、标准差、标准误、变异系数率、均方、检验推断、相关、回归、聚类分析、判别分析、主成分分析、正交试验、模糊数学、灰色系统理论、CAGR(复合增长率)、泰尔指数”、“斯皮尔曼相关性”、“皮尔逊相关系数矩阵”等等;并说明使用了什么数理统计分析理论
  * 评分:
    - 0分:否
    - 5分:是

② 横向(多份报告对比评估)评估体系


640 (71).jpg


### 异常对比维度
* 主题对比一致性
  * 内容:各份JSON数据之间的分析主题是否相似或统一;并输出对应文件中具体差异点
  * 评分:
    - 0分:否
    - 25分:是
* 结论对比一致性
  * 内容:各份JSON数据之间的结论或建议是否相似或统一;并输出对应文件中具体差异点
  * 评分:
    - 0分:否
    - 25分:是
* 核心指标对比一致性
  * 内容:各份JSON数据之间的“文字”类型的内容中,是否出现统计维度、计算方法、上下文含义完全相同的核心统计指标不一致;并输出对应文件中具体差异点
  * 评分:
    - 0分:是
    - 25分:否
* 图表对比一致性
  * 内容:各份JSON数据之间若存在元信息、图表类型、统计维度、标题含义、所在章节含义完全相同的图表,是否存在数值统计不一致的情况;并输出对应文件中具体差异点
  * 评分:
    - 0分:是;或不存在相同图表
    - 25分:否

4.评估结果

以下是针对同一个分析任务生成的 5 份报告,每份报告不仅包含评分结果,还附有具体评分依据的说明:

任务:分析下各省份、各单位不同时间的平均工资,并且如何为实现共同富裕,对工资进行优化。


640 (72).jpg


以下是 DataV-Note 的部分测试结果展示,每个测试案例均基于 5 份独立生成的报告进行评分:

640 (73).jpg


二.从评估到进化

通过评估体系的落地实践,我们深刻认识到:大模型虽展现出强大的分析潜力,但要实现产品级的数据精准洞察,仍需攻克准确性校验与稳定性控制的核心挑战。通过将评估模型深度融入知识加工与RAG(检索增强生成)流程,不仅能构建“生成-评估-优化”的闭环系统,更能为数据分析模型注入持续进化的能力,推动智能分析从“可用”向“可靠”跃迁。


640 (74).jpg


640 (75).jpg

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
阿里云实时数仓实战 - 用户行为数仓搭建
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求:熟练掌握 SQL 语法熟悉 Linux 命令,对 Hadoop 大数据体系有一定的了解   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
相关文章
|
SQL 人工智能 自然语言处理
DataV Note:让Jupyter Notebook绽放新活力
分享阿里云旗下的一款基于Jupyter底座的工具(DataV Note,智能分析文档)给大家。这是一款以Notebook文档形式为基础、由强大AI模型驱动的智能分析、允许多人协作的数据可视分析平台。
642 155
|
5月前
|
人工智能 测试技术 开发工具
如何将 AI 代码采纳率从30%提升到80%?
AI编码采纳率低的根本原因在于人类期望其独立完成模糊需求,本文提出了解决之道,讲解如何通过结构化文档和任务拆解提高AI的基础可靠性。
1331 24
|
4月前
|
存储 消息中间件 Kafka
Confluent 首席架构师万字剖析 Apache Fluss(一):核心概念
Apache Fluss是由阿里巴巴与Ververica合作开发的Flink表存储引擎,旨在提供低延迟、高效率的实时数据存储与变更日志支持。其采用TabletServer与CoordinatorServer架构,结合RocksDB和列式存储,实现主键表与日志表的统一管理,并通过客户端抽象整合湖仓历史数据,弥补Paimon在实时场景下的性能短板。
689 22
Confluent 首席架构师万字剖析 Apache Fluss(一):核心概念
人工智能 关系型数据库 分布式数据库
379 19
|
6月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
730 23
人工智能 安全 IDE
586 31
|
5月前
|
SQL 传感器 人工智能
生成更智能,调试更轻松,SLS SQL Copilot 焕新登场!
阿里云日志服务(SLS)推出智能分析助手 SLS SQL Copilot,融合 AI 技术与日志分析最佳实践,将自然语言转换为 SQL 查询,降低使用门槛,提升查询效率。其具备原生集成、智能语义理解与高效执行能力,助力用户快速洞察日志数据价值,实现智能化日志分析新体验。
320 1
|
3月前
|
数据采集 弹性计算 运维
云服务诊断:一键定位异常,快速恢复业务
云服务诊断是阿里云推出的免费运维工具,提供“资源健康状态”和“问题诊断”两大功能。可精准监控每个实例的健康状况,支持一键全量诊断与常见问题场景快速排查,帮助用户迅速定位并修复ECS、SLB、EIP等资源异常,提升运维效率,保障业务稳定运行。
378 21
|
7月前
|
数据采集 人工智能 自然语言处理
DistillQwen-ThoughtY:通过变长思维链蒸馏,全面提升模型推理能力!
阿里云 PAI 团队基于 EasyDistill 框架,创新性地采用推理冗余度(RV)和认知难度(CD)双指标筛选机制,实现思维链与模型能力的精准匹配,发布新一代推理模型 DistillQwen-ThoughtY。相关模型和数据集已在 hugging face/ModelScope 等开源社区开放,配套 EasyDistill 框架支持高效知识蒸馏。近期内将推出 DistillQwen-ThoughtY 模型在 PAI-ModelGallery 的一键部署、训练和评测实践。