如何让AI写出高质量的数据分析报告?DataV-Note的评估体系揭秘

简介: 本文围绕DataV-Note智能分析创作平台的评估体系建设展开,旨在探索如何在AI技术快速发展的背景下,构建一套科学、可量化、多维度的数据分析报告评估体系。

一、前言

在AI技术蓬勃发展的时代浪潮中,我部门于两年前推出DataV-Note智能分析创作平台,通过提供数据分析洞察、行业数据分析报告、学术/医学研究报告的智能仿写等创新服务,致力于实现数据价值与文字表达的深度融合

DataV智能化生成大屏、数据地图、数据报告体验链接:https://datav.aliyun.com/ai

随着各类Data/Analyze Agent相继涌现,行业生态面临前所未有的市场压力。然而,来自销售团队与用户的实际反馈表明,这类智能工具仍面临两大核心问题:缺乏统一的评估标准,以及其判断准确性和技术成熟度的持续争议。这种认知差异不仅影响产品价值的有效传达,也给行业规范化发展带来重要挑战。


二、建立量化评估标准,构建评估模型

2.1、评估模型的目标确立

在构建评估模型前,我们需系统梳理其核心目标及应用场景,以细化后续系统设计工作:

  • 产品验证:建立可量化的准确度评估指标;输出符合行业标准的评估报告;
  • 竞品分析:通过多维度对比,生成差异化竞争力评估报告;
  • 自动化测试:对于模型的频繁切换、提示词优化、AI工程优化等需求进行回归测试评估;
  • 准确度提升:通过将评估模型深度嵌入产品优化闭环系统,动态校准原有智能体的幻觉;

2.2、评估模型的初步设计

(1)设计前言

在着手搭建评估模型前,我们先研究现有分析报告的产物,这将有助于更优雅地设计把握模型设计的架构:

以下图片是对自然灾害的分析报告部分片段

从上图可以看出,与传统评估模型侧重文字和数值判断不同,我们的评估体系覆盖了更立体的分析维度。评估范围不仅包含文本、图表、代码、表格,还延伸至整体分析框架和方法论。大多数的数据分析产品通常输出PDF、Word、PNG或HTML格式的产物。因此,我们设计的模型既需要识别多模态的内容,也需要支持读取丰富格式的导出产物。


(2)设计架构

经过综合考量,我们选用了Qwen VL模型负责内容提取,Qwen 3模型承担内容评估工作,并据此制定了以下技术架构方案:

(3)设计细节

在搭建评估系统时,我们经历了不少挑战,也摸索出不少改进方法。接下来重点分享其中几个关键细节

【1】细节一、视觉识别提示词调优

虽然市面上已有不少提示词优化工具和教程,但对于涉及视觉识别的任务来说,这些工具往往只能实现70-80分的水平。如下面例子所示,这类任务需要我们特别注意:

  • 完整描述视觉元素:清晰地描述所有的视觉元素,以及所有元素的特征;
  • 明确操作流程:将复杂任务拆解为可执行的步骤,每个可执行的步骤必须清楚、细致;
  • 严格的边界限制:以免幻觉和意外的结果发生;

视觉识别Prompt

## 角色
你是一位专业的图像分析专家,擅长从图片中提取图表、表格、代码和文字等类型的内容,并能够准确描述对应内容的详细信息和数值。

## 任务
### 任务1:提取图表类型的对应信息
  - 1、特别仔细的观察图片,图表的背景和报告的背景颜色明显不同
  - 2、识别图表的**图表类型**,可通过图表展示或者图表的上下文提示来进行识别,如柱状图、折线图、饼图等等
  - 3、识别图表的**标题**,假如图表上方出现加粗的字体,则为图表的标题,若没有图表上方加粗字体,则输出"无"
  - 4、识别图表的**元信息**,例如:柱状图需要识别x、y轴信息,饼图需要识别每个扇区的名称等等
  - 5、识别图表的**内容**,即图表的完整具体数据,数据只允许来源于图表识别,识别不出则输出"无法识别"

### 任务2:提取表格类型的对应信息
  - 1、识别表格的**元信息**,即表格的头部(columns)信息,数据只允许来源于表格识别,识别不出则输出"无法识别"
  - 2、识别表格的**内容**,即表格的具体数据,数据只允许来源于表格识别,识别不出则输出"无法识别"

### 任务3:提取代码类型的对应信息
  - 1、识别代码中的**类型**,请识别语言的类型,类型有"SQL"和"Python"
  - 2、识别代码中的**内容**

### 任务4:提取文字类型的对应信息
  - 1、识别代码中的**文字类型**,类型有"内容"、"注释"。注释一般是较小的字体,有可能伴随着斜体,颜色会比正常内容更浅
  - 2、识别代码中的**内容**,需要识别图上除了图表标题以为的所有问题

## 输出格式
- 参照以下例子的格式作为输出格式:
{
  '文件名': 'xxx',
  '标题': 'xxx',
  '正文': [{
    '章节标题': 'xxx',
    '内容': [{
      '类型': 'xx', // 类型为“图表”、“表格”、“代码”和“文字”等类型
      '内容': 'xxxx'
    }, {
      '类型': 'xx',
      '内容': '' 
    }, {
      '类型': 'xx', 
      '图表类型': 'xxx', // 只有“图表”类型有
      '标题': '',  // 只有“图表”类型有
      '元信息': '', // 只有“图表”类型有
      '内容': xxx, // “图表”类型中,内容输出json格式
    }] 
  }]
}

## 限制
- 只针对图片内容进行描述和分析,不涉及其他无关信息
- 提取信息过程忽略页头和页尾
- 必须按照图片报告的排版顺序进行解析
- 在描述图片时,确保信息的准确性和完整性
- 在提取“文字”信息时,确保文字的清晰度和可读性
- 在提取“图表”信息时,确保图表的信息准确性和完整性,必须输出所有内容,不能省略某些信息
- 在提取“图表”的“内容”字段信息时,内容可以根据所在章节的上下文进行数值校验,以文字描述为主
- 判断类型时,严格按照给定的类型进行分类
- 请再三检查,严格按标准的输出格式进行输出,输出的JSON格式不能有语法错误


【2】细节二、智能体的原子性

三心两意,对于打工人“牛马”都做不到,更何况现在“不太聪明”的智能体。因此,智能体必须保持原子性,主要体现到以下两点:

  • 功能/角色原子性:每个智能体都是相对独立的功能单元。例:不能让智能体既要做图片识别的工作又要评估的工作。
  • 维度/类别原子性:每个智能体都是单独维度、类别的单元。例:在“评估推理大师”的角色中,不能让大模型既要做“归因分析”的评估,又要做“可视化”的评估。

常见的误解:在设计智能体时要把握好切分的尺度,过度拆分会导致增加token消耗,又可能导致并发负载过高。举个实际场景,在分析报告时,"中位数"和"平均数"这类同属统计维度的概念,完全可以通过同一个智能体完成识别解析,没有必要拆分。


【3】细节三、输入数据过滤、清洗

输入数据的过滤、清洗尤为关键,主要体现为以下两点:

  • 千万不要用大模型来做数据清洗工作。大模型虽然擅长搜索和推理,但在处理数据清洗、字段拼接这类操作时效率较低,而且结果往往不如预期理想。
  • 遵循最小化原则。如【2】所述,每个智能体都是相对独立的功能单元,通过最小化数据输入既能减少token消耗,也能让模型更专注处理核心内容片段。

如下图所示,“归因分析评估智能体”主要聚焦于文本内容分析,“可视化评估智能体”则专注于图表识别。若直接将完整报告内容全部输入,不仅会显著增加各智能体的处理负担,导致token消耗激增,还可能引发模型输出偏差(幻觉)。建议通过内容切片、分类机制,按需输入对应模块所需数据,既能提升处理效率,又能保证分析准确性。

2.3、评估标准的建立

在实际体验中,当用户提问数次都未能获得有效反馈时,用户就很可能给这款AI产品判“死刑”。因此,在搭建评估体系时,必须从各个维度全面地评估产品,并且不能忽视大模型的随机性。具体来说,我采用两种评估方式:

  • 纵向评估:我会针对同一问题生成5-10份分析报告。以“基础维度”、“可视化维度”、“归因分析维度”来作为评估的维度,并且会给每一份报告打分。
  • 横向对比评估:将多份报告并列比对时,重点排查“主题”、“建议”、“核心指标”等异常的情况。

值得注意的是:在进行横向对比时,需要特别注意前提条件的严格把控,不能出现“牛头不搭马嘴”的情况。例:当我们比较核心指标时,必须确保统计维度、计算规则和业务背景都保持一致。


(1)纵向(单份报告评估)评估体系

考虑到篇幅限制,我将重点呈现"归因分析维度"的评估内容:

### 归因分析维度
* 数据统计维度
  * 内容:内容中是否存在“基础统计分析”、“分析特征”、“趋势变化分析”等维度进行分析;并输入其上下文
  * 评分:
    - 0分:否
    - 35分:是
* 关联分析维度
  * 内容:内容中是否存在“因素相关性”、“交叉分析”、“维度组合分析”、“地理、时间、群体、流程、成本、收益、技术等等维度对比”等维度进行分析;并输入其上下文
  * 评分:
    - 0分:否
    - 35分:是
* 异常拐点维度
  * 内容:内容中是否存在“数据异常点”、“特殊模式”、“变化拐点”等维度进行分析;并输入其上下文
  * 评分:
    - 0分:否
    - 5分:是
* 原因分析维度
  * 内容:内容中是否存在“直接原因”、“根本原因”、“关联因素”等维度进行相关分析;并输入其上下文
  * 评分:
    - 0分:否
    - 5分:是
* 影响评估维度
  * 内容:内容中是否存在“问题严重度”、“影响范围”、“持续时间”等维度进行相关分析;并输入其上下文
  * 评分:
    - 0分:否
    - 5分:是
* 机会识别维度
  * 内容:内容中是否存在“改进空间”、“优化机会”、“创新点”等维度进行相关分析;并输入其上下文
  * 评分:
    - 0分:否
    - 5分:是
* 行动建议维度
  * 内容:内容中是否存在“解决方案”、“实施路径”、“效果评估”等维度进行分析;并输入其上下文
  * 评分:
    - 0分:否
    - 5分:是
* 数理统计专业性
  * 内容:是否使用了专业数理统计分析理论,如“平均数、标准差、标准误、变异系数率、均方、检验推断、相关、回归、聚类分析、判别分析、主成分分析、正交试验、模糊数学、灰色系统理论、CAGR(复合增长率)、泰尔指数”、“斯皮尔曼相关性”、“皮尔逊相关系数矩阵”等等;并说明使用了什么数理统计分析理论
  * 评分:
    - 0分:否
    - 5分:是

(2)横向(多份报告对比评估)评估体系

### 异常对比维度
* 主题对比一致性
  * 内容:各份JSON数据之间的分析主题是否相似或统一;并输出对应文件中具体差异点
  * 评分:
    - 0分:否
    - 25分:是
* 结论对比一致性
  * 内容:各份JSON数据之间的结论或建议是否相似或统一;并输出对应文件中具体差异点
  * 评分:
    - 0分:否
    - 25分:是
* 核心指标对比一致性
  * 内容:各份JSON数据之间的“文字”类型的内容中,是否出现统计维度、计算方法、上下文含义完全相同的核心统计指标不一致;并输出对应文件中具体差异点
  * 评分:
    - 0分:是
    - 25分:否
* 图表对比一致性
  * 内容:各份JSON数据之间若存在元信息、图表类型、统计维度、标题含义、所在章节含义完全相同的图表,是否存在数值统计不一致的情况;并输出对应文件中具体差异点
  * 评分:
    - 0分:是;或不存在相同图表
    - 25分:否

2.4、评估结果

以下是针对同一个分析任务生成的5份报告,每份报告不仅包含评分结果,还附有具体评分依据的说明:

任务:分析下各省份、各单位不同时间的平均工资,并且如何为实现共同富裕,对工资进行优化。

以下是DataV-Note的部分测试结果展示,每个测试案例均基于5份独立生成的报告进行评分:

三、未来规划

3.1、接入自动化

当前我们仍需手动执行跨平台分析任务,并将结果导入评估系统。未来计划接入browser-user实现自动化大规模测试。

3.2、利用评估模型提高准确度

其次,我们计划将评估模型嵌入知识评估、RAG的环节中,以此增强数据分析模型的能力。


四、总结

通过本次评估系统搭建和日常分析报告的评估实践,我们发现尽管大模型展现出强大潜力,但在产品层面实现数据分析的精准把控仍面临诸多挑战。期待大家不吝赐教,共同探讨优化方案。



来源  |  阿里云开发者公众号

作者  |   无惟

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
阿里云实时数仓实战 - 用户行为数仓搭建
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求:熟练掌握 SQL 语法熟悉 Linux 命令,对 Hadoop 大数据体系有一定的了解   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
相关文章
|
10月前
|
人工智能 自然语言处理 数据可视化
AI 助手带你玩转数据分析!通义灵码保姆级教学 | 共学课2期上线
7月15日20:00,通义灵码联合WaytoAGI社区推出《AI助手带你玩转数据分析》公开课。零门槛、零代码,只需中文指令,即可完成数据读取、分析到报告生成全流程。告别代码恐惧,业务人员也能轻松掌握数据分析,提升职场竞争力。
380 0
|
人工智能 自然语言处理 Rust
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。
1279 0
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
|
7月前
|
人工智能 JSON 监控
三步构建AI评估体系:从解决“幻觉”到实现高效监控
AI时代,评估成关键技能。通过错误分析、归类量化与自动化监控,系统化改进AI应用,应对幻觉等问题。Anthropic与OpenAI均强调:评估是产品迭代的核心,数据驱动优于直觉,让AI真正服务于目标。
611 8
|
8月前
|
存储 人工智能 数据挖掘
StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来
StarRocks Connect 2025 聚焦“连接”,汇聚全球技术领袖,探讨数据分析的现在与未来。从性能引擎到AI Native平台,StarRocks 持续进化,赋能 Shopee、携程、Cisco 等企业实现高效实时分析,并推动开源生态与商业化协同发展。
|
10月前
|
人工智能 自然语言处理 数据可视化
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
 AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
|
12月前
|
人工智能 自然语言处理 Prometheus
不懂 PromQL,AI 智能体帮你玩转大规模指标数据分析
PromQL AI 智能体上线。本文将从自然语言生成 PromQL 实践视角,探讨如何构建知识库、与大模型进行交互、最终生成符合需求的 PromQL 语句。本文还介绍了在 MCP 和云监控控制台下使用 AI 智能体的用例。
796 51
|
9月前
|
人工智能 JSON 监控
从零开始构建AI Agent评估体系:12种LangSmith评估方法详解
AI Agent的评估需覆盖其整个生命周期,从开发到部署,综合考量事实准确性、推理路径、工具选择、结构化输出、多轮对话及实时性能等维度。LangSmith作为主流评估平台,提供了一套全面的评估框架,支持12种评估技术,包括基于标准答案、程序性分析及观察性评估。这些技术可有效监控Agent各组件表现,确保其在真实场景中的稳定性和可靠性。
3695 0
从零开始构建AI Agent评估体系:12种LangSmith评估方法详解
|
10月前
|
SQL 人工智能 自然语言处理
AI技术究竟怎样让企业数据分析效率和智能化大幅提升?
本文三桥君介绍了AI驱动的自然语言数据分析系统,通过AI Agents调度、大模型(LLM)生成SQL及检索增强(RAG)技术,实现从自然语言指令到可视化结果的全流程自动化。
270 4
|
10月前
|
传感器 人工智能 运维
AI驱动的智能设备健康评估系统究竟如何应对企业运维挑战?
AI驱动的智能设备健康评估系统通过人工智能技术实现设备状态的主动监测和预测性维护。该系统由Prompt规则库、评估任务触发机制、Agent执行等核心组件构成,能够自动获取数据、智能分析设备状态并生成可视化报告。相比传统运维方式,系统具有规则灵活定义、低成本集成、高阶智能分析等优势,适用于能耗监测、异常检测、预测性维护等多种工业场景。产品专家三桥君通过详细解析系统工作流程和实际案例,展示了如何帮助企业实现从"事后维护"到"预测性运维"的智能化转型。
472 0
|
人工智能 物联网 开发者
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。
1607 43
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台