云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相

image.png

“当大模型不再关注刷榜时,AGI或许才真正到来 ......”

9月26日,位于杭州云栖小镇的“2025云栖大会评测标注分论坛”上,阿里巴巴AI数据总经理魏虎(空望),正式发布了阿里巴巴新一代的大模型评测平台“晓天衡宇”SKYLENAGE,以及分别针对数学竞赛、数学推理与游戏代码生成三大高难度领域的创新评测集:SKYLENAGE-Math、SKYLENAGE-ReasoningMath和SKYLENAGE-GameCodeGym。

image.png

这场主题为“繁星共绘:构建开放的AI评测标注新生态”的论坛,汇聚了来自北京大学、北京电影学院、Innodata、Turing等顶尖院校与机构的专家学者,以及海内外数十家大模型数据服务商,共同围绕大模型评测与数据标注的前沿发展、国际实践与行业挑战展开深度对话,聚焦AI评测与数据标注的技术突破与生态共建,加速推进模型评测与标注的标准化、专业化和国际化进程,为人工智能的高质量发展提供了交流的舞台。

晓天衡宇:以评测驱动AI进化

传统基准评测已难以匹配AGI发展的速度与复杂性,正面临数据污染、评估维度单一、滞后于技术迭代等多重挑战。魏虎(空望)在论坛演讲中指出,亟需构建一个系统、客观、权威的评测体系,打造以“评测驱动”为核心的高质量数据飞轮机制,让评测不仅是衡量AI能力的尺子,更要成为推动AI持续进化的重要引擎。

image.png

高质量、高难度、高专业度的标注与动态评测体系,是实现模型持续进化的重要前提。通过高考真题、IMO竞赛题等实战案例,阿里巴巴的AI数据团队展示了其敏捷、深度的评测能力,“晓天衡宇”SKYLENAGE应运而生。

image.png

“晓”与“衡”,象征着评测的清晰洞察和聚焦分析,代表着智慧、经验和公正的判断;“天”与“宇”,则表明了这一评测平台的广阔视野和宏大格局。这既是一把衡量AI模型的“高度”与“深度”的“量天之尺”,也是客观评测模型优劣的“高悬明镜”。

作为一个全领域评测体系,SKYLENAGE广泛覆盖语言理解与安全、多模态生成、AI4Science、行业任务、智能体决策与具身交互以及产品体验等维度,旨在通过开放可复现的基准与真实环境模拟,为模型的研发、选型与应用提供可靠参考,推动AGI健康、可信发展。

繁星共绘:从技术挑战到生态共建

来自北京大学王选计算机研究所的万小军教授,在云栖大会的舞台上指出,评测是引导大模型技术发展的“灯塔”,但当前正面临着数据失效、敏感、污染与评测困难等诸多问题。评测技术也正朝着自动化构建与动态更新、污染检测、训练专用评测/奖励模型、效用驱动以及人机协同等方向快速发展。构建可靠、高效、可解释的评测体系,是实现大模型健康发展和可信应用的关键所在。

image.png

北京电影学院摄影系副系主任齐虹教授,从资深导演与教育者的双重视角出发,以优酷AIGC作品《大唐狄公案》《闪耀吧!大运河》为例,阐述多模态视频生成亟需融入专业艺术评价维度,呼吁建立覆盖叙事、光影、运镜等维度的权威评测基准,以推动AIGC在影视领域的深度应用,共同迎接智能影视新时代的到来。

image.png

Innodata首席语言数据科学家Jonathan Steuck博士,在大会上分享了从全球视角出发的评测机遇与挑战。Jonathan认为,AI评估体系正经历三大关键演变:从评估单一文本生成转向复杂智能体与多用例协同;从依赖人工通用评估发展为“领域专家+大模型”协同的AI增强评估;从以美国为中心的标准转向多元文化对齐。

image.png

如何定义全面的大模型评测维度,是需要全球共同面对的技术难题,Turing技术副总裁Kai Du分享了其团队为前沿AI实验室构建专业领域评估基准的最新实践。通过高度自动化的数据生成与严格质量审查流程,Turing在三个月内高效构建了超过2000个高质量数据点,涵盖Verilog RTL设计、CUDA内核开发等多个硬科技领域,覆盖从代码生成到系统集成的多样任务,彰显专业评估对技术闭环的关键价值。

image.png

突破边界:三大创新评测集重磅亮相

论坛的最后迎来了关键的高潮,魏虎(空望)再次上台,正式发布了三大创新评测集,分别是面向高难度数学竞赛的评测集SKYLENAGE-Math,数学推理评测集SKYLENAGE-ReasoningMath,与业内首个系统性、细粒度的游戏代码生成评测数据集SKYLENAGE-GameCodeGym。

image.png

三大评测集凭借原创题目、严密体系与多维度自动化评估机制,有效应对数据污染、过程幻觉与评分脆弱等问题,为大模型能力评估提供更科学、权威且贴合真实场景的衡量标准,助力大模型在专业领域持续突破与可靠发展。

共建开放、权威的评测与标注生态

本次分论坛,海内外一同携手,系统梳理了大模型评测与数据标注的核心挑战与创新路径,展示了多项领先的方案与实践成果,为AI技术健康发展注入新动力。

image.png

当我们展望未来,或许终有一日,人工智能将强大到不再需要外在的尺度去衡量它——但当下的每一步评测探索,无不是在为那个真正智能时代的到来,铺设最后也是最关键的一段路基。唯有共建开放、协作、权威的评测标注生态,人工智能才能在公平、透明、高效的机制中稳步向前,最终赋能千行百业的根本性变革。

目录
相关文章
|
2月前
|
人工智能 监控 安全
人体姿态[站着、摔倒、坐、深蹲、跑]检测数据集(6000张图片已划分、已标注)| AI训练适用于目标检测
本数据集包含6000张已标注人体姿态图片,覆盖站着、摔倒、坐、深蹲、跑五类动作,按5:1划分训练集与验证集,标注格式兼容YOLO等主流框架,适用于跌倒检测、健身分析、安防监控等AI目标检测任务,开箱即用,助力模型快速训练与部署。
|
2月前
|
人工智能 监控 算法
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含9000张已标注、已划分的行人图像,适用于人群计数与目标检测任务。支持YOLO等主流框架,涵盖街道、商场等多种场景,标注精准,结构清晰,助力AI开发者快速训练高精度模型,应用于智慧安防、人流统计等场景。
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
|
2月前
|
人工智能 运维 Cloud Native
2025 云栖精选资料:《从云原生到 AI 原生核心技术与最佳实践》PPT 免费下载
一本合集,四大主题,覆盖 AI 原生技术的核心版图。立即获取,与行业领跑者同行,抢占 AI 原生时代的技术先机!
|
3月前
|
人工智能 监控 搜索推荐
给RAG打分:小白也能懂的AI系统评测全攻略
RAG系统评估听起来高深,其实跟我们生活中的'尝鲜评测'没啥两样!本文用轻松幽默的方式,带你从检索质量、生成质量到用户体验,全方位掌握如何科学评测RAG系统,避免踩坑,让你的AI应用又快又准。#RAG技术 #AI评估 #信息检索 #大模型 #数据科学
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1431 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
人工智能 API 开发工具
AskTable:可嵌入任何系统的 AI 数据智能体引擎
AskTable 是一款以 Table 为核心的数据 AI 基础设施。它通过标准化 API、SDK、iFrame 与智能体协议(MCP),让 AI 能直接理解、查询和分析表格数据,轻松嵌入企业现有系统。 AskTable 提供从数据接入、语义分析到可视化生成的完整能力,可无缝集成至网页、移动端、钉钉、企业微信或 Dify/HiAgent 等智能体平台。
450 157
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer架构:重塑现代AI的核心引擎
Transformer架构:重塑现代AI的核心引擎
449 98
|
2月前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
2月前
|
机器学习/深度学习 人工智能 监控
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含5000张已标注牛行为图片,涵盖卧、站立、行走三类,适用于YOLO等目标检测模型训练。数据划分清晰,标注规范,场景多样,助力智慧牧场、健康监测与AI科研。
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
|
2月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)

热门文章

最新文章