ATEC“数星”计划发布,开源亿级工业数据集

简介: 9月8日,ATEC前沿科技探索社区在外滩大会见解论坛现场正式宣布,启动ATEC“数星”计划。

9月8日,ATEC前沿科技探索社区在外滩大会见解论坛现场正式宣布,启动ATEC“数星”计划。这是业内首个基于真实工业场景的大规模研究性数据集开放计划。该计划首批将公开两个脱敏的、超大规模的工业数据集——ATEC2022赛事数据集“农村金融风险预测”和蚂蚁集团多场景多模态点击率预估数据集(AntM2C)。

清华大学计算机系副系主任、ATEC前沿科技探索社区发起人徐恪教授指出, “数星”计划是ATEC社区在科技赛事、高校实训之后的又一项重要举措。数字技术的研究和发展离不开真实应用的数据土壤,亿级规模工业数据集,将成为人机智能等创新技术的关键燃料,推动机器智能等新一代数字技术的新范式发展。社区将在符合国家法律法规及个人隐私保护的前提下,积极推进数据集的开源工作,支持行业技术研究及教学。

亿级规模 填补行业空白

“数星”计划首批发布的两大数据集之一,“ATEC2022赛事数据集(农村金融风险预测)”包含了涉农经营者的信贷风险信息及用户的历史多源交互数据。

如何利用数字化技术识别农村经营者的经营状况和经营风险,是帮助农村经营者进行融资的基础能力之一。但由于农村地区数字化程度普遍偏低,其数据基础较薄,如何打通数字生态内多方的信息,破除数据孤岛的困境,成为支持金融科技发展、提升农村金融效率的关键命题。

该数据集在遵循国家法律法规及个人隐私保护的前提下,为金融科技领域、特别是农村金融科技领域的行业研究和发展提供了重要的数据支持。

蚂蚁集团多场景多模态点击率预估数据集(AntM2C)是此次发布的另一个重要数据集。该数据集覆盖支付宝内多个业务场景,包含广告、营销、搜索和推荐真实场景中不同类型商品的CTR数据,整体数据规模达到10亿(第一阶段发布1700万规模的数据)。该数据集的发布填补了行业内,多场景多模态点击率预估问题的数据集空白。

愿聚星火 照亮研途

“数星”计划首批公开的两个脱敏的超大规模工业数据集均来自蚂蚁集团的真实业务场景。未来,“数星”计划也欢迎更多的企业、组织和个人投身数据集合规分享,共同促进技术研究的进步。

清华大学教授、计算机系副系主任、ATEC前沿科技探索社区发起人徐恪,清华大学网络科学与网络空间研究院副教授、ATEC2022评审委员会主席李琦,蚂蚁集团副总裁王志荣,蚂蚁集团商业营销技术部总监莫林剑,蚂蚁集团技术战略发展部技术运营部总监、ATEC前沿科技探索计划发起人宋宠,蚂蚁集团机器智能部技术总监、ATEC2022赛题组负责人张志强等嘉宾共同出席了“数星”计划发布仪式。

欢迎大家关注本《语义增强可编程图谱框架》SPG微信公众号,持续获取行业资讯最新进展。我们希望通过本公众号,能够为读者提供一个全面了解 SPG 框架的机会,并激发更多的讨论和合作。期待产研各界同仁的讨论交流和批评指正,共建新一代工业级知识语义框架与引擎!

相关文章
|
28天前
|
存储 数据采集 运维
演讲干货整理:泛能网能碳产业智能平台基于 TDengine 的升级之路
在 7 月 26 日的 TDengine 用户大会上,新奥数能 / 物联和数据技术召集人袁文科进行了题为《基于新一代时序数据库 TDengine 助力泛能网能碳产业智能平台底座升级》的主题演讲。他从泛能网能碳产业智能平台的业务及架构痛点出发,详细分享了在数据库选型、平台架构改造、新旧底座替换以及数据迁移等多个维度的经验,为与会者提供了宝贵的参考。本文据此演讲内容整理而成。
39 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
元象XVERSE发布 中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,将国产开源提升至国际领先水平。
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
|
2月前
|
存储 人工智能 数据格式
总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集
【9月更文挑战第18天】鹏城实验室提出的ARIO(All Robots In One)标准,为具身智能领域带来了统一的数据格式、丰富的感知模态及多样化的真实与模拟数据,显著提升了数据集的质量与规模,助力智能系统更好地与物理世界互动。基于此标准构建的大规模数据集包含约300万个片段,覆盖258个系列和321,064个任务,极大地推动了具身智能的研究与发展。然而,该数据集也面临着存储需求高、系统互操作性及应用场景适应性等挑战。论文详情见:http://arxiv.org/abs/2408.10899。
72 11
|
5月前
|
存储 监控 大数据
高效处理风电时序数据,明阳集团的 TDengine 3.0 应用实录
作为全国 500 强企业,明阳集团在风电行业拥有领先实力。目前全球超过 800 个项目采用明阳各种型号风电机组,安装数量超过 15000 台。每台风电机组配备数百至上千个监测点,生成的时序数据每秒一条,每天产生亿级以上的数据量。这些数据需要实时或定期集中存储,以支持风机的集中监控和数据分析等业务应用,实现数据转化为价值的目标。为了更有效地进行时序数据管理,明阳集团选择采用 TDengine,本文对部署情况及应用效果进行了分析。
55 0
高效处理风电时序数据,明阳集团的 TDengine 3.0 应用实录
|
5月前
|
人工智能 安全 数据处理
《百炼成金-大金融模型新篇章》––04.问题2:“开源模型vs商业模型”,左右互搏的自建大模型之路
百炼必定成金,新质生产力会催生新质劳动力,谨以此文抛砖引玉,希望与业内的各位朋友一同探讨如何积极拥抱并运用大模型技术,以应对和驾驭不断变化的市场环境,实现科技金融持续稳定的提质增效和创新发展,携手开启金融大模型未来新篇章。
|
6月前
|
存储 人工智能 文件存储
云栖速递,面向大规模数据智能的阿里云存储创新
云栖速递:面向大规模数据智能的阿里云存储创新
1466 2
云栖速递,面向大规模数据智能的阿里云存储创新
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
外滩大会蚂蚁开源大规模图学习系统AGL
AGL 将持续的系统优化和能力创新,并将优秀的系统和算法实践开放到社区,本次开源为 AGL v0.1 版本。
外滩大会蚂蚁开源大规模图学习系统AGL
|
6月前
|
人工智能 Cloud Native 搜索推荐
金融先锋联盟发布17份联合解决方案,首次聚焦AI应用场景探索
金融先锋联盟发布17份联合解决方案,首次聚焦AI应用场景探索
132 0
|
存储 人工智能 自然语言处理
悦数图数据库:图技术加速行业大模型智能化应用落地|WAIC 2023 精彩回顾
7月8日,以“智联世界,生成未来”为主题的 2023 世界人工智能大会(WAIC)在上海顺利闭幕,悦数图数据库最新版本 v3.5.0在大会上首次亮相,并带来了悦数图数据库与 AI 大模型结合的实践成果分享,获得现场观众及媒体的广泛关注。
悦数图数据库:图技术加速行业大模型智能化应用落地|WAIC 2023 精彩回顾
|
存储 人工智能 运维
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!
QCon 全球软件开发大会是由极客邦科技旗下 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自2007年3月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。
1084 2
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!