全国首发!周志华教授领衔撰写《大数据分析研究进展》

简介: 全国首发!周志华教授领衔撰写《大数据分析研究进展》
【新智元导读】最近,周志华教授和业内多位不同领域的知名学者共同提出了「反绎学习」(abductive learning)范式、流数据在线学习动态遗憾率的最优下界等多个原创理论。并围绕可塑模型学习、可视数据表达和可用知识处理3个关键科学问题,详细论述了在大数据分析方面取得的最新研究进展。


大数据是推动创新型国家建设的重要战略资源,大数据对经济发展、社会治理、国家管理、人民生活都产生了重大影响。然而,目前出版的关于大数据分析的图书大都是基于科普和基础理论的论述,没有涉及核心技术方法和应用平台。由人工智能重要顶尖级学者周志华教授领衔,张敏灵、巫英才、瞿裕忠、姜育刚等业内知名学者共同编写《大数据分析研究进展》。该书依托国家重点研发计划项目「大数据分析的基础理论和技术方法」的研究成果,论述作者在大数据分析的基础理论与技术方法方面的部分代表工作和取得的最新研究进展。主要包括:大数据机器学习理论与方法,大数据可视分析理论与方法,多源不确定数据挖掘方法与技术,自动深层化知识处理方法与技术,大数据分析平台、标准与应用示范等方面内容。秉承科学严谨、专业权威的图书编写理念,不同领域的内容均由该领域知名学者撰写。该书为机器学习、可视分析、知识处理、数据挖掘及相关领域的研究人员提供有益参考。

大数据分析

首先给出大数据分析框架(图1),从机器学习、可视分析、知识处理、数据挖掘四个关键内容详细论述大数据分析的基础理论与技术方法。其中,机器学习和可视分析协同支撑,为数据挖掘和知识处理提供必要的支撑技术;数据挖掘和知识处理互促利用。四个方面的技术结合起来,共同加以应用,得到数据价值。

图1 大数据分析框架作者在对整个大数据分析框架梳理后,经过长时间的思考,凝练出三个关键的科学问题:可塑模型学习、可视数据表达和可用知识处理。针对这三个科学问题,梳理出大数据分析研究思路和研究内容(图2)。首先,整个任务包含数据层、知识层和价值层。数据层主要通过机器学习和可视分析支撑原始数据到知识信息的有效凝练,随后知识层通过利用知识处理和数据挖掘来实现领域知识到核心价值的有效转化。从环境、模型、任务三者的角度,大数据环境提供了一个内因驱动,现实任务提供了一个外需牵引,内外相结合确定最终需要得到的分析模型。图2 大数据研究思路本书围绕上述科学问题详细论述在大数据分析的基础理论与技术方法取得的最新研究进展:在范式方面,提出「反绎学习」(abductive learning)范式(图3),突破了「重推理轻学习」或「轻推理重学习」既有框架,使机器学习与知识推理能够循环互促,其性能优于深度神经网络,甚至超过了人类平均能力。

图3 反绎学习示意图在理论方面,详细阐述了流数据在线学习动态遗憾率的最优下界,建立了面向增强现实可视表达的虚实融合关系理论,发展了面向非独立同分布噪声的自适应误差建模理论、计算资源受约束条件下具备常数级迭代复杂度和线性收敛的随机优化理论。在方法方面,详细阐述了满足最优遗憾下界的在线学习方法、促进大数据沉浸式展现的渲染绘制与直观可视设计方法(图4)、基于可视分析的可解释机器学习,介绍了适用于数据低层表示的在线自适应多度量模型融合方法(图5)、面向不确定标记信息的主动迁移模型、面向多模态的自动知识表征学习方法(图6)、基于图谱存在性约束的复杂问题求解方法。

图4 沉浸式城市数据可视化模型下VR 与MR 环境

图5 自适应局部度量提升(LIFT)框架示意图

图6 多模态实体对齐(MMEA)模型在平台系统方面,介绍基于创新的大数据分析理论、方法与技术,助力科学技术研究的开源系统与工具,面向求解实际问题的标准化大数据分析平台以及相关的基准测试,形成了《信息技术 大数据 大数据系统基本要求》(GB/T 38664-2020)多项国家标准;针对特定行业与社会治理,构建效力社会经济发展的应用示范系统,具体给出两项应用示范:智慧法院深度知识挖掘及精准分案(图7);面向公共安全的视频目标关联与态势感知(图8)。

图7 基于反绎学习的盗窃案件预测模型框架

图8 基于背景分割的车辆再识别算法流程


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
11月前
|
机器学习/深度学习 存储 敏捷开发
斯坦福教授曼宁AAAS特刊发文:大模型已成突破,展望通用人工智能
斯坦福教授曼宁AAAS特刊发文:大模型已成突破,展望通用人工智能
124 0
|
11月前
|
机器学习/深度学习 数据采集 人工智能
站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?
站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?
123 0
|
11月前
|
机器学习/深度学习 人工智能 算法
北大数院校友斩获首届SIAM数据科学青年奖,主攻隐私数据保护等
北大数院校友斩获首届SIAM数据科学青年奖,主攻隐私数据保护等
|
人工智能 数据挖掘
AI:2020年6月23日北京智源大会演讲分享之AI交通专题论坛——11:05-11:35杜博文教授《基于广义时空数据挖掘的交通复杂行为认知-从研究到工业》
AI:2020年6月23日北京智源大会演讲分享之AI交通专题论坛——11:05-11:35杜博文教授《基于广义时空数据挖掘的交通复杂行为认知-从研究到工业》
AI:2020年6月23日北京智源大会演讲分享之AI交通专题论坛——11:05-11:35杜博文教授《基于广义时空数据挖掘的交通复杂行为认知-从研究到工业》
|
机器学习/深度学习 人工智能 自然语言处理
AI:2020北京智源大会与五位图灵奖得主和100多位专家《共同探讨人工智能的下一个十年》——6月21日~6月24日的日程安排(实时更新,建议收藏)
AI:2020北京智源大会与五位图灵奖得主和100多位专家《共同探讨人工智能的下一个十年》——6月21日~6月24日的日程安排(实时更新,建议收藏)
|
机器学习/深度学习 传感器 人工智能
专访香港科技大学教授杨强:国内的人工智能研究不能太跟风
  杨强,香港科技大学计算机科学与工程学系系主任,人工智能领域学术界的领军人物,华人界唯一的国际人工智能协会 (AAAI)councilor,IEEE 大数据期刊主编,ACM 杰出科学家。两次获得国际数据挖掘领域最高级别竞赛 KDD Cup 世界冠军。杨强教授发表论文 400 多篇,被引用超过 20000 次。   但同时,除了扎根科研界,杨强教授还是人工智能领域深入商业应用领域的顶级专家之一。目前,杨强教授担任人工智能技术与服务提供商第四范式的首席科学家,带领这家被广泛看好的人工智能公司不断取得科技突破,近期第四范式在乌镇世界互联网大会上发布了可供大部分互联网公司使用的人工智能公有云产品,
752 0
|
机器学习/深度学习 数据采集 人工智能
站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?
站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?
454 0
站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?
|
人工智能
【周志华辟谣“出走南大”】大牛下海热,AI学界已千疮百孔
月初,南大教授周志华离职谣言曾引发热议,相关教授虽在微博立即澄清,但不免又将学术薪酬差、研究自由度小、产业资金雄厚但科研能力弱等敏感问题拉回公众视线。新智元梳理了近年来多位教授投身产业的信息,并对标国际,试图从国外教授的多元化身份和产学结合的模式中,找到一些国内环境适合借鉴的经验,使得产学研多方的人才可持续性发展得以保障。
2074 0