开放数据平台、助力国家实验室:盘点默默耕耘在数据科学领域的清华力量

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

随着发展大数据、人工智能上升为国家战略,数据科学这一领域的计算技术不断突破,科研成果不断涌现。在这一时代浪潮之中,清华大学作为顶尖学府也在默默耕耘和奉献,为行业培育了众多杰出人才,并推动了跨学科的教学与科研交叉融合,打造了“政产学研用”平台,孵化了众多大数据/AI赋能产业的项目,在行业内具有举足轻重的地位,为推动大数据和人工智能的技术落地、产业发展做出了巨大贡献。

下面我们将对其中的一部分团队和项目进行梳理,希望帮助大家进一步了解,这些在实践中默默奋斗的清华人,在大数据、人工智能领域做出了哪些贡献。

关注基础设施

承建大数据系统软件国家工程实验室

ead2a2891e2524efe643a7ba71925e2bab296771

清华大学软件学院院长、数据科学研究院副院长王建民老师和他的工业大数据团队承建了“大数据系统软件国家工程实验室”。该实验室于去年9月11日正式启动,这是该领域唯一一个国家级创新平台。实验室将开展基于云计算的大数据基础设施、大规模多源异构数据一体化管理、交互式异构数据分析框架、数据可视化与智能数据工程、大数据混源软件可信验证等技术、大数据应用开发运行环境的研发和工程化。

实验室通过建立大数据系统软件开源生态社区,形成国内一流的科研环境,培养和汇聚大数据系统软件高端技术人才,主动承担国家和行业重大科研项目,在多源异构数据管理、大数据分布式计算框架等研究方向取得一批关键技术成果并成功转化,构建大数据系统软件领域自主知识产权和标准体系,形成可持续的产学研协同创新机制,为推动我国大数据系统软件的技术进步和产业发展提供技术支撑。

研究开放AMiner

科技情报大数据挖掘及服务平台

dba12a94a945386b60a1d4d4ba2a0d43e0732931

作为清华-青岛数据科学研究院科技大数据研究中心主任,清华大学计算机系李涓子老师和唐杰老师带队研发了科技情报大数据挖掘及服务平台,又名AMiner。AMiner系统可以通过对AI做领域梳理划分,再分析各细分领域的专家信息,最终实现精准学术画像,为使用者提供人才信息。系统还包含亿级学术信息,并自动分析关联的开放知识图谱,供大家用于研究。

该系统一经问世,便吸引近210个国家与地区总计298万个独立IP的访问量,在学术界得到了广泛的应用。

AMiner利用先进的数据挖掘和社会网络分析与挖掘技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐等众多功能。能够为计算机科学相关领域的研究者提供更全面的领域知识和更具针对性的研究话题和合作者信息,为科研人员提供很好的信息获取和帮助。截至目前,AMiner系统已收集了7900多万论文信息、3900多万研究者信息,1.3亿论文引用关系、780万知识实体以及3万多学术会议/期刊,吸引了全球220多个国家的600多万用户访问。

促进医工结合

研发清华医工科研服务平台

604eaba89c0097b6db9e440836ac25971543edd9

为切实推动“医工结合”,清华大学临床医学院、北京清华长庚医院和清华-青岛数据科学研究院共同建设了“清华医学研究数据平台”(又称“清华医工科研服务平台”)。“清华医工科研服务平台”融合了清华大学在数据科学领域顶尖的科研能力和技术积淀,目前已经在北京清华⻓庚医院、青海大学附属医院、中国解放军181医院、广州医科大学附属第一医院、苏州大学第二附属医院、青岛大学附属医院等6家单位开启测试应⽤,并初步实现了清华⼤学计算机系、⾃动化系、软件学院、电子系、统计中心、生物医学影像研究中心等多名教授团队相关课题和应用研究的汇聚。

作为实用性多中心建设医学数据研究开放平台,“清华医工科研服务平台”不仅符合国际多中心科研标准,涵盖数据科学、临床医学、材料科学、人工智能等多领域知识数据。同时还可以提供独立单中心和互联多中心两种运营模式:在多中心模式中,实行数据脱敏、索引互联、按需共享;在单中心模式中,实现本地运行、院内使用、独立科研。

医工平台践行医学和工学的交叉融合科研,以医疗大数据和应用场景驱动工程技术创新发展,以多中心数据平台关键技术实现“平等合作、按需互联、成果共享、贡献分明”的科研新模式,逐步覆盖和联结全国各地合作医疗机构和工程技术专家团队。

发布清数银联智策指数

清数银联智策指数,是在清华-青岛数据科学研究院经济金融数据研究中心主任白重恩老师的带头下,基于中国银联借记卡、信用卡的消费数据,与银联智策携手搭建的金融大数据平台。该指数基于银联智策的金融大数据平台,经过了数据清理、商户采样、时间序列调整等一系列模型验算,能准确、实时地反映百姓生活状况以及多个重要消费行业的景气度,不仅可以帮助投资决策和行业咨询,其呈现的经济以及产业发展规律,对各级政府以及企业的科学决策有着较高参考价值。该指数在业界产生了广泛影响,并在彭博(Bloomberg)金融终端上推出。

dcd320a61cc21b4330504de8e154a6fcaea64287

以消费大数据为核心开发出的清数银联智策指数,可以帮助投资人更好的把握市场的机会,帮助媒体更好的扑捉社会的动向,帮助学者更好的研究经济的规律,帮助政策制定者更好的论证调控的效果。

携手中国农业科学院

研发农业监测预警系统开发项目

76c083a2a5d31101be0374664130a1445dc6008a

中国农业科学院农业监测预警系统开发项目由清华校企北京辰安科技股份有限公司中标,清华-青岛数据科学研究院组织专家团队设计并参与实施。本项目立足产业发展需求,建设成为国内农产品和经济大数据最全面的平台、农产品建模预测最专业的平台、农业经济专家分析最权威的平台。该平台是迄今为止中国第一个实现从农产品数据采集到数据清洗、整理、建模、监控、预测及预警的全流程农业大数据智能平台,目前已覆盖17个主要大类农产品。

该项目有效保障农业监测预警研究空间的稳定运行与功能提升,为加强我国农产品市场监测预警、为农业管理部门提供有效决策支持、建立健全我国现代市场体系提供了重要的支撑,已获得国内农业及经济专家的认可,并受到澳大利亚等国专家的好评。

合作建设复合型

大数据交通态势感知智慧指挥中心

复合型大数据交通态势感知智慧指挥中心是清华-青岛数据科学研究院交通大数据研究中心团队与贵州省公安厅交通管理局合作开展的课题研究,由陆化普老师领军,他凭借其深厚的学术科研背景为国家交通管理大数据提供“智库”支持。该系统专注于利用交通仿真、大数据学习、机器学习和深度学习技术,融合多达100类跨界多类型、多源头大数据,实现交通态势和交通风险的感知,将交通安全管理从被动的事后应对处置转变为交通风险的主动的事前预警处理、事中快速疏导,从而降低交通事故死亡率,优化交通管理和治理,更好的服务人民群众。

3c89c366682c6e1faae58842c9885e879b2ebe94

陆化普老师团队以大数据应用为抓手,提升了信息化、动态化条件下政府的交通管理能力和水平,构建现代科技应用与传统安全管理深度融合的交通管理新模式的做法,使贵州交通管理工作进一步提升了风险预见性、监管实时性、执法精准性,有利于全面推进“平安交通、和谐交通、便民交通”建设。

研究开放大数据舆情分析平台

由清华大学新闻学院教授博导沈阳老师指导参与的大数据团队一直专注于舆论大数据、指数大数据和行业大数据的研发。其中“指数大数据”www.gsdata.cn现有十二万家机构用户,主要利用公开透明的评价公式进行指数分析。目前大量政务新媒体、企业新媒体的评估均在此平台完成。“舆论大数据”yuqing.gsdata.cn现有机构用户约五万家,该系统是进行人文社科数字化研究的利器,使用手机号即可免费注册使用,每天抓取五千万条数据,涵盖网页、微博、微信公号、客户端、报纸、贴吧、头条等等。

该平台参与清华校内师生开放计划,可免费提升数据权限。收录有1900万+微信数据、2亿+微博数据、93万+APP数据,以及知乎、论坛、博客、平媒电子报、海外媒体等海量数据,为客户提供多平台海量数据信息,为定制报告提供全面有效的数据支撑。此外,2017年该大数据团队撰写了8732份咨询报告,被国家信息中心评为:“十大最具影响力大数据领域社会智库”之一。

发起成立得意音通声纹识别科技公司

北京得意音通技术有限责任公司由清华大学语音和语言技术中心主任郑方老师发起成立。郑方老师带领的研发团队一直专注于声纹识别、语音识别和自然语言理解技术的研发以及在身份认证领域的应用探索和实践,得意音通公司目前是拥有完全自主知识产权的声纹识别领域、智能语音与自然语言处理领域的技术研发商、产品开发商和服务提供商

得意音通是清华大学知识产权入股企业,自成立以来始终与清华大学保持密切的"产学研"合作。得意公司与清华大学建立了"清华-得意音通声纹处理联合实验室(JLVPP)"旨在促进声纹处理相关领域的学科建设和科研发展。实验室联合双方优势、资源,推动声纹识别领域进行更深层次的研究,促进声纹识别及相关技术的发展,探索声纹识别和语音识别、语言理解以及其他生物特征识别技术之间进行融合应用的创新模式。

成立深鉴人工智能芯片自主研发科技公司

由清华大学电子工程系副教授汪玉老师与多位清华校友联合成立的深鉴科技,是一家具备神经网络压缩编译工具链、深度学习处理器DPU设计、FPGA开发与系统优化等技术能力的初创公司。目前已推出了包括人脸检测识别模组、深度学习SDK “DNNDK”等8款AI新品,其中也包括2款自研AI芯片——“听涛”、“观海”

其中,深鉴科技最为核心的,即为DPU(Deep Learning Processing Unit),以及神经网络压缩编译技术,它不仅可以将神经网络压缩数十倍而不影响准确度,还可以使用“片上存储”来存储深度学习算法模型,减少内存读取,大幅度减少功耗。这些技术在人工智能领域有着广泛而深入的影响,甚至影响了世界深度学习的发展。

建设开放型法律数据科研平台

“法律数据科研平台”是清华—青岛数据科学研究院与社会科学学院共同发起,合作寻找司法数据源,数据院自筹资金、投资购置设备,在校内建设计算能力,自行开发的数据应用服务平台。经过数据院半年多的精心建设,平台目前已汇集了3900余万份全国范围内依法公开的司法判决文书,形成可持续更新的法律数据库,具备全文检索、分类检索、结构化分析、统计分析、可视化报表等在线服务功能。

“法律数据科研平台”在清华大学社科学院和法学院老师初步试用中广受好评。该平台的海量数据快速检索功能,加速了老师们的科研效率、在线服务模式打破了老师们对自有计算机的性能约束、多维度的数据分类检索功能满足老师们不同课题的数据需求、免费开放的数据服务大大降低了老师们日常的科研数据采集成本,老师们普遍认为该平台是一个高效环保、数据可靠、功能必要的科研好助手。

在大数据和人工智能的科研方向上,清华人虽然奋斗在不同的岗位,但是他们每一个项目的建设,都在为大数据和人工智能研究的应用落地,为推动中国科研项目市场化、产业化,贡献着属于自己的力量。“清华人”不是一个简单的身份,他承载着一种特定的文化传统和特定的时代精神。无论是实践在一线平台的个人,还是在背后默默支持的数据院整体,都背负有每一位清华人内心深处强烈的使命感和责任感。“引领一流大数据科研”不仅是数据院的使命,也是清华大数据人的使命!


原文发布时间为:2018-06-22

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
人工智能 程序员
全球AI人才报告:清华第三,北大第六!
【2月更文挑战第18天】全球AI人才报告:清华第三,北大第六!
75 4
全球AI人才报告:清华第三,北大第六!
|
存储 数据采集 人工智能
数智洞察 | 大国科技博弈,开放科学平台的“四步”开源之旅
编者按: 20世纪末,科学界发起了一系列体现“参与、包容、分享、合作、公开、透明”理念的开放科学运动,包括开源软件、开放获取、开放数据以及开放基础设施和平台等。开放科学运动的发起是为了克服传统封闭的科学模式造成的种种弊端,比如过高付费墙造成知识鸿沟与不平等。 当前,随着时代发展,从开放获取迈向开放科学,已经成为全球共识,全球科研模式也因此发生深刻变革。但我国目前要实现开放科学还面临着许多问题,如何构建开放科学的中国路径、制定互惠共享的国际科技合作战略是我国开放科学发展的未来思路。 本文约3562字,建议阅读时间9分钟。
124 0
|
机器学习/深度学习 人工智能 自然语言处理
清华人工智能研究院成立「知识智能研究中心」,发布四大知识平台
2019 年 1 月 21 日,清华大学人工智能研究院知识智能研究中心(以下简称知识中心)成立仪式暨知识计算开放平台发布会在清华大学 FIT 楼举行。清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌。清华大学人工智能研究院常务副院长孙茂松教授主持成立仪式。
410 0
清华人工智能研究院成立「知识智能研究中心」,发布四大知识平台
|
新零售 大数据
云场景实践研究第77期:云徙科技
作为阿里生态战略合作伙伴,云徙科技在阿里云的大数据和新技术的帮助下,使企业成功实现数字化转型,并且创造了新的价值。本文将带领大家一同了解云徙科技在新技术、大数据赋能下的转型创新之路。
3063 0
|
运维 关系型数据库 数据库
云场景实践研究第70期:秦苍科技
本文主要为大家分享了秦苍信息科技HTPA型数据库产品在现实中的落地应用,企业级数据库架构设计中遇到的问题以及基于云数据库运维的思考。
1791 0
|
新零售 分布式计算 大数据
云场景实践研究第56期:佰腾科技
作为国内知名的知识产权服务公司,佰腾在专利信息应用上研究多年,一直致力于解决一个问题:让专利信息应用变得大众化。佰腾专利通过大数据平台的演化,利用MaxCompute平台,每纬度数据处理速度由之前的2-3天,缩短到3-6个小时。
1583 0
|
存储 弹性计算 大数据
云场景实践研究第24期:巧思科技
定位于以问卷形式做精准数据的巧思科技,通过选型阿里云容器服务,达到了综合性、集成性、整体性最好。本文将介绍巧思科技为何选型于阿里云容器服务,以及阿里云容器服务产品优势。
1815 0
|
存储 监控 大数据
云场景实践研究第4期:小鱼儿科技
传统视频会议设备复杂,会议系统必须外接电视、麦克风、摄像头,学习很复杂的摇控器,才能够开始使用。为保障视频会议效果,还需要搭建服务器、租专线,并且需要专业人员维护,非常麻烦。小鱼儿科技的小鱼办公系统在视频会议领域进行了颠覆式创新,基于阿里云实现了“all in one”互联网+视频会议解决方案。
6230 0