1.1 大数据相关政策背景
2015年中央政府工作报告提出制定“互联网+”行动计划,大数据作为“互联网+”行动计划的重要组成部分,已成为新一代信息技术变革的核心。在工作报告中提出要全面鼓励技术创新,保护发明创造,同时还提出企业是技术创新的主体,鼓励和支持企业主导的产学研协同创新,大力发展众创空间,增设国家自主创新示范区,办好国家高新区,发挥集聚创新要素的领头羊作用。
同时,国务院还对外发布了《促进大数据发展行动纲要》,明确指出,信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。目前,我国在大数据发展和应用方面已具备一定基础,拥有市场优势和发展潜力,但也存在创新应用领域不广等问题,亟待解决。
为推动我国大数据产业持续健康发展,实施国家大数据战略,落实国务院《促进大数据发展行动纲要》,按照《中华人民共和国国民经济和社会发展第十三个五年规划纲要》总体部署,2017年1月,工业和信息化部正式发布了《大数据产业发展规划(2016-2020年)》(工信部规〔2016〕412号,以下简称《规划》)。
2016年2月,教育部公布新增的“数据科学与大数据技术”专业(代码080910T),北京大学、对外经济贸易大学、中南大学成为首家获批高校。时隔一年,2017年3月,教育部公布第二批“数据科学与大数据技术”专业获批的32所高校。2018年3月,教育部公布第三批“数据科学与大数据技术”专业获批的250所高校。2019年3月,教育部公布第四批“数据科学与大数据技术”专业获批的203所高校。截止到2019年3月,我国已有488所高校获批该专业。该专业强调培养具有多学科交叉能力的大数据人才,重点培养具有以下三方面素质的人才:一是理论性的,主要是对数据科学中模型的理解和运用;二是实践性的,主要是处理数据的能力。三是应用性的,主要是利用大数据的方法解决具体行业应用问题的能力。
2016年9月,教育部公布新增“大数据技术与应用”专科专业(代码610215)),截止到2019年1月,全国已经有409所高职院获批该专业。 该专业强调培养具有大数据实践能力的大数据人才,重点培养具有以下两方面素质的人才:一是工具的掌握,掌握数据采集和数据分析的基本工具;二是数据分析能力,掌握实用数据分析和初步数据建模能力。
在交叉学科方面,2018年教育部批准了首批5所高校建设“大数据管理与应用”专业, 2019年3月该专业新增25所高校。
1.2 人工智能相关政策背景
2017年7月8日,国务院发布了《国务院关于印发新一代人工智能发展规划的通知》(国发〔2017〕35号),战略目标分成三步走:
第一步,到2020年人工智能总体技术和应用与世界先进水平同步,人工智能产业成为新的重要经济增长点,人工智能技术应用成为改善民生的新途径,有力支撑进入创新型国家行列和实现全面建成小康社会的奋斗目标。新一代人工智能理论和技术取得重要进展。大数据智能、跨媒体智能、群体智能、混合增强智能、自主智能系统等基础理论和核心技术实现重要进展,人工智能模型方法、核心器件、高端设备和基础软件等方面取得标志性成果。人工智能产业竞争力进入国际第一方阵。初步建成人工智能技术标准、服务体系和产业生态链,培育若干全球领先的人工智能骨干企业,人工智能核心产业规模超过1500亿元,带动相关产业规模超过1万亿元。人工智能发展环境进一步优化,在重点领域全面展开创新应用,聚集起一批高水平的人才队伍和创新团队,部分领域的人工智能伦理规范和政策法规初步建立。
第二步,到2025年人工智能基础理论实现重大突破,部分技术与应用达到世界领先水平,人工智能成为带动我国产业升级和经济转型的主要动力,智能社会建设取得积极进展,新一代人工智能理论与技术体系初步建立,具有自主学习能力的人工智能取得突破,在多领域取得引领性研究成果。人工智能产业进入全球价值链高端。新一代人工智能在智能制造、智能医疗、智慧城市、智能农业、国防建设等领域得到广泛应用,人工智能核心产业规模超过4000亿元,带动相关产业规模超过5万亿元。初步建立人工智能法律法规、伦理规范和政策体系,形成人工智能安全评估和管控能力。
第三步,到2030年人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心,智能经济、智能社会取得明显成效,为跻身创新型国家前列和经济强国奠定重要基础,形成较为成熟的新一代人工智能理论与技术体系。在类脑智能、自主智能、混合智能和群体智能等领域取得重大突破,在国际人工智能研究领域具有重要影响,占据人工智能科技制高点。人工智能产业竞争力达到国际领先水平。人工智能在生产生活、社会治理、国防建设各方面应用的广度深度极大拓展,形成涵盖核心技术、关键系统、支撑平台和智能应用的完备产业链和高端产业群,人工智能核心产业规模超过1万亿元,带动相关产业规模超过10万亿元。形成一批全球领先的人工智能科技创新和人才培养基地,建成更加完善的人工智能法律法规、伦理规范和政策体系。
2003年,北京大学(分数线,专业设置)创办了国内第一个“智能科学与技术”本科专业,人工智能方向的本科教育受到越来越多关注。教育部公开信息显示,截至2017年12月,全国共有71所高校围绕人工智能领域设置了86个二级学科或交叉学科。
继2017年中国科学院大学、西安电子科技大学等高校设立人工智能学院之后,2018年,清华大学(分数线,专业设置)、哈尔滨工业大学、上海交通大学、南京大学、重庆邮电大学等一批高校也纷纷设立人工智能学院、人工智能研究院。截至2018年7月,我国进行人工智能相关研究、开设人工智能相关专业的院校共有89所。
2019年3月,教育部批准了35所高校建设“人工智能”新专业资格, 同时还有96所高校获批“智能科学与技术”专业,101所高校获批“机器人工程”专业。
1.3 大数据产业需求
根据IDC报告,2019年全球大数据市场规模将达到1250亿美金,中国在全球大数据市场占比将超过8%(超过650亿人民币)。考虑到和大数据相关的行业软件、解决方案、服务和硬件,整个大数据市场规模在2019年将达到几千亿的规模,每年都在以非常快的速度递增。
根据麦肯锡全球研究院的报告,中国未来3-5年内需要有180万人从事大数据相关的岗位,目前大约有150万人才缺口。各个行业都急需大数据人才,特别是熟悉大数据采集加工处理和深度学习建模的大数据工程人才:大数据工程师;熟悉行业知识和大数据的交叉复合型人才:大数据分析师;以及熟悉分布式、多线程和海量数据的大数据JAVA全栈工程师。
1.4 人工智能产业需求
根据Gartner最新发布的预测报告,2018年全球人工智能市场规模将高达1.2万亿美元,较2017年增长70%之多。2022年人工智能驱动的商业价值将高达3.9万亿美元,其中决策支持/增强(例如DNN深度神经网络)2018年占据市场总规模的39%,2022年占据44%,虚拟助理(2018年46%,2022年26%),智能产品(2018年18%,2022年14%),决策自动化系统(2018年2%,2022年16%)。
根据来自Linkin的数据,截至2017年第一季度全球人工智能领域专业技术人才数量超过190万,其中美国人工智能领域专业技术人才总数超过85万,高居榜首。中国人工智能领域专业技术人才总数超过5万人,排在全球第7位。印度、英国、加拿大、澳大利亚和法国分列2-6位。截至到2018年10月,全球拥有深度学习技能的人才超过9.5万,其中中国拥有超过5000人,同样排在全球第7位。
根据产业界的信息,未来3到5年我国人工智能人才缺口超过500万人。
2.1 大数据主要人才需求
1)算法工程师:实现具体商业过程中算法的落地和优化(依赖算法软件工具,图形化或API),比如精准营销算法工程师、商业分析算法工程师、音/视频算法工程师、图像处理算法工程师、计算机视觉算法工程师、通信基带算法工程师、信号算法工程师、射频/通信算法工程师、自然语言算法工程师、搜索算法工程师
2)大数据工程师: 主要负责大数据采集、加工、处理、海量数据存储、数据可视化、BI报表、机器学习/深度学习(依赖算法软件工具,图形化或调取API)等。
3)大数据分析师:主要负责运营或数据分析工作,以图形化托托拉拽为主(本身对技术了解不深入,主要依赖工具),涉及到数据处理、统计分析和机器学习等。
2.2 大数据核心领域关键词
1) 机器学习/深度学习/统计分析/数据挖掘
2) 离线分布式计算/实时计算/流计算/复杂事件处理
3) 数据可视化/互联网数据爬取/离线分布式开发……
4) 数据采集/数据加工/数据处理/数据同步/海量数据存储/BI报表……
5) 数据统一存储/数据统一管理/数据安全统一管理
6) 安全沙箱/资源隔离/资源调度/远程方法调用/分布式存储……
7) TensorFlow
8) Aliyun MaxCompute/ODPS……
9) Apache Hadoop/HDFS/YARN/MapReduce/Ambari/Avro/Cassandra/Chukwa/HBase/Hive/Mahout/Pig/Tez/ZooKeeper/Solr……
10) Spark/Spark RDD/DataFrame/Spark SQL/Spark Streaming/Spark MLlib/Spark GraphX……
11) IBM BigInsights/Cloudera CDH/Impala/Hue/Hortonworks HDP/FusionInsight……
12) Apache Flink/Spark Streaming/ Apache Storm/ Apache Trident Storm / Apache Samza ……
13) Alibaba Cloud StreamCompute/IBM InfoSphere Streams……
14) Cloudera Impala/Pivotal HAWQ/IBM Big SQL/Drill/Hive/MaxCompute SQL/Google Dremel/Google Tenzing/BigQuery……
15) Analytic DB/HANA……
16) Echarts/JavaScript/QuickBI/DataV……
2.3 大数据工程师培养目标
学生具有大数据工程师工作满一年的水平,能够独立负责一些小的项目,同时具有大数据相关认证证书。能够运用大数据技术与应用专业思想与方法、知识与技术,依据大数据工程相关的标准与规范,设计针对特定领域的复杂大数据工程问题的解决方案,包括满足需求设计、部件选择、工程实施流程或方案设计,并能够在设计环节中体现创新意识,考虑社会、健康、安全、法律、文化以及环境等因素。
1) 针对特定用户或系统需求,给出大数据应用系统的规划与设计、部署与实施、管理与运维方案;
2) 针对特定用户或系统需求,给出大数据应用系统的开发、测试与智能分析方案;
3) 针对特定的场景,给出应用大数据系统的设计方案;
4) 能够在领域大数据应用系统的规划与设计、部署与开发、管理与安全保障过程中,并在相关的法律与规范框架下,在设计或实施方案中予以必要的考虑到信息与公共安全、经济与社会、文化与伦理、环境保护等因素的可能影响。
2.4 大数据分析师培养目标
学生具有大数据分析师工作满一年的水平,能够独立负责一些小项目的分析和运营,同时具有大数据相关认证证书。学生可以依托大数据、数据可视化、BI报表以及机器学习等工具,通过图形化的托拉拽(编程能力不要求)等方式完成对商品、客户行为日志/购买日志/物流记录、互联网爬取数据、第三方数据等进行数据分析、挖掘和展现等,从而找出特定规律/规则/方法等,从而进一步支持业务决策。
2.5 算法工程师培养目标
1)具有算法工程师工作满1年水平,可以独立完成多种数据源的预处理、数据特征工程提取、多种算法如逻辑回归、GBDT、随机森林、神经网络、线性支持向量机、PS-SMART二分类和朴素贝叶斯等模型的建模过程和优化方式,以及针对这些建模效果的评估等
2)理解项目管理基本知识,能够协调团队一起完成一个大数据小型项目,能否预估各个阶段的风险并有合理应对方案。
3)理解大数据和人工智能演进历程,掌握开源大数据/人工智能产品、企业级开源大数据/人工智能产品以及阿里云大数据/人工智能产品的优劣势。
4)具有真实项目构建经验,熟悉人工智能应用创新,能够领导一个team从0到1落地一个人工智能项目。