暂无个人介绍
2020年03月
(1)确定业务问题 理解要解决的实际业务问题和痛点; (2)数据可行性 解决上述业务问题,需要用到哪些数据,准备数据集; (3)数据探索和分析 结合业务目的,探索数据业务指标和特征的相关性,找到突破口, 将数据分析结果生成报告,和业务方,寻找落地点;
技术:numpy pandas matplotlib基本可以完成数据分析工作 潘大师
阿里巴巴基于多年在机器学习,人工智能工业应用实战中,沉淀了机器学习平台,广泛应用于各个领域; https://data.aliyun.com/product/learn?spm=5176.12825654.eofdhaal5.165.48692c4aTiVYXk&aly_as=wXhknoG7 实战应用
(1)工业应用 对于工业应用来说,业务理解,大量业务数据,是决定最终落地应用的核心; 人工智能只是一种技术;目前,在图像识别这一类领域应用广泛,人脸,图片检测等等; 没有数据,或者数据质量差,垃圾进,垃圾出,人工智能也无能为力; (2)学术研究 学术上,主要是网路结构上的研究,dnn cnn rnn等的各种变种;无非就是深点,宽点;
类似于菜和菜谱的关系; 大数据,是输入; 人工智能,是一种数据计算的方式; 要产生实际业务价值,二者缺一不可; 在工业应用里面,业务理解和数据,更加重要,人工智能毕竟只是一个算法流程,无非就是搞得复杂点;
(1)机器学习竞赛平台 kaggle.com https://www.kaggle.com/datasets (2) uci数据集 https://archive.ics.uci.edu/ml/datasets.php
支持maxcompute结构化的数据表,支持OSS存储的数据(文本,图像,视频等),也支持上传; https://help.aliyun.com/document_detail/69244.html?spm=a2c4g.11186623.6.565.7e756ba0heaFPD
机器学习,人工智能只是工具,可以结合实际业务问题,应用在不同的领域; 投资领域,也是重要的应用之一;譬如 twosigma就是一家结合大数据,机器学习,人工智能的金融科技公司; 阿里巴巴的机器学习平台PAI https://data.aliyun.com/product/learn?spm=5176.12825654.eofdhaal5.167.41592c4aR8orN3&aly_as=B-bdXTMv
根据数据集的不同特征和业务考量的特征,选择合适的评估指标; Precision-Recall curve 结合实际情况,选择阈值; AUC在数据均衡情况下 也会很高; 另外,也可以结合实际业务自定义评估指标, 譬如cost-sensitive classification等
建议采购,选择成熟稳定可靠的平台; (1)阿里云机器学习平台PAI 稳定,成熟,经过工业应用打磨 https://data.aliyun.com/product/learn?spm=5176.13342246.h2v3icoap.244.1f4f3ccb7qBgtt&aly_as=-ZcMfWIF (2)第四范式 在银行业有很多应用, https://www.4paradigm.com/
雅虎 TensorFlowOnSpark brings TensorFlow programs to Apache Spark clusters. https://github.com/yahoo/TensorFlowOnSpark
sparkflow https://github.com/lifeomic/sparkflow
大数据计算平台应用来源于需求,随着互联网,IoT等技术发展,应用已经深入到各行各业;譬如,工业互联网,金融大数据,大数据营销,航空业,电子商务,医疗,公共安全,媒体行业等等;
参考阿里云行业解决方案 https://www.aliyun.com/solution/all?spm=5176.12825654.h2v3icoap.4.2bcc2c4avdN1k1&aly_as=hLFwM6vf
基于hadoop的数据挖掘平台, 推荐 hivemall,一切皆sql,应用上手容易 https://hivemall.incubator.apache.org/
(1)大数据基础原理 参考书籍 hadoop权威指南,掌握mapreduce工作原理等等; (2)读代码,学习框架 hadoop hive hbase spark flink原理和源代码学习; (3)实战 加入到拥有大数据公司或者国内玩大数据的企业,进行实战;
https://docs.python.org/3/library/http.server.html 结合 https://docs.python.org/3/library/asyncio.html
linux crontab 定时调度 参考:https://www.runoob.com/linux/linux-comm-crontab.html
参考调度参数设置, https://help.aliyun.com/document_detail/137548.html?spm=a2c4g.11186623.4.3.585a26409fViVo
结合经验,大数据开发这个概念还是比较泛,可以结合不同的工种介绍: (1)数据工程师 数据ETL,数据上云,数据仓库建设,数据集市建设,数据报表开发; (2)数据分析师 结合实际业务问题,通过大数据分析,寻找发现问题和解决问题,为业务提供数据决策支持; (3)数据挖掘工程师 通过机器学习,数据挖掘算法帮助业务,解决业务痛点;
阿里云 AI能力
https://ai.aliyun.com/?spm=5176.12825654.h2v3icoap.189.e9392c4aEJh0CB&aly_as=qB5Fp2Tr