开发者社区> 异步社区> 正文

《机器学习与数据科学(基于R的统计学习方法)》——2.3 数据的来源

简介:
+关注继续查看

本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第2章,第2.3节,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.3 数据的来源

你会发现用于机器学习项目的数据文件有多种可能来源。大多数情况下,你将从所效力的公司的领域专家那里得到数据集。给你提供数据集的可能是一个IT技术人员,可能是财务部门掌管公司Excel数据仓库的人,也可能是一个为公司管理社会媒体效果的咨询师。以下是其他的一些来源的列表。

网络上的机器学习数据资源库:一些广为人知的资源库包括加州大学欧文分校的机器学习资源库(archive.ics.uci.edu/ml)、政府的数据网站(例如data.gov),还有机器学习挑战赛的网站Kaggle (www.kaggle.com)。
从应用程序接口(API)中获得:社会媒体数据最常用的API是Twitter API,但是除此之外还有很多其他API。在谷歌的帮助下,你可以轻而易举地调查出是否有其他社会媒体平台提供R可用的API(通过特殊的包)。
抓取网页:几乎你访问的所有网站都能作为数据源使用,特别是那些有组织地显示数据内容的网站。这里唯一的提醒是,你需要一个可以在R中使用的URL,用于呈现包含数据的网页。2.9节会展示从网页中抓取数据的方法。
当你继续学习机器学习的原理时,你应该时刻注意寻找新的数据来源,并考虑:应该如何在机器学习的帮助下使用这个数据集提取知识,从而创造价值?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
谈谈训练数据对机器学习的重要性
人工智能和机器学习已经风靡全球。公司使用机器学习来创造更高效的流程。记账、简历审查和客户聊天都可以通过人工智能技术启动。
125 0
Taurus: 面向机器学习的数据面架构(下)
Taurus: 面向机器学习的数据面架构(下)
252 0
Taurus: 面向机器学习的数据面架构(上)
Taurus: 面向机器学习的数据面架构(上)
175 0
通过机器学习从地震数据中找出隐藏的振动
通过机器学习从地震数据中找出隐藏的振动
27 0
多分类机器学习中数据不平衡的处理(NSL-KDD 数据集+LightGBM)
多分类机器学习中数据不平衡的处理(NSL-KDD 数据集+LightGBM)
314 0
【机器学习技巧】如何快速对离散型数据进行编码: LabelEncoder的使用方法
【机器学习技巧】如何快速对离散型数据进行编码: LabelEncoder的使用方法
37 0
《机器学习中,使用Scikit-Leam简单处理文本数据》电子版地址
机器学习中,使用Scikit-Leam简单处理文本数据
18 0
【机器学习】红酒数据集和加利福尼亚的房价数据的随机森林算法详解
【机器学习】红酒数据集和加利福尼亚的房价数据的随机森林算法详解
69 0
机器学习 PAI 如何上传训练数据|学习笔记
快速学习机器学习 PAI 如何上传训练数据。
61 0
智能优化与机器学习结合算法实现时序数据预测matlab代码清单
智能优化与机器学习结合算法实现时序数据预测matlab代码清单
67 0
+关注
异步社区
异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
文章
问答
文章排行榜
最热
最新
相关电子书
更多
英特尔+阿里云机器学习PAI-全栈赋能AI生态,加速应用落地
立即下载
机器学习在互联网后端技术中的应用
立即下载
阿里云机器学习平台 PAI 产品与技术
立即下载