数据挖掘的数据集资源-阿里云开发者社区

开发者社区> 余二五> 正文

数据挖掘的数据集资源

简介:
+关注继续查看
1、气候监测数据集 [url]http://cdiac.ornl.gov/ftp/ndp026b[/url]
2、几个实用的测试数据集下载的网站
3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
可能有一些不能访问,但是总有能访问的吧:
关于基金的数据挖掘的网站
[url]http://www.gotofund.com/index.asp[/url]
WEKA:
[url]http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar[/url]
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
[url]http://prdownloads.sourceforge.net/weka/datasets-UCI.jar[/url]
2。A jarfile containing 37 regression problems, obtained from various sources
[url]http://prdownloads.sourceforge.net/weka/datasets-numeric.jar[/url]
3。A jarfile containing 30 regression datasets collected by Luis Torgo
[url]http://prdownloads.sourceforge.net/weka/regression-datasets.jar[/url]
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
[url]http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html[/url]

Download the Financial Data (~17.5M zipped file, ~67M unzipped data) 
Download the Medical Data (~2M zipped file, ~6M unzipped data)
[url]http://lisp.vse.cz/pkdd99/Challenge/chall.htm[/url]
还有另外一个很好的资源网址为:[url]http://kdd.ics.uci.edu/[/url],里面包含的数据资源如下(按应用领域划分):
Direct Marketing 
KDD CUP 1998 Data 

GIS 
Forest CoverType 

Indexing 
Corel Image Features 
Pseudo Periodic Synthetic Time Series 

Intrusion Detection 
KDD CUP 1999 Data 

Process Control 
Synthetic Control Chart Time Series 

Recommendation Systems 
Entree Chicago Recommendation Data 

Robots 
Pioneer-1 Mobile Robot Data 
Robot Execution Failures 

Sign Language Recognition 
Australian Sign Language Data 
High-quality Australian Sign Language Data 

Text Categorization 
20 Newsgroups Data 
Reuters-21578 Text Categorization Collection 
NSF Research Awards Abstracts 199 0-2003 

World Wide Web 
Microsoft Anonymous Web Data 
MSNBC Anonymous Web Data 
Syskill Webert Web Data 

这里又找到一个,在一个老外的blog上找到的。(儿童节前一天)
[url]http://www.fs.fed.us/fire/fuelman/[/url]









本文转自 yuwenhu 51CTO博客,原文链接:http://blog.51cto.com/yuwenhu/136551,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
时序数据的数据预处理
最近在读《数据挖掘》,其中关于数据预览和预处理(preprocessing)的内容没有介绍时序数据的处理,但这恰是很重要的应用场景。例如这道捕鱼题https://tianchi.aliyun.com/competition/entrance/231768/information我将根据书中和网络上找到的资料,尝试去清理其中的数据,并将思路记录下来,以备后查。
1358 0
SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作
SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定分组变量,用于控制SET,MERGE,UPDATE或MODIFY语句。 BY<DESCENDING>variable-1 <...<DESCENDI
1386 0
GPS轨迹数据集免费下载资源整理
本文为转载文章 转载请注明出处: https://blog.csdn.net/liangyihuai/article/details/58335510#comments 本文主要是整理了GPS轨迹数据集免费资源库,从这些库中能够免费下载到GPS数据,同时还整理出了这些数据的格式,数据集的简单描述等等。
5621 0
SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理
SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理 1. SAS变量操作的常用语句 ASSIGNMENT 创建或修改变量 SUM 累加变量或表达式 KEEP 规定在数据集中保留的变量 DROP 规定在数据集中删除的变量 ARRAY 定义一个数组 RENAME
1436 0
数据挖掘数据集下载资源
在网上看到很好的资源收集,分享给大家: 1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2、几个实用的测试数据集下载的网站 http://www.
1273 0
获得数据库连接池中数据连接资源的两种方式
相比于从数据库中直接获取数据库连接,使用数据库连接池的方式可以很大程度的提高数据库连接的效率。因此我们在实际开发中通常会采用数据库连接池的方式获取数据库的连接,在使用完成后这些资源再返还给数据库连接池。
861 0
+关注
20382
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载