Python学习十大公开免费数据集介绍

简介: 很多行友说,想做项目学习和练手没有数据怎么办。又想给行哥投稿赚钱,没有数据拿头分析啊。先别急,这里行哥给大家推荐一些数据来源,足够你去好好分析数据,这些数据用来学习和找工作都不是问题


很多行友说,想做项目学习和练手没有数据怎么办。又想给行哥投稿赚钱,没有数据拿头分析啊。先别急,这里行哥给大家推荐一些数据来源,足够你去好好分析数据,这些数据用来学习和找工作都不是问题

   1.公司学校

   2.爬虫

   3.白嫖

1.公司学校

对于公司和学校内部的数据,一般都是比较机密,但是你想主动去帮助他们处理,问老师或老大要些数据来练习,他们还是很愿意的(毕竟多了一个人肉数据清洗机)。

即帮助了老师们的工作,又学到了技术,一举两得的事情我是最喜欢的

2.爬虫

任何数据,只要你在网上能用肉眼看到,理论上都是可以爬取下来的,小到使用爬取个百度图片,大到把一个网站数据库连锅端了完全了没有问题。所以自己做项目分析来练手的数据(除非是得自己生产),都可以用爬虫的方式进行爬取image.png

但是理论归理论,理想很丰满,实际上只能动手复制粘贴

3.白嫖

爬虫不如白嫖,网上的数据源特别多,但是也特别分散或者还收费(例如某觉中国),所以行哥这里给大家精选十大数据网站,让你白嫖到装满电脑为止

   3.1 Kaggle数据集:https://www.kesci.com/home/dataset 这是一个集竞赛、数据和学习为一体的网站,之前烂大街的泰坦尼克号数据分析就是这个网站提供的数据源头。当然也有各种算法竞赛,拿钱学习两不误image.png

   3.2 阿里云天池数据集 https://tianchi.aliyun.com/ 如果英语不好的话,可以使用国内的阿里云天池数据集。这里不仅提供公共数据集,还有免费系统的AI课程可以学,还用你再找那些七零八落的课程资料吗image.png

   3.3 股票数据:http://tushare.waditu.com/ 想学量化交易的同学肯定不能错过这个网站,之前行哥交流群里的同学@Jason在问有没有那种运行代码就能赚钱的技术,你看这个量化领域就是(不过技术不精可能最后裤衩都了)image.png

   3.4 谷歌开源数据集:https://datasetsearch.research.google.com/ 想找官方数据的话得一个个去统计局找,也可以来这个谷歌开源数据集来。比如中国历年平均工资的分布,平均年工资为90501 元,快看看你有没有拖后腿image.png

   3.5 微软数据集:https://msropendata.com/datasets?domain=PHYSICS 微软数据集提供了生物,计算机科学,地球科学,健康护理,数学,物理,社会科学等,想找一些偏僻的数据可以来这里找找image.png

   3.6 Github网站:

https://github.com/awesomedata/awesome-public-datasets 整个Github有很多项目大家可以学习,但是上面这个网址整理很多awesome的数据集,一共有32个类别。看完足够你awesomeimage.png

   3.7 计算机视觉数据集:https://www.visualdata.io/discovery 昨天还有小老弟跟行哥唠,说那么多图像怎么一个个标注啊,那不得标成傻子了。这不,今天它来了,直接提供标注好的图像数据,图像识别还不赶紧学起image.png

   3.8 卫星数据集:google earth 卫星数据动辄几个G,上百个G。总不能一台电脑全保存上卫星数据,就算保存上了,随便调用运算,家用电脑估计就够呛了。所以这个谷歌地球引擎直接提供平台,可以在这个平台里随意调用上百G卫星数据,并在谷歌提供的服务器里运算,这样上手不就更快了image.png

   3.9 数据世界 https://data.world/ 这个网站号称数据界的github,GitHub分享的是代码项目,这里分享的便是纯数据了,想进入数据社区可以来这个网站看看哦image.png

   3.10 行哥数据集:只要微信不倒,行哥的后台回复就是你源源不断的数据集,快星标

相关文章
|
2月前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
62 3
|
2月前
|
安全 关系型数据库 测试技术
学习Python Web开发的安全测试需要具备哪些知识?
学习Python Web开发的安全测试需要具备哪些知识?
36 4
|
3月前
|
PyTorch Linux 算法框架/工具
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
这篇文章是关于如何使用Anaconda进行Python环境管理,包括下载、安装、配置环境变量、创建多版本Python环境、安装PyTorch以及使用Jupyter Notebook的详细指南。
370 1
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
|
17天前
|
Python 容器
Python学习的自我理解和想法(9)
这是我在B站跟随千锋教育学习Python的第9天,主要学习了赋值、浅拷贝和深拷贝的概念及其底层逻辑。由于开学时间紧张,内容较为简略,但希望能帮助理解这些重要概念。赋值是创建引用,浅拷贝创建新容器但元素仍引用原对象,深拷贝则创建完全独立的新对象。希望对大家有所帮助,欢迎讨论。
|
8天前
|
Python
Python学习的自我理解和想法(10)
这是我在千锋教育B站课程学习Python的第10天笔记,主要学习了函数的相关知识。内容包括函数的定义、组成、命名、参数分类(必须参数、关键字参数、默认参数、不定长参数)及调用注意事项。由于开学时间有限,记录较为简略,望谅解。通过学习,我理解了函数可以封装常用功能,简化代码并便于维护。若有不当之处,欢迎指正。
|
19天前
|
存储 索引 Python
Python学习的自我理解和想法(6)
这是我在B站千锋教育学习Python的第6天笔记,主要学习了字典的使用方法,包括字典的基本概念、访问、修改、添加、删除元素,以及获取字典信息、遍历字典和合并字典等内容。开学后时间有限,内容较为简略,敬请谅解。
|
23天前
|
存储 程序员 Python
Python学习的自我理解和想法(2)
今日学习Python第二天,重点掌握字符串操作。内容涵盖字符串介绍、切片、长度统计、子串计数、大小写转换及查找位置等。通过B站黑马程序员课程跟随老师实践,非原创代码,旨在巩固基础知识与技能。
|
22天前
|
程序员 Python
Python学习的自我理解和想法(3)
这是学习Python第三天的内容总结,主要围绕字符串操作展开,包括字符串的提取、分割、合并、替换、判断、编码及格式化输出等,通过B站黑马程序员课程跟随老师实践,非原创代码。
|
19天前
|
Python
Python学习的自我理解和想法(7)
学的是b站的课程(千锋教育),跟老师写程序,不是自创的代码! 今天是学Python的第七天,学的内容是集合。开学了,时间不多,写得不多,见谅。
|
17天前
|
存储 安全 索引
Python学习的自我理解和想法(8)
这是我在B站千锋教育学习Python的第8天,主要内容是元组。元组是一种不可变的序列数据类型,用于存储一组有序的元素。本文介绍了元组的基本操作,包括创建、访问、合并、切片、遍历等,并总结了元组的主要特点,如不可变性、有序性和可作为字典的键。由于开学时间紧张,内容较为简略,望见谅。