Python学习十大公开免费数据集介绍

简介: 很多行友说,想做项目学习和练手没有数据怎么办。又想给行哥投稿赚钱,没有数据拿头分析啊。先别急,这里行哥给大家推荐一些数据来源,足够你去好好分析数据,这些数据用来学习和找工作都不是问题


很多行友说,想做项目学习和练手没有数据怎么办。又想给行哥投稿赚钱,没有数据拿头分析啊。先别急,这里行哥给大家推荐一些数据来源,足够你去好好分析数据,这些数据用来学习和找工作都不是问题

   1.公司学校

   2.爬虫

   3.白嫖

1.公司学校

对于公司和学校内部的数据,一般都是比较机密,但是你想主动去帮助他们处理,问老师或老大要些数据来练习,他们还是很愿意的(毕竟多了一个人肉数据清洗机)。

即帮助了老师们的工作,又学到了技术,一举两得的事情我是最喜欢的

2.爬虫

任何数据,只要你在网上能用肉眼看到,理论上都是可以爬取下来的,小到使用爬取个百度图片,大到把一个网站数据库连锅端了完全了没有问题。所以自己做项目分析来练手的数据(除非是得自己生产),都可以用爬虫的方式进行爬取image.png

但是理论归理论,理想很丰满,实际上只能动手复制粘贴

3.白嫖

爬虫不如白嫖,网上的数据源特别多,但是也特别分散或者还收费(例如某觉中国),所以行哥这里给大家精选十大数据网站,让你白嫖到装满电脑为止

   3.1 Kaggle数据集:https://www.kesci.com/home/dataset 这是一个集竞赛、数据和学习为一体的网站,之前烂大街的泰坦尼克号数据分析就是这个网站提供的数据源头。当然也有各种算法竞赛,拿钱学习两不误image.png

   3.2 阿里云天池数据集 https://tianchi.aliyun.com/ 如果英语不好的话,可以使用国内的阿里云天池数据集。这里不仅提供公共数据集,还有免费系统的AI课程可以学,还用你再找那些七零八落的课程资料吗image.png

   3.3 股票数据:http://tushare.waditu.com/ 想学量化交易的同学肯定不能错过这个网站,之前行哥交流群里的同学@Jason在问有没有那种运行代码就能赚钱的技术,你看这个量化领域就是(不过技术不精可能最后裤衩都了)image.png

   3.4 谷歌开源数据集:https://datasetsearch.research.google.com/ 想找官方数据的话得一个个去统计局找,也可以来这个谷歌开源数据集来。比如中国历年平均工资的分布,平均年工资为90501 元,快看看你有没有拖后腿image.png

   3.5 微软数据集:https://msropendata.com/datasets?domain=PHYSICS 微软数据集提供了生物,计算机科学,地球科学,健康护理,数学,物理,社会科学等,想找一些偏僻的数据可以来这里找找image.png

   3.6 Github网站:

https://github.com/awesomedata/awesome-public-datasets 整个Github有很多项目大家可以学习,但是上面这个网址整理很多awesome的数据集,一共有32个类别。看完足够你awesomeimage.png

   3.7 计算机视觉数据集:https://www.visualdata.io/discovery 昨天还有小老弟跟行哥唠,说那么多图像怎么一个个标注啊,那不得标成傻子了。这不,今天它来了,直接提供标注好的图像数据,图像识别还不赶紧学起image.png

   3.8 卫星数据集:google earth 卫星数据动辄几个G,上百个G。总不能一台电脑全保存上卫星数据,就算保存上了,随便调用运算,家用电脑估计就够呛了。所以这个谷歌地球引擎直接提供平台,可以在这个平台里随意调用上百G卫星数据,并在谷歌提供的服务器里运算,这样上手不就更快了image.png

   3.9 数据世界 https://data.world/ 这个网站号称数据界的github,GitHub分享的是代码项目,这里分享的便是纯数据了,想进入数据社区可以来这个网站看看哦image.png

   3.10 行哥数据集:只要微信不倒,行哥的后台回复就是你源源不断的数据集,快星标

相关文章
|
1月前
|
存储 Java 数据处理
(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么? numpy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。 Numpy能做什么? numpy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++
265 0
|
1月前
|
存储 JavaScript Java
(Python基础)新时代语言!一起学习Python吧!(四):dict字典和set类型;切片类型、列表生成式;map和reduce迭代器;filter过滤函数、sorted排序函数;lambda函数
dict字典 Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。 我们可以通过声明JS对象一样的方式声明dict
122 1
|
1月前
|
算法 Java Docker
(Python基础)新时代语言!一起学习Python吧!(三):IF条件判断和match匹配;Python中的循环:for...in、while循环;循环操作关键字;Python函数使用方法
IF 条件判断 使用if语句,对条件进行判断 true则执行代码块缩进语句 false则不执行代码块缩进语句,如果有else 或 elif 则进入相应的规则中执行
179 2
|
1月前
|
存储 Java 索引
(Python基础)新时代语言!一起学习Python吧!(二):字符编码由来;Python字符串、字符串格式化;list集合和tuple元组区别
字符编码 我们要清楚,计算机最开始的表达都是由二进制而来 我们要想通过二进制来表示我们熟知的字符看看以下的变化 例如: 1 的二进制编码为 0000 0001 我们通过A这个字符,让其在计算机内部存储(现如今,A 字符在地址通常表示为65) 现在拿A举例: 在计算机内部 A字符,它本身表示为 65这个数,在计算机底层会转为二进制码 也意味着A字符在底层表示为 1000001 通过这样的字符表示进行转换,逐步发展为拥有127个字符的编码存储到计算机中,这个编码表也被称为ASCII编码。 但随时代变迁,ASCII编码逐渐暴露短板,全球有上百种语言,光是ASCII编码并不能够满足需求
109 4
|
2月前
|
JavaScript Java 大数据
基于python的网络课程在线学习交流系统
本研究聚焦网络课程在线学习交流系统,从社会、技术、教育三方面探讨其发展背景与意义。系统借助Java、Spring Boot、MySQL、Vue等技术实现,融合云计算、大数据与人工智能,推动教育公平与教学模式创新,具有重要理论价值与实践意义。
|
6月前
|
安全 数据安全/隐私保护 Python
Python学习的自我理解和想法(27)
本文记录了学习Python第27天的内容,主要介绍了使用Python操作PPTX和PDF的技巧。其中包括通过`python-pptx`库创建PPTX文件的详细步骤,如创建幻灯片对象、选择母版布局、编辑标题与副标题、添加文本框和图片,以及保存文件。此外,还讲解了如何利用`PyPDF2`库为PDF文件加密,涵盖安装库、定义函数、读取文件、设置密码及保存加密文件的过程。文章总结了Python在处理文档时的强大功能,并表达了对读者应用这些技能的期待。
|
4月前
|
算法 IDE 测试技术
python学习需要注意的事项
python学习需要注意的事项
241 57
|
4月前
|
JSON 数据安全/隐私保护 数据格式
拼多多批量下单软件,拼多多无限账号下单软件,python框架仅供学习参考
完整的拼多多自动化下单框架,包含登录、搜索商品、获取商品列表、下单等功能。
|
4月前
|
机器学习/深度学习 数据安全/隐私保护 计算机视觉
过三色刷脸技术,过三色刷脸技术教程,插件过人脸python分享学习
三色刷脸技术是基于RGB三通道分离的人脸特征提取方法,通过分析人脸在不同颜色通道的特征差异

推荐镜像

更多