Python学习十大公开免费数据集介绍

简介: 很多行友说,想做项目学习和练手没有数据怎么办。又想给行哥投稿赚钱,没有数据拿头分析啊。先别急,这里行哥给大家推荐一些数据来源,足够你去好好分析数据,这些数据用来学习和找工作都不是问题


很多行友说,想做项目学习和练手没有数据怎么办。又想给行哥投稿赚钱,没有数据拿头分析啊。先别急,这里行哥给大家推荐一些数据来源,足够你去好好分析数据,这些数据用来学习和找工作都不是问题

   1.公司学校

   2.爬虫

   3.白嫖

1.公司学校

对于公司和学校内部的数据,一般都是比较机密,但是你想主动去帮助他们处理,问老师或老大要些数据来练习,他们还是很愿意的(毕竟多了一个人肉数据清洗机)。

即帮助了老师们的工作,又学到了技术,一举两得的事情我是最喜欢的

2.爬虫

任何数据,只要你在网上能用肉眼看到,理论上都是可以爬取下来的,小到使用爬取个百度图片,大到把一个网站数据库连锅端了完全了没有问题。所以自己做项目分析来练手的数据(除非是得自己生产),都可以用爬虫的方式进行爬取image.png

但是理论归理论,理想很丰满,实际上只能动手复制粘贴

3.白嫖

爬虫不如白嫖,网上的数据源特别多,但是也特别分散或者还收费(例如某觉中国),所以行哥这里给大家精选十大数据网站,让你白嫖到装满电脑为止

   3.1 Kaggle数据集:https://www.kesci.com/home/dataset 这是一个集竞赛、数据和学习为一体的网站,之前烂大街的泰坦尼克号数据分析就是这个网站提供的数据源头。当然也有各种算法竞赛,拿钱学习两不误image.png

   3.2 阿里云天池数据集 https://tianchi.aliyun.com/ 如果英语不好的话,可以使用国内的阿里云天池数据集。这里不仅提供公共数据集,还有免费系统的AI课程可以学,还用你再找那些七零八落的课程资料吗image.png

   3.3 股票数据:http://tushare.waditu.com/ 想学量化交易的同学肯定不能错过这个网站,之前行哥交流群里的同学@Jason在问有没有那种运行代码就能赚钱的技术,你看这个量化领域就是(不过技术不精可能最后裤衩都了)image.png

   3.4 谷歌开源数据集:https://datasetsearch.research.google.com/ 想找官方数据的话得一个个去统计局找,也可以来这个谷歌开源数据集来。比如中国历年平均工资的分布,平均年工资为90501 元,快看看你有没有拖后腿image.png

   3.5 微软数据集:https://msropendata.com/datasets?domain=PHYSICS 微软数据集提供了生物,计算机科学,地球科学,健康护理,数学,物理,社会科学等,想找一些偏僻的数据可以来这里找找image.png

   3.6 Github网站:

https://github.com/awesomedata/awesome-public-datasets 整个Github有很多项目大家可以学习,但是上面这个网址整理很多awesome的数据集,一共有32个类别。看完足够你awesomeimage.png

   3.7 计算机视觉数据集:https://www.visualdata.io/discovery 昨天还有小老弟跟行哥唠,说那么多图像怎么一个个标注啊,那不得标成傻子了。这不,今天它来了,直接提供标注好的图像数据,图像识别还不赶紧学起image.png

   3.8 卫星数据集:google earth 卫星数据动辄几个G,上百个G。总不能一台电脑全保存上卫星数据,就算保存上了,随便调用运算,家用电脑估计就够呛了。所以这个谷歌地球引擎直接提供平台,可以在这个平台里随意调用上百G卫星数据,并在谷歌提供的服务器里运算,这样上手不就更快了image.png

   3.9 数据世界 https://data.world/ 这个网站号称数据界的github,GitHub分享的是代码项目,这里分享的便是纯数据了,想进入数据社区可以来这个网站看看哦image.png

   3.10 行哥数据集:只要微信不倒,行哥的后台回复就是你源源不断的数据集,快星标

相关文章
|
3月前
|
数据库 Python
Python学习的自我理解和想法(18)
这是我在学习Python第18天的总结,内容基于B站千锋教育课程,主要涉及面向对象编程的核心概念。包括:`self`关键字的作用、魔术方法的特点与使用(如构造函数`__init__`和析构函数`__del__`)、类属性与对象属性的区别及修改方式。通过学习,我初步理解了如何利用这些机制实现更灵活的程序设计,但深知目前对Python的理解仍较浅显,欢迎指正交流!
|
2月前
|
安全 数据安全/隐私保护 Python
Python学习的自我理解和想法(27)
本文记录了学习Python第27天的内容,主要介绍了使用Python操作PPTX和PDF的技巧。其中包括通过`python-pptx`库创建PPTX文件的详细步骤,如创建幻灯片对象、选择母版布局、编辑标题与副标题、添加文本框和图片,以及保存文件。此外,还讲解了如何利用`PyPDF2`库为PDF文件加密,涵盖安装库、定义函数、读取文件、设置密码及保存加密文件的过程。文章总结了Python在处理文档时的强大功能,并表达了对读者应用这些技能的期待。
|
3月前
|
数据采集 机器学习/深度学习 自然语言处理
Python学习的自我理解和想法(16)
这是我在B站千锋教育课程中学Python的第16天总结,主要学习了`datetime`和`time`模块的常用功能,包括创建日期、时间,获取当前时间及延迟操作等。同时简要介绍了多个方向的补充库,如网络爬虫、数据分析、机器学习等,并讲解了自定义模块的编写与调用方法。因开学时间有限,内容精简,希望对大家有所帮助!如有不足,欢迎指正。
|
22天前
|
数据采集 存储 监控
抖音直播间采集提取工具,直播间匿名截流获客软件,Python开发【仅供学习】
这是一套基于Python开发的抖音直播间数据采集与分析系统,包含观众信息获取、弹幕监控及数据存储等功能。代码采用requests、websockets和sqlite3等...
|
3月前
|
Python
Python学习的自我理解和想法(19)
这是一篇关于Python面向对象学习的总结,基于B站千锋教育课程内容编写。主要涵盖三大特性:封装、继承与多态。详细讲解了继承(包括构造函数继承、多继承)及类方法与静态方法的定义、调用及区别。尽管开学后时间有限,但作者仍对所学内容进行了系统梳理,并分享了自己的理解,欢迎指正交流。
|
2月前
|
存储 搜索推荐 算法
Python学习的自我理解和想法(28)
本文记录了学习Python第28天的内容——冒泡排序。通过B站千锋教育课程学习,非原创代码。文章详细介绍了冒泡排序的起源、概念、工作原理及多种Python实现方式(普通版、进阶版1和进阶版2)。同时分析了其时间复杂度(最坏、最好、平均情况)与空间复杂度,并探讨了实际应用场景(如小规模数据排序、教学示例)及局限性(如效率低下、不适用于高实时性场景)。最后总结了冒泡排序的意义及其对初学者的重要性。
|
2月前
|
Python
Python学习的自我理解和想法(26)
这是一篇关于使用Python操作Word文档的学习总结,基于B站千锋教育课程内容编写。主要介绍了通过`python-docx`库在Word中插入列表(有序与无序)、表格,以及读取docx文件的方法。详细展示了代码示例与结果,涵盖创建文档对象、添加数据、设置样式、保存文件等步骤。虽为开学后时间有限下的简要记录,但仍清晰梳理了核心知识点,有助于初学者掌握自动化办公技巧。不足之处欢迎指正!
|
3月前
|
数据采集 数据挖掘 Python
Python学习的自我理解和想法(22)
本文记录了作者学习Python第22天的内容——正则表达式,基于B站千锋教育课程。文章简要介绍了正则表达式的概念、特点及使用场景(如爬虫、数据清洗等),并通过示例解析了`re.search()`、`re.match()`、拆分、替换和匹配中文等基本语法。正则表达式是文本处理的重要工具,尽管入门较难,但功能强大。作者表示后续会深入讲解其应用,并强调学好正则对爬虫学习的帮助。因时间有限,内容为入门概述,不足之处敬请谅解。
|
3月前
|
设计模式 数据库 Python
Python学习的自我理解和想法(20)
这是我在B站千锋教育课程中学习Python第20天的总结,主要涉及面向对象编程的核心概念。内容包括:私有属性与私有方法的定义、语法及调用方式;多态的含义与实现,强调父类引用指向子类对象的特点;单例设计模式的定义、应用场景及实现步骤。通过学习,我掌握了如何在类中保护数据(私有化)、实现灵活的方法重写(多态)以及确保单一实例(单例模式)。由于开学时间有限,内容简明扼要,如有不足之处,欢迎指正!
|
3月前
|
索引 Python
Python学习的自我理解和想法(24)
本文记录了学习Python操作Excel的第24天内容,基于B站千锋教育课程。主要介绍openpyxl插件的使用,包括安装、读取与写入Excel文件、插入图表等操作。具体内容涵盖加载工作簿、获取单元格数据、创建和保存工作表,以及通过图表展示数据。因开学时间有限,文章简要概述了各步骤代码实现,适合初学者参考学习。如有不足之处,欢迎指正!

推荐镜像

更多