人工智能、大数据、数据挖掘、机器学习-数据集来源(中)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 人工智能、大数据、数据挖掘、机器学习-数据集来源(中)

Datamob.org


http://datamob.org/datasets


Factual


http://www.factual.com/topics/browse


Freebase


http://www.freebase.com/


Google


http://www.google.com/publicdata/directory


infochimps: http://www.infochimps.com/


numbray


http://numbrary.com/


Quora


https://www.quora.com/Data/Where-can-I-find-large-datasets-open-to-the-public


RS Collection 100+


http://rs.io/2014/05/29/list-of-data-sets.html


Sample R data sets


http://stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html


SourceForge 研究数据


http://www.nd.edu/ oss / 数据 / 研究司


StatSci.org


http://www.statsci.org/datasets.html


UFO 报告


http://www.nuforc.org/webreports.html


维基解密 911 寻呼机截取


http://911.wikileaks.org/files/index.html


Stats4Stem.org:R 数据集


http://www.stats4stem.org/data-sets.html


《华盛顿邮报》名单


http://www.washingtonpost.com/wp-srv/metro/data/datapost.html


科学


农业实验


http://www.insider.org/packages/cran/agridat/docs/agridat


气候数据


http://www.cru.uea.ac.uk/cru/data/temperature/#datter


and ftp://ftp.cmdl.noaa.gov/


Gene Expression Omnibus


http://www.ncbi.nlm.nih.gov/geo/


Geo Spatial Data


http://geodacenter.asu.edu/datalist/


Human Microbiome Project


http://www.hmpdacc.org/reference_genomes/reference_genomes.php


MIT Cancer Genomics Data


http://www.broadinstitute.org/cgibin/cancer/datasets.cgi


NASA


http://nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html


NIH Microarray data


ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/®


Protein structure


http://www.infobiotic.net/PSPbenchmarks/


Public Gene Data


http://www.pubgene.org/


斯坦福大学的微阵列数据


http://smd.stanford.edu/


社会科学


综合社会调查


http://www3.norc.org/GSS + 网站 /


ICPSR


http://www.icpsr.umich.edu/icpsrweb/ICPSR/access/index.jsp


皮尤研究


http://www.pewinternet.org/datasets/pages/2/


加州大学洛杉矶分校的社会科学档案


http://dataarchives.ss.ucla.edu/Home.DataPortals.html


UPJOHN 本月


http://www.upjohn.org/erdc/erdc.html


时间序列


时间序列数据库


http://robjhyndman.com/TSDL/


澳大利亚手语数据


http://kdd.ics.uci.edu/databases/auslan/auslan.html


高质量的澳大利亚手语数据


http://kdd.ics.uci.edu/databases/auslan2/auslan.html


脑电图数据


http://kdd.ics.uci.edu/databases/eeg/eeg.html


日本的元音


http://kdd.ics.uci.edu/databases/JapaneseVowels/JapaneseVowels.html


Pioneer-1 移动机器人数据


http://kdd.ics.uci.edu/databases/pioneer/pioneer.html


伪周期合成时间序列


http://kdd.ics.uci.edu/databases/synthetic/synthetic.html


合成控制图时间序列


http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.html


大学


卡内基梅隆大学安然电子邮件


http://www.cs.cmu.edu/~ 安然 /


卡内基梅隆大学 StatLab


http://lib.stat.cmu.edu/datasets/


龙骨存储库


http://sci2s.ugr.es/keel/datasets.php


卡内基梅隆大学 JASA 数据归档


http://lib.stat.cmu.edu/jasadata/


俄亥俄州立大学财务数据


http://fisher.osu.edu/fin/osudata.htm


加州大学伯克利分校


http://ucdata.berkeley.edu/


加州大学洛杉矶分校


http://aws.amazon.com/datasets


加州大学河滨分校时间序列


http://www.cs.ucr.edu/ / time_series_data /


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
25天前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
58 10
|
25天前
|
机器学习/深度学习 人工智能 搜索推荐
【数据挖掘】2022年深信服科技机器学习工程师笔试
总结了深信服科技机器学习工程师笔试中的几道题目及其解答,涉及数据结构、机器学习评估指标和过拟合缓解方法等内容。
48 1
|
30天前
|
数据采集 存储 NoSQL
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
|
25天前
|
机器学习/深度学习 存储 人工智能
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
本文是关于2022-2023年知能科技公司机器学习算法工程师岗位的秋招笔试题,包括简答题和编程题,简答题涉及神经网络防止过拟合的方法、ReLU激活函数的使用原因以及条件概率计算,编程题包括路径行走时间计算和两车相向而行相遇时间问题。
51 2
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
|
25天前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
文章汇总并解析了百度机器学习/数据挖掘工程师/自然语言处理工程师历史笔试题目,覆盖了多分类任务激活函数、TCP首部确认号字段、GMM-HMM模型、朴素贝叶斯模型、SGD随机梯度下降法、随机森林算法、强连通图、红黑树和完全二叉树的高度、最长公共前后缀、冒泡排序比较次数、C4.5属性划分标准、语言模型类型、分词算法、贝叶斯决策理论、样本信息熵、数据降维方法、分箱方法、物理地址计算、分时系统响应时间分析、小顶堆删除调整等多个知识点。
30 1
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
|
24天前
|
机器学习/深度学习 人工智能 算法
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
本文提供了奇虎360公司2022年秋招机器学习算法工程师岗位的笔试题内容,包括选择题和编程题,涉及概率统计、数据结构、机器学习、计算机组成原理等多个领域。
56 5
|
25天前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】2022年2023届秋招宏瓴科技公司机器学习算法工程师 笔试题
关于宏瓴科技有限公司2022-2023年秋招机器学习算法工程师岗位的笔试题目及作者个人对部分题目的解答尝试,涉及贝叶斯误差和贝叶斯最优分类器的概念、贝叶斯误差的重要性和估算方法,以及如何有效利用训练集和测试集进行深度学习模型训练的数据集划分策略。
38 4
|
25天前
|
机器学习/深度学习 分布式计算 并行计算
性能优化视角:Python与R在大数据与高性能机器学习中的选择
【8月更文第6天】随着数据量的激增,传统的单机计算已经难以满足处理大规模数据集的需求。Python和R作为流行的数据科学语言,各自拥有独特的特性和生态系统来应对大数据和高性能计算的挑战。本文将从性能优化的角度出发,探讨这两种语言在处理大数据集和高性能计算时的不同表现,并提供具体的代码示例。
32 3
|
25天前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 2023届校招笔试详解
百度2023届校招机器学习/数据挖掘/自然语言处理工程师笔试的题目详解
31 1
|
25天前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
39 1
下一篇
云函数