人工智能、大数据、数据挖掘、机器学习-数据集来源(中)

简介: 人工智能、大数据、数据挖掘、机器学习-数据集来源(中)

Datamob.org


http://datamob.org/datasets


Factual


http://www.factual.com/topics/browse


Freebase


http://www.freebase.com/


Google


http://www.google.com/publicdata/directory


infochimps: http://www.infochimps.com/


numbray


http://numbrary.com/


Quora


https://www.quora.com/Data/Where-can-I-find-large-datasets-open-to-the-public


RS Collection 100+


http://rs.io/2014/05/29/list-of-data-sets.html


Sample R data sets


http://stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html


SourceForge 研究数据


http://www.nd.edu/ oss / 数据 / 研究司


StatSci.org


http://www.statsci.org/datasets.html


UFO 报告


http://www.nuforc.org/webreports.html


维基解密 911 寻呼机截取


http://911.wikileaks.org/files/index.html


Stats4Stem.org:R 数据集


http://www.stats4stem.org/data-sets.html


《华盛顿邮报》名单


http://www.washingtonpost.com/wp-srv/metro/data/datapost.html


科学


农业实验


http://www.insider.org/packages/cran/agridat/docs/agridat


气候数据


http://www.cru.uea.ac.uk/cru/data/temperature/#datter


and ftp://ftp.cmdl.noaa.gov/


Gene Expression Omnibus


http://www.ncbi.nlm.nih.gov/geo/


Geo Spatial Data


http://geodacenter.asu.edu/datalist/


Human Microbiome Project


http://www.hmpdacc.org/reference_genomes/reference_genomes.php


MIT Cancer Genomics Data


http://www.broadinstitute.org/cgibin/cancer/datasets.cgi


NASA


http://nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html


NIH Microarray data


ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/®


Protein structure


http://www.infobiotic.net/PSPbenchmarks/


Public Gene Data


http://www.pubgene.org/


斯坦福大学的微阵列数据


http://smd.stanford.edu/


社会科学


综合社会调查


http://www3.norc.org/GSS + 网站 /


ICPSR


http://www.icpsr.umich.edu/icpsrweb/ICPSR/access/index.jsp


皮尤研究


http://www.pewinternet.org/datasets/pages/2/


加州大学洛杉矶分校的社会科学档案


http://dataarchives.ss.ucla.edu/Home.DataPortals.html


UPJOHN 本月


http://www.upjohn.org/erdc/erdc.html


时间序列


时间序列数据库


http://robjhyndman.com/TSDL/


澳大利亚手语数据


http://kdd.ics.uci.edu/databases/auslan/auslan.html


高质量的澳大利亚手语数据


http://kdd.ics.uci.edu/databases/auslan2/auslan.html


脑电图数据


http://kdd.ics.uci.edu/databases/eeg/eeg.html


日本的元音


http://kdd.ics.uci.edu/databases/JapaneseVowels/JapaneseVowels.html


Pioneer-1 移动机器人数据


http://kdd.ics.uci.edu/databases/pioneer/pioneer.html


伪周期合成时间序列


http://kdd.ics.uci.edu/databases/synthetic/synthetic.html


合成控制图时间序列


http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.html


大学


卡内基梅隆大学安然电子邮件


http://www.cs.cmu.edu/~ 安然 /


卡内基梅隆大学 StatLab


http://lib.stat.cmu.edu/datasets/


龙骨存储库


http://sci2s.ugr.es/keel/datasets.php


卡内基梅隆大学 JASA 数据归档


http://lib.stat.cmu.edu/jasadata/


俄亥俄州立大学财务数据


http://fisher.osu.edu/fin/osudata.htm


加州大学伯克利分校


http://ucdata.berkeley.edu/


加州大学洛杉矶分校


http://aws.amazon.com/datasets


加州大学河滨分校时间序列


http://www.cs.ucr.edu/ / time_series_data /


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
10月前
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
543 0
|
8月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
1028 25
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
8月前
|
SQL 分布式计算 数据挖掘
你以为大数据只是存?其实真正的“宝藏”藏在这招里——数据挖掘!
你以为大数据只是存?其实真正的“宝藏”藏在这招里——数据挖掘!
250 1
|
9月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL消息传递接口的PyG替换
DGL (Deep Graph Learning) 和 PyG (Pytorch Geometric) 是两个主流的图神经网络库,它们在API设计和底层实现上有一定差异,在不同场景下,研究人员会使用不同的依赖库,昇腾NPU对PyG图机器学习库的支持亲和度更高,因此有些时候需要做DGL接口的PyG替换。
|
9月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
436 6
|
机器学习/深度学习 人工智能 自然语言处理
Java+机器学习基础:打造AI学习基础
随着人工智能(AI)技术的飞速发展,越来越多的开发者开始探索如何将AI技术应用到实际业务场景中。Java作为一种强大的编程语言,不仅在企业级应用开发中占据重要地位,在AI领域也展现出了巨大的潜力。本文将通过模拟一个AI应用,从背景历史、业务场景、优缺点、底层原理等方面,介绍如何使用Java结合机器学习技术来打造一个AI学习的基础Demo。
614 18
|
机器学习/深度学习 数据采集 人工智能
容器化机器学习流水线:构建可复用的AI工作流
本文介绍了如何构建容器化的机器学习流水线,以提高AI模型开发和部署的效率与可重复性。首先,我们探讨了机器学习流水线的概念及其优势,包括自动化任务、确保一致性、简化协作和实现CI/CD。接着,详细说明了使用Kubeflow Pipelines在Kubernetes上构建流水线的步骤,涵盖安装、定义流水线、构建组件镜像及上传运行。容器化流水线不仅提升了环境一致性和可移植性,还通过资源隔离和扩展性支持更大规模的数据处理。

热门文章

最新文章