人工智能、大数据、数据挖掘、机器学习-数据集来源(下)

简介: 人工智能、大数据、数据挖掘、机器学习-数据集来源(下)

多伦多大学


http://www.cs.toronto.edu / 深入 / 数据 / datasets.html


UCI 知识发现 (KDD) 归档


http://kdd.ics.uci.edu/


信息和计算机科学


http://www.ics.uci.edu/


加州大学欧文分校


https://uci.edu/


互联网相关数据集


Dataset for “Statistics and SocialNetwork of YouTube Videos”


http://netsg.cs.sfu.ca/youtubedata/


1998 World Cup Web Site Access Logs


http://ita.ee.lbl.gov/html/contrib/WorldCup.html


(从 1998/04/26 到 1998/07/26 的 92 天中,发生了 1,352,804,107 次请求)


Page view statistics for Wikimedia projects


http://dammit.lt/wikistats/


AOL Search Query Logs - RP


http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs


livedoor gourmet


http://blog.livedoor.jp/techblog/archives/65836960.html


离散序列数据


UNIX 用户数据


http://kdd.ics.uci.edu/databases/UNIX_user_data/UNIX_user_data.html


主菜芝加哥推荐数据


http://kdd.ics.uci.edu/databases/entree/entree.html


多元数据


人口收入调查数据库


http://kdd.ics.uci.edu/databases/census-income/census-income.html


线圈数据


http://kdd.ics.uci.edu/databases/coil/coil.html


Corel 图像特征


http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.html


森林 CoverType


http://kdd.ics.uci.edu/databases/covertype/covertype.html


保险公司基准 (2000 卷)


http://kdd.ics.uci.edu/databases/tic/tic.html


互联网使用数据


http://kdd.ics.uci.edu/databases/internet_usage/internet_usage.html


IPUMS 人口普查数据


http://kdd.ics.uci.edu/databases/ipums/ipums.html


KDD CUP 1998 数据


http://kdd.ics.uci.edu/databases/kddcup98/kddcup98.html


KDD CUP 1999 数据


http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html


1990 年美国人口普查数据


http://kdd.ics.uci.edu/databases/census1990/USCensus1990.html


关系数据


大肠杆菌基因


http://kdd.ics.uci.edu/databases/ecoli/ecoli.html


结核分枝杆菌基因


http://kdd.ics.uci.edu/databases/tb/tb.html


电影


http://kdd.ics.uci.edu/databases/movies/movies.html


MovieLens 数据集


http://datahub.io/dataset/movielens


厄尔尼诺现象的数据


http://kdd.ics.uci.edu/databases/el_nino/el_nino.html


文本


20 新闻组数据


http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html


路透社 - 21578 文本分类收集


http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html


路透转录子集


http://kdd.ics.uci.edu/databases/reuters_transcribed/reuters_transcribed.html


摘要 1990- 2003 年 NSF 研究奖项


http://kdd.ics.uci.edu/databases/nsfabs/nsfawards.html


其他


http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html


http://www.w3.org/TR/WD-logfile-960221.html


http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog


http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html


http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/


http://www.web-caching.com/traces-logs.html


http://www-2.cs.cmu.edu/webkb


http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf


http://www.cs.cornell.edu/projects/kddcup/index.html



相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3天前
|
机器学习/深度学习 数据采集 人工智能
论文介绍:机器学习中数据集规模增长的极限分析
【5月更文挑战第17天】论文《机器学习中数据集规模增长的极限分析》探讨了数据集大小对AI模型性能的影响,预测语言数据可能在2026年前耗尽,图像数据在2030-2060年可能面临相同问题。研究显示数据积累速度无法跟上数据集增长,可能在2030-2040年间导致训练瓶颈。然而,算法创新和新数据源的发展可能缓解这一问题。[链接](https://arxiv.org/pdf/2211.04325.pdf)
11 2
|
6天前
|
机器学习/深度学习 分布式计算 并行计算
【机器学习】怎样在非常大的数据集上执行K-means算法?
【5月更文挑战第13天】【机器学习】怎样在非常大的数据集上执行K-means算法?
|
6天前
|
人工智能 分布式计算 Cloud Native
大数据&AI产品月刊【2024年4月】
大数据&AI产品技术月刊【2024年4月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
6天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI
人工智能平台PAI
16 0
|
6天前
|
机器学习/深度学习 人工智能 算法
基于Java的人工智能与机器学习初探
基于Java的人工智能与机器学习初探
20 0
|
6天前
|
机器学习/深度学习 存储 人工智能
【人工智能】机器学习算法综述及常见算法详解
【人工智能】机器学习算法综述及常见算法详解
|
6天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
6天前
|
机器学习/深度学习 数据采集 SQL
【Python机器学习专栏】使用Pandas处理机器学习数据集
【4月更文挑战第30天】本文介绍了如何使用Python的Pandas库处理机器学习数据集,涵盖数据读取、概览、清洗、转换、切分和保存等步骤。通过Pandas,可以从CSV等格式加载数据,进行缺失值、异常值处理,数据类型转换,如归一化、类别编码,并实现训练集与测试集的划分。此外,还展示了如何保存处理后的数据,强调了Pandas在数据预处理中的重要性。
|
6天前
|
机器学习/深度学习 存储 人工智能
人工智能平台PAI产品使用合集之是否可以在模型部署发布后以http接口形式提供给业务开发人员使用
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

热门文章

最新文章