Huggingface又上不去了?这里有个新的解决方案!

本文涉及的产品
云服务器 ECS,u1 2核4GB 3个月
云服务器 ECS,每月免费额度200元 3个月
云服务器 ECS,u1 4核16GB 1个月
简介: AI开发者都知道,HuggingFace是一个高速发展的社区,包括Meta、Google、Microsoft、Amazon在内的超过5000家组织机构在为HuggingFace开源社区贡献代码、数据集和模型。

最近,由于来自东方的某种神秘力量,导致Huggingface登陆不上去了或者访问速度特别慢。这让我们这些依赖Huggingface和一些其他平台托管的数据集进行“炼丹”的炼丹师们深感烦恼。现在的解决方案基本是都是自己想办法“科学上网”,但众所周知,科学上网不仅得“氪金”,速度慢还不稳定。

但是!最近在阿里云上发现了一个好地方——计算巢数据集市场,可以完美解决大家的问题,让这堵“墙”变成“任意门”~~计算巢数据集是一个高效获取数据集的解决方案,旨在加速企业在人工智能、大数据和云计算(AIGC)创新转型过程中的数据处理环节,从计算巢数据集下载想要的数据集,可以走阿里云内网,速度超乎想象!!

下面给大家实测一下从计算巢下载数据集的过程。

订阅并下载数据

  1. 首先访问计算巢数据集市场,浏览或搜索你感兴趣的数据集。

  1. 点击对应的数据集卡片,进入数据集主页。

  1. 点击数据集名称下方的订阅案例,即可免费获得查看和下载该数据集的权限。注意,是完全免费!!!,当然前提是你得准备好自己的阿里云账号,没有也没关系,用手机号注册很快的~

  1. 点击上方的订阅按钮进入到数据集详情页面,这里可以看到刚刚订阅的数据集的相关信息。点击“详情”就可以到我们最期待的数据集下载页面啦~

  1. 在详情页面点击“数据集”Tab,点击数据集名称左边的“+”展开菜单,就可以看到“导出到OSS”和“下载”按钮了。“导出到OSS”可以通过阿里云内网加速将数据集免费导入你自己的OSS存储,“下载”按钮可以将数据集下载到本地。

这里亲测,两种方式都比我使用“魔法”访问Huggingface快得多~注意,是快得多~~~

现在已经支持的数据集

据阿里云官方人员介绍,这个数据集市场正在不断完善和集成其他常用的数据集,目前已经支持的数据集有以下这些:

  • 中文医学指令数据集
  • 知乎问题答案数据集
  • 中文多任务语言理解评估
  • Firefly(流萤)数据集
  • 维基百科中文数据集
  • 百科类问答
  • 社区问答类

没找到想要的数据集?

相比于其他平台,计算巢数据集对我们个人使用者来说还有一个好处,那就是可以非常方便的反馈自己想要的数据集。计算巢官方提供了一个钉钉群,我们可以加入到群中直接跟阿里云官方人员进行交流,他们会非常迅速的帮我们更新数据集,之前我一直想要的wiki数据跟他们反馈后几个小时就给我上架了,速度感人~泪目~

我把官方钉钉群放在后面了,有需要的小伙伴快和我一起进去白嫖吧~(谁能拒绝白嫖呢~)

钉钉群链接:链接~戳我戳我

群二维码:

相关文章
|
6月前
|
人工智能 开发者
解决HuggingFace模型下载难题:AI快站的高效加速服务
在AI研发领域,获取优质模型资源是关键。国内开发者常因海外服务器导致的下载困难而苦恼,尤其是大型模型下载更是耗时且充满挑战。AI快站(aifasthub.com)作为huggingface镜像网站,提供了高效的加速下载服务。它不仅解决了huggingface大模型下载的速度问题,还支持断点续传,保证下载连续性。此外,AI快站还提供全面及时更新的模型资源,是国内AI开发者的理想选择。
1051 0
|
2天前
|
语音技术 计算机视觉
CVPR 2024 Highlight :北航等发布时间特征维护:无需训练,极致压缩加速Diffusion
【6月更文挑战第28天】在CVPR 2024会议上,北航等研究团队提出了**时间特征维护**技术,针对Diffusion模型实现无需训练的高效压缩与加速。通过选择性保留关键时间特征,他们在保持生成质量的同时,实现了模型4bit极致压缩和超过2.38倍硬件加速,简化了复杂模型,提升了运行效率。这一创新方法有望改善Diffusion模型在实际应用中的资源需求,但其鲁棒性和泛化能力尚需更多验证。[论文链接](https://arxiv.org/pdf/2311.16503)
13 5
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM的测试工具:LaVague平替成国内大模型
LaVague是一款使用LLM将自然语言转换为Selenium代码以实现自动化测试的工具。由于huggingface的某些模型需付费且访问不便,本文介绍了如何使用智谱的免费大模型作为替代。智谱提供免费的embedding模型和大量令牌。
179 1
|
1月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案
阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲,围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。
|
机器学习/深度学习 数据采集 人工智能
LLM系列 | 02: Vicuna简介及模型部署实测
今天这篇小作文主要介绍Vicuna模型、基于官方模型13B模型部署服务及对话实测。
|
缓存 人工智能 并行计算
小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增
小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增
440 0
|
存储 人工智能 自然语言处理
VLDB 2023 | 北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行(1)
VLDB 2023 | 北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行
179 0
|
机器学习/深度学习 人工智能 自然语言处理
VLDB 2023 | 北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行(2)
VLDB 2023 | 北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行
227 0
|
存储 机器学习/深度学习 网络架构
【模型性能杀器解读】如果项目的模型遇到瓶颈,用这些Tricks就对了!!!(一)
【模型性能杀器解读】如果项目的模型遇到瓶颈,用这些Tricks就对了!!!(一)
145 0
【模型性能杀器解读】如果项目的模型遇到瓶颈,用这些Tricks就对了!!!(二)
【模型性能杀器解读】如果项目的模型遇到瓶颈,用这些Tricks就对了!!!(二)
105 0