Huggingface又上不去了?这里有个新的解决方案!

本文涉及的产品
无影云电脑个人版,1个月黄金款+200核时
无影云电脑企业版,4核8GB 120小时 1个月
资源编排,不限时长
简介: AI开发者都知道,HuggingFace是一个高速发展的社区,包括Meta、Google、Microsoft、Amazon在内的超过5000家组织机构在为HuggingFace开源社区贡献代码、数据集和模型。

最近,由于来自东方的某种神秘力量,导致Huggingface登陆不上去了或者访问速度特别慢。这让我们这些依赖Huggingface和一些其他平台托管的数据集进行“炼丹”的炼丹师们深感烦恼。现在的解决方案基本是都是自己想办法“科学上网”,但众所周知,科学上网不仅得“氪金”,速度慢还不稳定。

但是!最近在阿里云上发现了一个好地方——计算巢数据集市场,可以完美解决大家的问题,让这堵“墙”变成“任意门”~~计算巢数据集是一个高效获取数据集的解决方案,旨在加速企业在人工智能、大数据和云计算(AIGC)创新转型过程中的数据处理环节,从计算巢数据集下载想要的数据集,可以走阿里云内网,速度超乎想象!!

下面给大家实测一下从计算巢下载数据集的过程。

订阅并下载数据

  1. 首先访问计算巢数据集市场,浏览或搜索你感兴趣的数据集。

  1. 点击对应的数据集卡片,进入数据集主页。

  1. 点击数据集名称下方的订阅案例,即可免费获得查看和下载该数据集的权限。注意,是完全免费!!!,当然前提是你得准备好自己的阿里云账号,没有也没关系,用手机号注册很快的~

  1. 点击上方的订阅按钮进入到数据集详情页面,这里可以看到刚刚订阅的数据集的相关信息。点击“详情”就可以到我们最期待的数据集下载页面啦~

  1. 在详情页面点击“数据集”Tab,点击数据集名称左边的“+”展开菜单,就可以看到“导出到OSS”和“下载”按钮了。“导出到OSS”可以通过阿里云内网加速将数据集免费导入你自己的OSS存储,“下载”按钮可以将数据集下载到本地。

这里亲测,两种方式都比我使用“魔法”访问Huggingface快得多~注意,是快得多~~~

现在已经支持的数据集

据阿里云官方人员介绍,这个数据集市场正在不断完善和集成其他常用的数据集,目前已经支持的数据集有以下这些:

  • 中文医学指令数据集
  • 知乎问题答案数据集
  • 中文多任务语言理解评估
  • Firefly(流萤)数据集
  • 维基百科中文数据集
  • 百科类问答
  • 社区问答类

没找到想要的数据集?

相比于其他平台,计算巢数据集对我们个人使用者来说还有一个好处,那就是可以非常方便的反馈自己想要的数据集。计算巢官方提供了一个钉钉群,我们可以加入到群中直接跟阿里云官方人员进行交流,他们会非常迅速的帮我们更新数据集,之前我一直想要的wiki数据跟他们反馈后几个小时就给我上架了,速度感人~泪目~

我把官方钉钉群放在后面了,有需要的小伙伴快和我一起进去白嫖吧~(谁能拒绝白嫖呢~)

钉钉群链接:链接~戳我戳我

群二维码:

相关实践学习
2048小游戏
基于计算巢&ECS云服务器快速部署,带您畅玩2048小游戏。
相关文章
|
1月前
|
Shell Docker Python
LLM-02 大模型 本地部署运行 ChatGLM3-6B(13GB) 双卡2070Super8GB 环境配置 单机多卡 基于LLM-01章节 继续乘风破浪 为大模型微调做准备
LLM-02 大模型 本地部署运行 ChatGLM3-6B(13GB) 双卡2070Super8GB 环境配置 单机多卡 基于LLM-01章节 继续乘风破浪 为大模型微调做准备
47 1
|
1月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
41 0
|
3月前
|
机器学习/深度学习 并行计算 TensorFlow
GPU加速TensorFlow模型训练:从环境配置到代码实践的全方位指南,助你大幅提升深度学习应用性能,让模型训练不再等待
【8月更文挑战第31天】本文以随笔形式探讨了如何在TensorFlow中利用GPU加速模型训练,并提供了详细的实践指南。从安装支持GPU的TensorFlow版本到配置NVIDIA CUDA及cuDNN库,再到构建CNN模型并使用MNIST数据集训练,全面展示了GPU加速的重要性与实现方法。通过对比CPU与GPU上的训练效果,突显了GPU在提升训练速度方面的显著优势。最后,还介绍了如何借助TensorBoard监控训练过程,以便进一步优化模型。
600 0
|
5月前
|
语音技术 计算机视觉
CVPR 2024 Highlight :北航等发布时间特征维护:无需训练,极致压缩加速Diffusion
【6月更文挑战第28天】在CVPR 2024会议上,北航等研究团队提出了**时间特征维护**技术,针对Diffusion模型实现无需训练的高效压缩与加速。通过选择性保留关键时间特征,他们在保持生成质量的同时,实现了模型4bit极致压缩和超过2.38倍硬件加速,简化了复杂模型,提升了运行效率。这一创新方法有望改善Diffusion模型在实际应用中的资源需求,但其鲁棒性和泛化能力尚需更多验证。[论文链接](https://arxiv.org/pdf/2311.16503)
63 5
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM的测试工具:LaVague平替成国内大模型
LaVague是一款使用LLM将自然语言转换为Selenium代码以实现自动化测试的工具。由于huggingface的某些模型需付费且访问不便,本文介绍了如何使用智谱的免费大模型作为替代。智谱提供免费的embedding模型和大量令牌。
393 1
|
6月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案
阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲,围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。
|
缓存 人工智能 并行计算
小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增
小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增
496 0
|
机器学习/深度学习 人工智能 自然语言处理
VLDB 2023 | 北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行(2)
VLDB 2023 | 北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行
294 0
|
存储 人工智能 自然语言处理
VLDB 2023 | 北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行(1)
VLDB 2023 | 北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行
224 0
|
机器学习/深度学习 人工智能 自然语言处理
MLPerf Training v2.0 榜单发布,在同等GPU配置下百度飞桨性能世界第一
MLPerf Training v2.0 榜单发布,在同等GPU配置下百度飞桨性能世界第一
177 0
下一篇
无影云桌面