Huggingface又上不去了?这里有个新的解决方案!

本文涉及的产品
资源编排,不限时长
无影云电脑个人版,1个月黄金款+200核时
无影云电脑企业版,4核8GB 120小时 1个月
简介: AI开发者都知道,HuggingFace是一个高速发展的社区,包括Meta、Google、Microsoft、Amazon在内的超过5000家组织机构在为HuggingFace开源社区贡献代码、数据集和模型。

最近,由于来自东方的某种神秘力量,导致Huggingface登陆不上去了或者访问速度特别慢。这让我们这些依赖Huggingface和一些其他平台托管的数据集进行“炼丹”的炼丹师们深感烦恼。现在的解决方案基本是都是自己想办法“科学上网”,但众所周知,科学上网不仅得“氪金”,速度慢还不稳定。

但是!最近在阿里云上发现了一个好地方——计算巢数据集市场,可以完美解决大家的问题,让这堵“墙”变成“任意门”~~计算巢数据集是一个高效获取数据集的解决方案,旨在加速企业在人工智能、大数据和云计算(AIGC)创新转型过程中的数据处理环节,从计算巢数据集下载想要的数据集,可以走阿里云内网,速度超乎想象!!

下面给大家实测一下从计算巢下载数据集的过程。

订阅并下载数据

  1. 首先访问计算巢数据集市场,浏览或搜索你感兴趣的数据集。

  1. 点击对应的数据集卡片,进入数据集主页。

  1. 点击数据集名称下方的订阅案例,即可免费获得查看和下载该数据集的权限。注意,是完全免费!!!,当然前提是你得准备好自己的阿里云账号,没有也没关系,用手机号注册很快的~

  1. 点击上方的订阅按钮进入到数据集详情页面,这里可以看到刚刚订阅的数据集的相关信息。点击“详情”就可以到我们最期待的数据集下载页面啦~

  1. 在详情页面点击“数据集”Tab,点击数据集名称左边的“+”展开菜单,就可以看到“导出到OSS”和“下载”按钮了。“导出到OSS”可以通过阿里云内网加速将数据集免费导入你自己的OSS存储,“下载”按钮可以将数据集下载到本地。

这里亲测,两种方式都比我使用“魔法”访问Huggingface快得多~注意,是快得多~~~

现在已经支持的数据集

据阿里云官方人员介绍,这个数据集市场正在不断完善和集成其他常用的数据集,目前已经支持的数据集有以下这些:

  • 中文医学指令数据集
  • 知乎问题答案数据集
  • 中文多任务语言理解评估
  • Firefly(流萤)数据集
  • 维基百科中文数据集
  • 百科类问答
  • 社区问答类

没找到想要的数据集?

相比于其他平台,计算巢数据集对我们个人使用者来说还有一个好处,那就是可以非常方便的反馈自己想要的数据集。计算巢官方提供了一个钉钉群,我们可以加入到群中直接跟阿里云官方人员进行交流,他们会非常迅速的帮我们更新数据集,之前我一直想要的wiki数据跟他们反馈后几个小时就给我上架了,速度感人~泪目~

我把官方钉钉群放在后面了,有需要的小伙伴快和我一起进去白嫖吧~(谁能拒绝白嫖呢~)

钉钉群链接:链接~戳我戳我

群二维码:

相关实践学习
2048小游戏
基于计算巢&ECS云服务器快速部署,带您畅玩2048小游戏。
相关文章
|
8月前
|
并行计算 API Docker
ModelScope问题之环境不好配置如何解决
ModelScope镜像是指用于在ModelScope平台上创建和管理的容器镜像,这些镜像包含用于模型训练和推理的环境和依赖;本合集将说明如何使用ModelScope镜像以及管理镜像的技巧和注意事项。
168 0
|
8月前
|
机器学习/深度学习 安全
ModelScope问题之轮数没有训练完推理有影响如何解决
ModelScope训练是指在ModelScope平台上对机器学习模型进行训练的活动;本合集将介绍ModelScope训练流程、模型优化技巧和训练过程中的常见问题解决方法。
63 0
|
8月前
|
数据采集 自然语言处理 前端开发
社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。
|
1月前
|
人工智能 自然语言处理 计算机视觉
OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
OpenAI近期发布了Simplified Consistency Models (sCM) 技术,这是在扩散模型基础上的重大改进,实现了50倍效率提升。sCM通过简化和稳定连续时间一致性模型的训练过程,解决了传统模型中的离散化误差和训练不稳定性问题,显著提升了生成模型的性能和效率。在多个数据集上的测试结果表明,sCM不仅超越了现有模型,还在生成模型的实际应用中展现了巨大潜力。论文地址:https://arxiv.org/abs/2410.11081
48 3
|
3月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
84 1
|
6月前
|
异构计算 索引
单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速
【7月更文挑战第24天】针对大语言模型(LLM)处理长上下文时的计算瓶颈,微软推出MInference,基于动态稀疏注意力加速预填充,使8B参数模型处理1M token从30分钟降至3分钟,推理延迟降低10倍。通过识别注意力矩阵模式(A形、斜线、块稀疏),仅计算关键权重,无需修改预训练或微调。实验证明,MInference在多个任务和模型上保持准确度,但可能不适用所有LLM类型,存在轻微性能损失风险。
186 17
|
8月前
|
人工智能 自然语言处理 异构计算
微软SliceGPT让LLAMA-2计算效率大增
【2月更文挑战第13天】微软SliceGPT让LLAMA-2计算效率大增
81 7
微软SliceGPT让LLAMA-2计算效率大增
|
8月前
|
机器学习/深度学习 PyTorch 算法框架/工具
ModelScope问题之训练的时候卡住如何解决
ModelScope训练是指在ModelScope平台上对机器学习模型进行训练的活动;本合集将介绍ModelScope训练流程、模型优化技巧和训练过程中的常见问题解决方法。
125 1
ModelScope问题之训练的时候卡住如何解决
|
自然语言处理 测试技术 开发工具
Google开源ToTTo数据集,你的模型还「撑」得住吗?
近日,Google研究人员提出一个大型从表转换到文本的英文数据集,已经在Git上开源。该数据集不仅提供了一个可以受控的句子生成任务,还提供了一个基于迭代语句修订的数据注释过程。实验结果证明,ToTTo可以作为有用且高效的数据集,用来帮助其他研究者建模研究,以及开发可以更好地检测模型改进的评估指标。
355 0
Google开源ToTTo数据集,你的模型还「撑」得住吗?