最近,由于来自东方的某种神秘力量,导致Huggingface登陆不上去了或者访问速度特别慢。这让我们这些依赖Huggingface和一些其他平台托管的数据集进行“炼丹”的炼丹师们深感烦恼。现在的解决方案基本是都是自己想办法“科学上网”,但众所周知,科学上网不仅得“氪金”,速度慢还不稳定。
但是!最近在阿里云上发现了一个好地方——计算巢数据集市场,可以完美解决大家的问题,让这堵“墙”变成“任意门”~~计算巢数据集是一个高效获取数据集的解决方案,旨在加速企业在人工智能、大数据和云计算(AIGC)创新转型过程中的数据处理环节,从计算巢数据集下载想要的数据集,可以走阿里云内网,速度超乎想象!!
下面给大家实测一下从计算巢下载数据集的过程。
订阅并下载数据
- 首先访问计算巢数据集市场,浏览或搜索你感兴趣的数据集。
- 点击对应的数据集卡片,进入数据集主页。
- 点击数据集名称下方的订阅案例,即可免费获得查看和下载该数据集的权限。注意,是完全免费!!!,当然前提是你得准备好自己的阿里云账号,没有也没关系,用手机号注册很快的~
- 点击上方的订阅按钮进入到数据集详情页面,这里可以看到刚刚订阅的数据集的相关信息。点击“详情”就可以到我们最期待的数据集下载页面啦~
- 在详情页面点击“数据集”Tab,点击数据集名称左边的“+”展开菜单,就可以看到“导出到OSS”和“下载”按钮了。“导出到OSS”可以通过阿里云内网加速将数据集免费导入你自己的OSS存储,“下载”按钮可以将数据集下载到本地。
这里亲测,两种方式都比我使用“魔法”访问Huggingface快得多~注意,是快得多~~~
现在已经支持的数据集
据阿里云官方人员介绍,这个数据集市场正在不断完善和集成其他常用的数据集,目前已经支持的数据集有以下这些:
- 中文医学指令数据集
- 知乎问题答案数据集
- 中文多任务语言理解评估
- Firefly(流萤)数据集
- 维基百科中文数据集
- 百科类问答
- 社区问答类
没找到想要的数据集?
相比于其他平台,计算巢数据集对我们个人使用者来说还有一个好处,那就是可以非常方便的反馈自己想要的数据集。计算巢官方提供了一个钉钉群,我们可以加入到群中直接跟阿里云官方人员进行交流,他们会非常迅速的帮我们更新数据集,之前我一直想要的wiki数据跟他们反馈后几个小时就给我上架了,速度感人~泪目~
我把官方钉钉群放在后面了,有需要的小伙伴快和我一起进去白嫖吧~(谁能拒绝白嫖呢~)
钉钉群链接:链接~戳我戳我
群二维码: