huggingface下载的.arrow数据集读取与使用说明

简介: huggingface下载的.arrow数据集读取与使用说明

1.数据下载方式:load_dataset

将数据集下载到本地:(此处下载的是一个物体目标检测的数据集

from datasets import load_dataset
# 下载的数据集名称,
model_name = 'keremberke/plane-detection'
# 数据集保存的路径
save_path = 'datasets'
#name参数为full或mini,full表示下载全部数据,mini表示下载部分少量数据
dataset = load_dataset(model_name, name="full")  
dataset.save_to_disk(save_path)

huggingface可以把处理好的数据保存成下面的格式:

下载到本地后的数据结构如下:

2.加载本地的arrow文件:load_from_disk

from datasets import load_from_disk
path = './train' # train:表示上述训练集在本地的路径
dataset = load_from_disk(path)

数据以类似于表格的形式存储,包含以下列名:[‘image_id’, ‘image’, ‘width’, ‘height’, ‘objects’]

image_id: 图片id

image:存储的图像文件,是PIL对象:<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1920x1080 at 0x29F8DFAA550>

width:图像宽度

height:图像高度

objects:图像其他相关信息,如标注的标签信息等

3.Arrow文件中结构说明

print(dataset[0])
运行结果如下:
"""
{'image_id': 11, 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1920x1080 at 0x2D70D08C3D0>, 'width': 1920, 'height': 1080, 'objects': {'id': [9], 'area': [36993], 'bbox': [[383.0, 268.0, 209.0, 177.0]], 'category': [0]}}
"""

'objects’中的bbox表示标记框(x1,y1,width,height);category:表示目标类别

显示图片:

img = dataset['image'][0]
plt.imshow(img)
plt.show()

显示标记框的示例代码如下:

# 取第一张图片
img = dataset['image'][0]
# 将PIL--RGB格式图片转化为CV--BGR图片
cv_img = cv2.cvtColor(numpy.asarray(img),cv2.COLOR_RGB2BGR)
box_info = dataset['objects'][0]['bbox'][0]
p1 = [int(box_info[0]),int(box_info[1])]
p2 = [int(box_info[0]+box_info[2]),int(box_info[1]+box_info[3])]
cv2.rectangle(cv_img, p1, p2, (0, 255, 0), 2)
cv2.imshow("img", cv_img)
cv2.waitKey(0)

相关文章
|
3月前
|
文字识别 并行计算 语音技术
ModelScope问题之下载模型文件报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
614 3
|
3月前
ModelScope-FunASR的返回格式是可以自定义的
【2月更文挑战第32天】ModelScope-FunASR的返回格式是可以自定义的
46 1
|
3月前
|
机器学习/深度学习 计算机视觉 Python
批量demo推理图片脚本
批量demo推理图片脚本
39 0
|
9月前
|
API
ModelScope如何设置自己模型的版本号?
ModelScope如何设置自己模型的版本号?
177 1
|
Web App开发
谷歌直链下载云盘数据集,使用谷歌云盘生成直接下载的url,示例: NeRFStudio-nerfacto默认训练数据集poster下载,nerfstudio 数据集下载链接
谷歌直链下载云盘数据集,使用谷歌云盘生成直接下载的url,示例: NeRFStudio-nerfacto默认训练数据集poster下载,nerfstudio 数据集下载链接
576 0
谷歌直链下载云盘数据集,使用谷歌云盘生成直接下载的url,示例: NeRFStudio-nerfacto默认训练数据集poster下载,nerfstudio 数据集下载链接
|
编解码 自然语言处理 文字识别
modelscope数据集列表
modelscope数据集列表
1621 0
|
网络协议 Shell Linux
PyG的Planetoid无法直接下载Cora等数据集的3个解决方式
本文仅考虑DNS污染情况下无法用torch_geometric.Planetoid类下载Cora等数据集的情况。其他使用GitHub仓库下载数据的解决方式类似,在此文中不再赘述。
PyG的Planetoid无法直接下载Cora等数据集的3个解决方式
|
算法框架/工具 Caffe
Caffe:使用 classify.py 批量对图片分类
一般使用 Caffe 训练完网络后,会用 `test.bin` 来测试一下网络的精度,然后还能用 `classification.bin` 来用网络对图片进行单张的分类,但是一张一张的分,效率很低,所以我改写了 `classify.py` 文件,使其读取 test.txt 文件批量分类,输出具体哪一张图片分错了。
107 0
|
存储 人工智能 TensorFlow
Tensorflow将模型导出为一个文件及接口设置
Tensorflow将模型导出为一个文件及接口设置
|
缓存 NoSQL MongoDB
TensorFlow2.0(10):加载自定义图片数据集到Dataset
TensorFlow2.0(10):加载自定义图片数据集到Dataset