HuggingFace使用load_from_disk读取arrow数据集并获取bbox-开发者社区-阿里云

huggingface下载的.arrow数据集读取与使用说明

2024-06-13 2608

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： huggingface下载的.arrow数据集读取与使用说明

1.数据下载方式：load_dataset

将数据集下载到本地：（此处下载的是一个物体目标检测的数据集）

from datasets import load_dataset
# 下载的数据集名称,
model_name = 'keremberke/plane-detection'
# 数据集保存的路径
save_path = 'datasets'
#name参数为full或mini，full表示下载全部数据，mini表示下载部分少量数据
dataset = load_dataset(model_name, name="full")  
dataset.save_to_disk(save_path)

huggingface可以把处理好的数据保存成下面的格式：

下载到本地后的数据结构如下：

2.加载本地的arrow文件：load_from_disk

from datasets import load_from_disk
path = './train' # train：表示上述训练集在本地的路径
dataset = load_from_disk(path)

数据以类似于表格的形式存储，包含以下列名：[‘image_id’, ‘image’, ‘width’, ‘height’, ‘objects’]

image_id: 图片id

image:存储的图像文件，是PIL对象：<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1920x1080 at 0x29F8DFAA550>

width：图像宽度

height:图像高度

objects：图像其他相关信息，如标注的标签信息等

3.Arrow文件中结构说明

print(dataset[0])
运行结果如下：
"""
{'image_id': 11, 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1920x1080 at 0x2D70D08C3D0>, 'width': 1920, 'height': 1080, 'objects': {'id': [9], 'area': [36993], 'bbox': [[383.0, 268.0, 209.0, 177.0]], 'category': [0]}}
"""

'objects’中的bbox表示标记框（x1,y1,width,height）；category：表示目标类别

显示图片：

img = dataset['image'][0]
plt.imshow(img)
plt.show()

显示标记框的示例代码如下：

# 取第一张图片
img = dataset['image'][0]
# 将PIL--RGB格式图片转化为CV--BGR图片
cv_img = cv2.cvtColor(numpy.asarray(img),cv2.COLOR_RGB2BGR)
box_info = dataset['objects'][0]['bbox'][0]
p1 = [int(box_info[0]),int(box_info[1])]
p2 = [int(box_info[0]+box_info[2]),int(box_info[1]+box_info[3])]
cv2.rectangle(cv_img, p1, p2, (0, 255, 0), 2)
cv2.imshow("img", cv_img)
cv2.waitKey(0)

huggingface下载的.arrow数据集读取与使用说明

1.数据下载方式：load_dataset

2.加载本地的arrow文件：load_from_disk

3.Arrow文件中结构说明

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

huggingface下载的.arrow数据集读取与使用说明

1.数据下载方式：load_dataset

2.加载本地的arrow文件：load_from_disk

3.Arrow文件中结构说明

热门文章

最新文章

相关电子书