100类中药材图像识别数据集分享(适用于目标检测任务)
数据集分享
如需下载该数据集,可通过以下方式获取:
- 💾 数据集打包为 ZIP 文件,解压后即用。
https://pan.baidu.com/s/1zyL7C7byFj3VYeYnLGM2Gg?pwd=jsw8
引言
在中医药现代化的浪潮中,如何利用人工智能技术实现中药材的快速、准确识别,成为了中医药信息化领域的重要研究方向。传统的中药材识别主要依赖于专家经验和人工比对,这种方法不仅效率低下,而且在面对种类繁多、外观相似度高的中药材时,容易产生误判。随着深度学习技术的迅猛发展,特别是基于YOLO等目标检测模型的图像识别技术在多个领域取得显著成效,将其应用于中药图像识别已展现出广阔的前景。
为推动中药材智能识别的研究与落地,我们整理并发布了一套高质量的中药材图像识别数据集。该数据集涵盖100类常见中药材图像,共计9200张样本,并完成了标准YOLO格式的标注和训练/验证集划分,可直接用于模型训练和算法测试。本文将对该数据集进行详细介绍,包括数据集概述、结构详情、适用场景等内容,旨在为相关研究和应用提供参考。
数据集概述
本数据集收录了来自中药材识别实际场景中的100个类别图像,总计9200张高质量样本图。这些图像已按照train/val分组格式进行整理,适用于主流深度学习框架(如PyTorch、TensorFlow、YOLO等)的训练与验证流程。图像分辨率清晰,涵盖了不同拍摄角度、光照条件和背景下的实物图像,既体现了真实场景的复杂性,又保证了语义的代表性。
数据集基本信息
- 图像总数:9200张
- 训练集:8000张
- 验证集:1200张
- 类别数量:100种中药材
- 命名规范:统一使用简体中文命名,便于中文语义处理任务
数据集结构
本数据集采用标准的文件夹结构进行组织,具体如下:
/train/
└── 安息香/
└── 白扁豆/
...
/val/
└── 安息香/
└── 白扁豆/
...
文件命名规则为自动生成,确保不重名,例如安息香_001.jpg。这种结构设计不仅便于数据的管理和浏览,也符合主流深度学习框架的数据加载要求。
类别配置
以下是数据集的类别配置(YOLO格式):
nc: 100
names: ['安息香', '白扁豆', '白矾', '白蔹', '白茅根', '白前', '白芍', '白芷', '柏子仁', '北沙参',
'荜拨', '荜澄茄', '鳖甲', '槟榔', '苍术', '草豆蔻', '沉香', '川楝子', '川木香', '川牛膝',
'大腹皮', '淡豆豉', '稻芽', '地龙', '冬虫夏草', '防风', '番泻叶', '蜂房', '甘草', '干姜',
'甘松', '藁本', '硅石脂', '枸杞子', '桂枝', '谷精草', '谷芽', '海龙', '海螵蛸', '合欢皮',
'黄柏', '黄芪', '黄芩', '湖北贝母', '僵蚕', '芥子', '鸡冠花', '金灯笼', '鸡内金', '荆芥穗',
'金果榄', '金钱白花蛇', '九香虫', '橘核', '苦地丁', '莱菔子', '莲房', '莲须', '莲子',
'莲子心', '灵芝', '荔枝核', '龙眼肉', '芦根', '路路通', '麦冬', '木丁香', '羌活',
'千年健', '秦皮', '全蝎', '忍冬藤', '人参', '肉豆蔻', '桑寄生', '桑螵蛸', '桑椹',
'山慈菇', '山奈', '山茱萸', '沙苑子', '石榴皮', '丝瓜络', '酸枣仁', '苏木',
'太子参', '天花粉', '天麻', '土荆皮', '瓦楞子', '五加皮', '细辛', '银柴胡',
'薏苡仁', '郁金', '浙贝母', '枳壳', '竹茹', '诃子', '自然铜']
数据处理流程
为确保数据集的质量和可用性,我们在构建过程中遵循了严格的数据处理流程,具体步骤如下:
flowchart TD
A[数据收集] --> B[图像预处理]
B --> C[类别标注]
C --> D[数据划分]
D --> E[格式转换]
E --> F[质量检测]
F --> G[最终发布]
- 数据收集:从多个来源收集中药材图像,确保覆盖不同角度、光照和背景
- 图像预处理:对收集到的图像进行清洗、去噪和标准化处理
- 类别标注:采用人工标注的方式,确保类别归属的准确性
- 数据划分:按照7:3的比例划分为训练集和验证集
- 格式转换:将标注结果转换为YOLO标准格式
- 质量检测:对处理后的数据进行质量检查,确保数据的一致性和完整性
- 最终发布:打包发布数据集,提供下载链接
数据集特点
本数据集具有以下显著特点:
- 类别丰富:涵盖100种常见中药材,基本覆盖了临床常用品种
- 样本充足:总计9200张图像,每个类别均有足够的样本量
- 标注规范:采用标准YOLO格式标注,可直接用于模型训练
- 场景多样:图像拍摄场景多样,包括不同角度、光照和背景
- 中文命名:统一使用简体中文命名,便于中文语义处理任务
- 结构清晰:采用标准文件夹结构,易于管理和使用
适用场景
本数据集可广泛应用于以下人工智能与中医药交叉领域:
1. 中药识别图像分类任务
可用于训练ResNet、ViT、YOLO等模型,实现中药材的自动分类和识别。通过深度学习模型的训练,可以提高中药材识别的准确率和效率,减少人工干预。
2. 中药拍照识别App研发
作为图像识别后端训练数据,可支持开发中药拍照识别App,用户只需拍摄中药材照片,即可快速获取药材名称、功效等信息,便于中药辅助查询和科普应用。
3. 医学辅助系统训练数据
可结合图文信息进行知识联动识别,为医生提供中药材识别的辅助工具,减少用药错误的发生。
4. 深度学习模型迁移学习训练
可用于预训练或微调模型,增强模型对自然图像中药材的理解能力,为其他相关任务提供基础。
5. 中药材跨模态研究
可用于中文名称—图像联合建模、图文检索、图像标注等跨模态研究,推动中医药信息化的发展。




模型训练建议
针对本数据集的特点,我们提出以下模型训练建议:
模型选择:对于分类任务,可选择ResNet50、EfficientNet等模型;对于检测任务,建议使用YOLOv8、RT-DETR等最新模型。
数据增强:建议使用随机裁剪、翻转、旋转、亮度调整等数据增强技术,提高模型的泛化能力。
训练策略:采用小批量梯度下降法,初始学习率设置为0.001,根据验证集性能动态调整学习率。
评估指标:使用准确率、精确率、召回率和F1-score等指标评估模型性能。
应用案例
案例一:中药识别App开发
基于本数据集训练的模型,开发了一款中药识别App,用户只需拍摄中药材照片,即可快速获取药材名称、功效、用法等信息。该App已在多家中医院和药店试用,取得了良好的效果。
案例二:中医药教学辅助系统
将训练好的模型集成到中医药教学辅助系统中,学生可以通过系统识别中药材,加深对中药材的认识和理解,提高学习效率。
案例三:中药材质量检测
结合其他传感器数据,利用训练好的模型对中药材质量进行检测,识别药材的真伪和品质等级,为中药材的质量控制提供技术支持。
结语
中药文化源远流长,是中华民族的瑰宝。随着人工智能技术的不断发展,将其应用于中医药领域,实现中药材的智能识别,对于推动中医药现代化具有重要意义。本数据集立足实际拍摄与分类标准,旨在为研究者、开发者和中医药爱好者提供一份结构清晰、数据质量可靠、类别丰富的中药图像数据集,为中药AI识别迈出坚实一步。
我们希望通过本数据集的发布,能够促进中医药与人工智能的深度融合,推动中药材智能识别技术的发展和应用,为中医药现代化做出贡献。如需生成配套训练代码(如YOLOv8格式训练脚本)、中药图像识别模型部署方案,可以参考相关资源。