VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案
由于采用轻量化部署推理,显存只占用7.8GB,可进行本地推理。
visualGLM-6B大语言模型的web界面推理演示:图像分析、按指令输出结果
香港理工大学wangrongsheng同学基于VisualGLM-6B,利用公开数据集微调训练出的XrayGLM,可实现对X光片进行解析和患者建议,本人只是进行的本地推理演示。