暂无个人介绍
2023年04月
2023年03月
2022年12月
2022年11月
2022年08月
可以使用本地数据的,只需要构建MSdataset即可(使用huggingface datasets格式也是支持的)注意字段和OFA文字识别的字段名称对应。
一般而言clip训练时batchsize越大效果越好,batchsize大一般依赖于多机处理。 如果数据量不大,可以单机8G显存尝试,如果有遇到更细节的问题,欢迎留言。
是的,可以将clip部分代码单独拎出来,具体的话需要看模块依赖。 群可以访问官网扫码加入哈 https://modelscope.cn/docs
抱歉,我们只是展示了demo,不会直接提供API接口,如果希望自己搭建clip检索服务,可以参考https://github.com/rom1504/clip-retrieval
你好,目前modelscope还没有支持多个返回,如果想要改成多个返回句子,可以修改modelscope/models/multi_model/ofa_for_all_tasks.py 修改_text_gen_inference中取generator返回值的地方。将decode_tokens = gen_out[0]['tokens'] 中的0遍历取beamsize个的返回值。
这个功能我们后面会加在正式code里面,随版发布。
您好,目前CPU版本确实非常慢,GPU需要16G以上显存才能得到一个相对较好的效果。这主要是因为图片本身相当于极长的序列,生成长序列需要很大的显存。
牧歌数据参见官方网站:https://tianchi.aliyun.com/muge 自定义数据集可以自己收集图文pair,然后利用huggingface datasets的csv接口处理local数据。 例如组织好了文件是train.txt,内容样例为 query\timage 1\timage_path_1 2\timage_path_2 ... dataset = load_dataset('csv', data_files='train.txt', sep='\t')['train'] dataset即为hf的dataset。而modelscope的msdataset支持hf dataset 更多dataset的使用可以参考:https://huggingface.co/docs/datasets/loading#local-and-remote-files
推荐一篇论文,感兴趣可以看看 Vision-Language Pre-training: Basics, Recent Advances, and Future Trends 地址:https://arxiv.org/pdf/2210.09263v1.pdf
目前的OFA模型已经需要较大的显存资源才能产出较好的图像,我们现在优化使用半精度推理,上线后根据显存情况分析是否可以开放更大的模型。 我们会一直优化用户体验,敬请等待,感谢!
可以参考最近的论文来看,目前看到了一篇文章还比较新和全,https://arxiv.org/pdf/2210.09263v1.pdf 想简单看了解,可以看论文中的一张汇总图: mm_models.png