对于image caption任务, ofa的其他模型,huggingface上可以找到,并且有一个参数 num_return_sequences 可以控制给定一张图片生成的句子个数,但是对于最大的模型ofa_image-caption_coco_6b_en只有mindscope才有,当我们使用pipline时能否一张图片生成多个句子?mindscope是否有相关参数?
你好,目前modelscope还没有支持多个返回,如果想要改成多个返回句子,可以修改modelscope/models/multi_model/ofa_for_all_tasks.py 修改_text_gen_inference中取generator返回值的地方。将decode_tokens = gen_out[0]['tokens'] 中的0遍历取beamsize个的返回值。
这个功能我们后面会加在正式code里面,随版发布。