ModelScope有没有qwen模型训练的思路，发现lora后模型遵循了输出格式？

ModelScope有没有qwen模型训练的思路，发现lora后模型遵循了输出格式，但是在具体内容上面有幻觉？

展开

收起

真的很搞笑 2024-01-03 21:51:34 245 0

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

在ModelScope社区，Qwen模型的训练思路有多种。Qwen-7B是基于Transformer的大语言模型，预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。MSAgent-Qwen-7B是在Qwen-7B基础上微调训练后的，驱动该智能体框架的核心模型。此外，Qwen-VL模型以Qwen-7B的预训练模型作为语言模型的初始化，并以Openclip ViT-bigG作为视觉编码器的初始化，中间加入单层随机初始化的cross-attention，经过约1.5B的图文数据训练得到。

如果您在使用过程中发现内容上有幻觉，可能是因为模型在生成内容时，会尽可能地根据上下文和输入信息进行回答，但有时可能会出现与实际不符的情况。这是所有基于机器学习的模型都可能存在的问题，因为机器无法完全理解所有的语境和含义。为了获得更准确的结果，您可以尝试提供更详细、更清晰的上下文信息，或者尝试调整模型的参数设置。

2024-01-04 14:37:36

赞同展开评论打赏
sunrr
ModelScope是一个开源的模型开发平台，它提供了丰富的资源和工具，以帮助开发者进行模型的训练和应用。对于Qwen模型的训练，以下是一些基本的思路：
1. 大规模高质量训练语料：Qwen模型是在超过3万亿tokens的数据上进行预训练的，这些数据包含了高质量的中文、英文、多语言、代码、数学等内容，涵盖了通用及专业领域的训练语料。
2. 对齐机制：在Qwen模型的基础上，使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。
3. 多模态任务处理：Qwen-VL系列模型在处理多模态任务时表现出色，例如在图像描述、视觉问答、文档视觉问答、视觉定位等任务中取得了很好的效果。
4. 多语言对话模型：Qwen模型支持多语言对话，可以端到端支持图片里中英双语的长文本识别。
5. 细粒度识别和理解：Qwen-VL模型是首个开源的448分辨率的LVLM模型，这可以提升细粒度的文字识别、文档问答和检测框标注的效果。
关于你提到的"幻觉"问题，这可能是因为模型在生成答案时出现了偏差或者误解。这可能是由于训练数据的质量、模型的结构、预训练的方式等多种因素导致的。为了解决这个问题，可以尝试以下几种方法：
1. 改进训练数据：确保训练数据的质量和多样性，避免模型过度依赖某些特定的数据。
2. 调整模型结构：尝试使用不同的模型结构，或者对现有的模型结构进行调整，以提高模型的稳定性和准确性。
3. 使用对齐技术：通过对齐技术，使模型的预测结果更加符合人类的期望和常识。
4. 后处理：在模型生成答案后，可以使用一些后处理方法，如纠错、过滤等，来提高答案的质量。
总的来说，训练一个好的Qwen模型需要大量的实验和调优，可能需要尝试多种方法和技巧。
2024-01-04 10:52:38

赞同展开评论打赏
芯在这

您看下swift下的微调https://github.com/modelscope/swift ，此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2024-01-03 23:37:48

赞同展开评论打赏