Qwen 2.5:阿里巴巴集团的新一代大型语言模型

简介: Qwen 2.5:阿里巴巴集团的新一代大型语言模型

Qwen 2.5:阿里巴巴集团的新一代大型语言模型

摘要:

       在人工智能领域,大型语言模型(LLMs)的发展日新月异,它们在自然语言处理(NLP)和多模态任务中扮演着越来越重要的角色。阿里巴巴集团的Qwen团队最近推出了Qwen 2.5,这是其大语言模型系列的最新升级。本文将综述Qwen 2.5的主要特点、技术进步以及它在多模态交互和语言理解方面的应用潜力。

  1. 引言 随着人工智能技术的不断进步,大型语言模型已经成为推动自然语言处理领域发展的关键力量。Qwen 2.5的发布标志着阿里巴巴集团在这一领域的最新进展,它不仅在语言理解方面取得了显著提升,还在文本生成、视觉理解、音频理解等多个方面展现了卓越的能力。
  2. Qwen 2.5的主要特点 Qwen 2.5是阿里巴巴集团Qwen团队研发的新一代大型语言模型,它在以下方面展现了显著的特点和进步:
  • 参数规模:Qwen 2.5提供了从0.5B到72B不同参数规模的模型,以满足不同应用场景的需求。
  • 预训练数据:模型在包含18万亿tokens的大规模多语言和多模态数据集上进行预训练,确保了其在多样化数据上的强大表现。
  • 指令遵循与文本生成:Qwen 2.5在遵循指令和生成长文本方面的能力得到了显著提升,能够理解和生成结构化数据,如表格和JSON格式的输出。
  • 角色扮演与聊天机器人:模型增强了角色扮演的实现和聊天机器人的背景设置,使其在交互式应用中更加自然和适应性强。
  • 上下文长度:支持长达128K tokens的上下文长度,并能生成最多8K tokens的文本,这为处理长文本提供了可能。
  • 多语言支持:Qwen 2.5支持超过29种语言,包括中文、英文、法文、西班牙文等,使其具有广泛的国际适用性。
  1. 技术进步 Qwen 2.5的技术进步体现在以下几个方面:
  • 仅解码器稠密语言模型:Qwen 2.5采用了易于使用的仅解码器架构,提供了基模型和指令微调模型两种变体。
  • 预训练与微调:模型在高质量数据上进行后期微调,以贴近人类偏好,这在提升模型性能方面起到了关键作用。
  • 结构化数据理解:Qwen 2.5在理解结构化数据方面取得了显著进步,这对于处理表格、数据库和其他结构化信息尤为重要。
  1. 应用潜力 Qwen 2.5的多模态能力和语言理解能力使其在以下领域具有广泛的应用潜力:
  • 客户服务:作为聊天机器人,Qwen 2.5能够提供更加自然和准确的客户服务体验。
  • 内容创作:在文本生成方面,Qwen 2.5能够帮助用户快速生成高质量的内容。
  • 数据分析:Qwen 2.5的理解结构化数据的能力使其在数据分析和信息提取方面具有巨大潜力。
  • 教育和研究:Qwen 2.5的多语言支持为教育和研究提供了强大的工具,尤其是在语言学习和跨文化交流方面。

2. 代码使用

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2.5-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

参考文献:

相关文章
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
32865 18
|
11月前
|
机器学习/深度学习 自然语言处理 测试技术
Qwen3技术报告首次全公开!“混合推理模型”是这样炼成的
近日,通义千问Qwen3系列模型已开源,其技术报告也正式发布。Qwen3系列包含密集模型和混合专家(MoE)模型,参数规模从0.6B到235B不等。该模型引入了“思考模式”与“非思考模式”的动态切换机制,并采用思考预算机制优化推理性能。Qwen3支持119种语言及方言,较前代显著提升多语言能力,在多个基准测试中表现领先。此外,通过强到弱蒸馏技术,轻量级模型性能优异,且计算资源需求更低。所有Qwen3模型均采用Apache 2.0协议开源,便于社区开发与应用。
7745 30
|
8月前
|
存储 机器学习/深度学习 人工智能
云栖 2025|阿里云 Qwen3 系列领衔:AI 模型全栈突破与开发者落地指南
阿里云发布Qwen3全栈AI体系,七大模型升级、性能全球领先,开源生态稳居第一。从底层基建到开发工具链全面优化,助力企业高效落地AI应用,共建超级AI云生态。
2650 11
|
10月前
|
存储 缓存 资源调度
# Qwen3-8B 的 TTFT 性能分析:16K 与 32K 输入 Prompt 的推算公式与底层原理详解
Qwen3-8B 是通义实验室推出的 80 亿参数大模型,支持最长 32,768 token 上下文,适用于长文本处理场景。通过 FP8 量化、CUDA Kernel 优化及 RoPE 位置编码技术,提升推理效率与稳定性。模型在 16K 输入下 TTFT 约 150-200ms,32K 输入下约 250-300ms,适用于文档摘要与长对话交互。
2974 8
|
测试技术 UED
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
11278 4
全新开源通义千问Qwen3,它来了!
|
文字识别 测试技术 语音技术
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!
今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
3355 6
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!
|
文字识别 自然语言处理 数据可视化
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
在 Qwen2 发布后的过去三个月里,许多开发者基于 Qwen2 语言模型构建了新的模型,并提供了宝贵的反馈。在这段时间里,通义千问团队专注于创建更智能、更博学的语言模型。今天,Qwen 家族的最新成员:Qwen2.5系列正式开源
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
|
人工智能 自然语言处理 算法
全模态模型Qwen2.5-Omni开源,7B尺寸实现全球最强性能
通义千问Qwen2.5-Omni-7B正式开源,作为首个端到端全模态大模型,支持文本、图像、音频和视频等多种输入形式,实时生成文本与自然语音合成输出。它在多模态融合任务测评中刷新纪录,性能远超同类模型。Qwen2.5-Omni采用Thinker-Talker双核架构,实现语义理解与语音生成高效协同,以小尺寸7B参数让全模态大模型广泛应用成为可能,现已在魔搭社区和Hugging Face同步开源。
全模态模型Qwen2.5-Omni开源,7B尺寸实现全球最强性能
|
机器学习/深度学习 编解码 JSON
Qwen2.5-VL!Qwen2.5-VL!!Qwen2.5-VL!!!
Qwen2.5-VL!Qwen2.5-VL!!Qwen2.5-VL!!!