阿里云百炼上线Qwen2.5-Turbo模型，可支持100万超长上下文-阿里云开发者社区

阿里云百炼上线Qwen2.5-Turbo模型，可支持100万超长上下文

2024-11-21 944

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Qwen2.5-Turbo已上线，支持100万超长上下文，相当于100万个英文单词或150万个汉字。该模型在多个长文本任务评测集中表现出色，超越GPT-4，同时在推理速度上实现4.3倍提升。限时免费赠送1000万tokens额度，欢迎体验。

模型上新

Qwen2.5-Turbo上线🔗阿里云百炼平台，模型上下文长度扩展至百万tokens ，限时免费赠送1000万tokens额度。

模型特点

Qwen2.5-Turbo是通义千问团队回应社区对处理更长序列需求推出的全新版本模型。该模型支持100万超长上下文，相当于100万个英文单词或150万个汉字。

模型表现

全新的Qwen2.5-Turbo在1M长度的超长文本检索（Passkey Retrieval）任务中的准确率可达到100%，在长文本评测集RULER上获得93.1分，超越GPT-4；在LV-Eval、LongBench-Chat等更加接近真实场景的长文本任务中，Qwen2.5-Turbo在多数维度超越了GPT-4o-mini；此外，在MMU、LiveBench等短文本基准上Qwen2.5-Turbo的表现也非常优秀，在大部分任务上的表现显著超越之前上下文长度为1M tokens的开源模型。

Qwen2.5-Turbo在长文本、短文本任务评测集上均表现优秀

在推理速度方面，通义千问团队利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍，将处理1M tokens上下文时的首字返回时间从4.9分钟降低到68秒，实现了4.3倍的速度提升。

Qwen2.5-Turbo推理速度可提升4.3倍

Qwen2.5-Turbo可应用于长篇小说深入理解、仓库级别代码助手、多篇论文阅读等场景，可一次性处理10本长篇小说，150小时的演讲稿，3万行代码。

API调用方式

最新支持的1M tokens的Qwen2.5-Turbo的使用方法，和Qwen API的标准用法一致，并且与OpenAI API兼容。下面是一个简单的Python调用示例

（注意：需要将环境变量YOUR_API_KEY设置为你的API Key）

import os

from openai import OpenAI

# 读取长文本文件
with open("example.txt", "r", encoding="utf-8") as f:
    text = f.read()
user_input = text + "\n\nSummarize the above text."

client = OpenAI(
    api_key=os.getenv("YOUR_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-turbo-latest",
    messages=[
      {'role': 'system', 'content': 'You are a helpful assistant.'},
      {'role': 'user', 'content': user_input},
    ],
)

print(completion.choices[0].message)