AI大模型 智能AI开源模型与大模型接口整理(8个开源模型+7个大模型接口)

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
视觉智能开放平台,分割抠图1万点
简介: AI大模型 智能AI开源模型与大模型接口整理(8个开源模型+7个大模型接口)

数据主要来源于【数据学习】的整理和汇总。

1.说明

1.1 开源模型

  • 免费、本地部署安全性高
  • 部分开源模型版本相对落后、硬件资源需求高、性能一般
  • 技术门槛高、需要进行一定量的开发工作
  • 更新维护成本较高

1.2 大模型接口

  • 付费(按需收费)、非本地部署可能存在数据安全问题
  • 模型较新、无需硬件资源、性能好
  • 开发工作量相对较少
  • 实时更新无需维护

2.开源模型整理

2.1 ChatGLM

ChatGLM 是由清华大学 KEG 实验室和智谱 AI 基于千亿基座模型 GLM-130B (General Language Model 通用语言模型)开发的对话语言模型。ChatGLM 在 GLM-130B 的基础上持续进行文本和代码预训练并通过有监督微调等技术实现人类意图对齐,具备文案写作、信息抽取、角色扮演、问答、对话等能力。

量化等级 最低GPU显存
FP16(无量化) 13GB
INT8 10GB
INT4 6GB

基座模型使用了GLM模型的混合目标函数,在1.4万亿中英文tokens数据集上训练,并做了模型对齐,第二代在各项任务中的提升幅度如下:

评测任务 任务类型 ChatGLM-6B得分 ChatGLM2-6B得分 提升幅度
MMLU 英文语言理解 40.63 47.86 ↑ 23%
CEval 中文大语言模型评估 38.9 51.7 ↑ 33%
GSM8K 数学(英文版) 4.82 32.37 ↑ 571%
BBH 大语言模型的BIG-Bench Hard任务 18.73 33.68 ↑ 60%

更长的上下文:在第一代ChatGLM-6B上,模型的最高上下文长度是2K。而第二代的ChatGLM2-6B的基座模型使用了FlashAttention技术,升级到32K。而据此微调的对话模型ChatGLM2-6B则可以在8K长度上下文条件下自由流畅进行对话。因此,支持更多轮次的对话,并且官方表示将在后续继续优化上下文长度限制。
更高效的推理:ChatGLM2-6B使用了Multi-Query Attention技术,可以在更低地显存资源下以更快的速度进行推理,推理速度相比第一代提升42%!同时,在INT4量化模型中,6G显存的对话长度由1K提升到了8K!

量化等级 编码 2048 长度的最小显存 生成 8192 长度的最小显存
FP16 / BF16 13.1 GB 12.8 GB
INT8 8.2 GB 8.1 GB
INT4 5.5 GB 5.1 GB

2.2 Baichuan

Baichuan Intelligent Technology是搜狗创始人王小川创办的一家人工智能企业。

  • Baichuan-7B(发布时间:2023-09-06;模型文件大小:14GB)https://github.com/baichuan-inc/Baichuan-7B

    是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文 benchmark(C-Eval/MMLU)上均取得同尺寸最好的效果。

  • Baichuan-13B-Chat(发布时间:2023-07-08;模型文件大小:26.6GB)https://github.com/baichuan-inc/Baichuan-13B

Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点:

  1. 更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。
  2. 同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。
  3. 更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。
  4. 开源免费可商用:Baichuan-13B 不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。
量化等级 最低GPU显存
bf16 / fp16 26.0GB
int8 15.8GB
int4 9.7GB

注意:CPU部署需要60GB内存。

Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。包含有 7B13BBaseChat 版本,并提供了 Chat 版本的 4bits 量化
量化前后显存占用对比 (GPU Mem in GB)

量化等级 Baichuan2-7B Baichuan2-13B
bf16 / fp16 15.3 27.5
8bits 8.0 16.1
4bits 5.1 8.6

2.3 Qwen

https://github.com/QwenLM/Qwen
阿里通义千问发布了的Qwen-7B(发布时间:2023-08-03;模型文件大小:15.4GB)和Qwen-14B(发布时间:2023-09-24;模型文件大小:28.32GB),是互联网厂商中目前最受欢迎的开源大模型,它的优势是在于阿里的强大生态体系以及应用。Qwen系列模型相比同规模模型均实现了效果的显著提升。评测的数据集包括MMLU、C-Eval、 GSM8K、 MATH、HumanEval、MBPP、BBH等数据集,考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。Qwen-72B(发布时间:2023-11-30;模型文件大小:140GB)在所有任务上均超越了LLaMA2-70B的性能,同时在10项任务中的7项任务中超越GPT-3.5。

模型 开源日期 最大上下文长度 System Prompt强化 预训练token数 微调(Q-Lora)最小GPU用量 生成2048个token的最小显存占用 工具调用
Qwen-1.8B 23.11.30 32K 2.2T 5.8GB 2.9GB
Qwen-7B 23.08.03 32K 2.4T 11.5GB 8.2GB
Qwen-14B 23.09.25 8K 3.0T 18.7GB 13.0GB
Qwen-72B 23.11.30 32K 3.0T 61.4GB 48.9GB

2.4 Yi

https://github.com/01-ai/Yi
零一万物(01.AI)https://www.lingyiwanwu.com 是由李开复在2023年3月份创办的一家大模型创业企业,并在2023年6月份正式开始运营。在2023年11月6日,零一万物开源了4个大语言模型,包括Yi-6B(模型文件大小:12.12GB)、Yi-6B-200K、Yi-34B(模型文件大小:62GB)、Yi-34B-200k。模型在MMLU的评分上登顶,最高支持200K超长上下文输入,获得了社区的广泛关注。

Model Minimum VRAM Recommended GPU Example
Yi-6B-Chat 15 GB RTX 3090 / RTX 4090 / A10 / A30
Yi-6B-Chat-4bits 4 GB RTX 3060 / RTX 4060
Yi-6B-Chat-8bits 8 GB RTX 3070 / RTX 4060
Yi-34B-Chat 72 GB 4 x RTX 4090 / A800 (80GB)
Yi-34B-Chat-4bits 20 GB RTX 3090 / RTX 4090 / A10 / A30 / A100 (40GB)
Yi-34B-Chat-8bits 38 GB 2 x RTX 3090 / 2 x RTX 4090 / A800 (40GB)

2.5 XVERSE

元象 XVERSE 于2021年初在深圳成立,是AI驱动的3D内容生产与消费一站式平台,开创了高品质、零门槛、一站式的全新元宇宙体验,助力娱乐、营销、社交、电商等各行业3D化,迈向每个人自由“定义你的世界”愿景。公司创始人姚星是腾讯公司前副总裁、国家科技部新一代人工智能战略咨询委员会成员、腾讯AI Lab和腾讯RoboticsX Lab两大实验室创始人。

模型结构:XVERSE-13B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持 8K 的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
训练数据:构建了 3.2 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。
分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为 100,534 的分词器,能够同时支持多语言,而无需额外扩展词表。
训练框架:自主研发多项关键技术,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,让训练效率更高,模型稳定性强,在千卡集群上的峰值算力利用率可达到 58.5%,位居业界前列。
下表对比了不同量化等级下模型的显存占用以及 MMLU 准确率:

模型 精度 显存占用(GB) MMLU 准确率
XVERSE-13B-Chat BF16 / FP16 28.2 60.2
XVERSE-13B-Chat INT8 16.8 60.3
XVERSE-13B-Chat INT4 10.9 55.0

模型结构:XVERSE-65B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持 16K 的上下文长度(Context Length),能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
训练数据:构建了 2.6 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。
分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为 100,534 的分词器,能够同时支持多语言,而无需额外扩展词表。
训练框架:训练中采用 FlashAttention2 加速计算,3D 并行基础上采用虚拟流水线(virtual pipeline)技术,降低较长流水线和 16k 上下文窗口产生的过高气泡率,在千卡集群的峰值算力利用率达到业界前列。同时通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化,打造出高稳定、低中断、强容错的训练系统,将每周有效训练率提升至 98.6%。
下表列出了在 XVERSE-65B 上进行推理和微调所需要的硬件资源:

类型 方法 内存 GPU
XVERSE-65B 训练 LoRA with ZeRO-3 1500GB 8*A800 80G
XVERSE-65B 推理 BF16/FP16 500GB 2*A800 80G

2.6 MOSS

https://github.com/OpenLMLab/MOSS
MOSS是复旦大学邱锡鹏教授开源的一个大语言模型,支持中英双语和多种插件的开源对话,moss-moon系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
下表提供了一个batch size=1时本地部署MOSS进行推理所需的显存大小。量化模型暂时不支持模型并行。

量化等级 加载模型 完成一轮对话(估计值) 达到最大对话长度2048
FP16 31GB 42GB 81GB
Int8 16GB 24GB 46GB
Int4 7.8GB 12GB 26GB

2.7 ChatRWKV

Receptance Weighted Key Value(RWKV)是pengbo提出的一个新的语言模型架构,它使用了线性的注意力机制,把Transformer的高效并行训练与RNN的高效推理相结合,使得模型在训练期间可以并行,并在推理的时候保持恒定的计算和内存复杂度。RWKV已经训练了多个百亿参数的模型,特别是RWKV World模型支持世界所有语言的生成+对话+任务+代码,功能十分全面。此外还有很多开发者基于RWKV的微调模型。
硬件需求官方未公示。

2.8 GPT4All

https://gpt4all.io/index.html
Nomic AI Team 从 Alpaca 获得灵感,使用 GPT-3.5-Turbo OpenAI API 收集了大约 800,000 个提示-响应对,创建了 430,000 个助手式提示和生成训练对,包括代码、对话和叙述。80 万对大约是羊驼的 16 倍。该模型最好的部分是它可以在 CPU 上运行,不需要 GPU。与 Alpaca 一样,它也是一个开源软件,可以帮助个人进行进一步的研究,而无需花费在商业解决方案上。
模型文件大小:0.04 GB~8.37GB
CPU用量:1GB~16GB

3.大模型接口整理

3.1 百度千帆大模型

https://cloud.baidu.com/doc/WENXINWORKSHOP/s/hlqnms5rn
token计算器 https://console.bce.baidu.com/tools/#/tokenizer
文心一言(ernie-bot)定价, ERNIE-Bot-turbo-0922是0.008元/千tokens, ERNIE-Bot是0.012元/千tokens, ERNIE-Bot 4.0 输入输出都是是0.12元/千tokens。

3.2 阿里模型服务灵积

https://dashscope.aliyun.com/

名称 计费单元 计费单价 免费额度
通义千问 千tokens qwen-turbo: 0.008元/千tokens qwen-turbo: 开通即获赠200万 tokens 限时免费额度
通义千问 千tokens qwen-plus: 0.02元/千tokens qwen-plus: 开通即获赠100万 tokens 限时免费额度
通义千问 千tokens qwen-max, qwen-max-longcontext: 限时免费开放 qwen-max, qwen-max-longcontext: 限时免费开放

3.3 腾讯混元大模型

https://cloud.tencent.com/document/product/1729/97731

  • 免费额度
产品名 免费额度
腾讯混元大模型标准版 开通腾讯混元大模型服务即获赠累计10万 token 的免费调用额度,有效期12个月;以资源包的形式发放到您的腾讯云账号中,优先扣除。
腾讯混元大模型高级版
腾讯混元-Embedding 开通腾讯混元大模型服务即获赠累计100万 token 的免费调用额度,有效期12个月;以资源包的形式发放到您的腾讯云账号中,优先扣除。
  • 产品价格(在免费额度用完后,按如下价格进行计费):
产品名 单位 刊例价
腾讯混元大模型标准版 每 1000 token 0.01元
腾讯混元大模型高级版 每 1000 token 0.10元
腾讯混元-Embedding 每 1000 token 0.0007元

说明:token 为服务输入+服务输出的总额,1token 约等于1.8个中文汉字或3个英文字母;您可以前往 控制台 使用 token 计算器了解一段文本对应的 token 总数;进行 API 调试,以及使用 API 3.0 Explorer 在线工具都会消耗对应的 token。

3.4 科大讯飞星火大模型

https://xinghuo.xfyun.cn/sparkapi

  • V1.5支持语言理解、知识问答、代码编写、逻辑推理、数学解题等多元能力,服务已内嵌联网搜索功能
  • V3.0能力全面升级,在数学、代码、医疗、教育等场景进行了专项优化,让大模型更懂你所需
    |
个人免费包 企业免费包 套餐一 套餐二 套餐三 套餐四
服务量 200万tokens 500万tokens 0.5亿tokens 1亿tokens 10亿tokens
QPS 2 2 5 10 20
有效期 一年 一年 一年 一年 一年
V1.5套餐单价 免费 免费 0.15元/万tokens 0.14元/万tokens 0.13元/万tokens
V3.0套餐单价 免费 免费 0.3元/万tokens 0.28元/万tokens 0.26元/万tokens

3.5 清华智谱清言

https://open.bigmodel.cn/pricing
https://open.bigmodel.cn/dev/api#product-billing

模型 说明 上下文长度 单价
GLM-4 提供了更强大的问答和文本生成能力。适合于复杂的对话交互和深度内容创作设计的场景。 128K 0.1元 / 千tokens
GLM-3-Turbo 适用于对知识量、推理能力、创造力要求较高的场景,比如广告文案、小说写作、知识类写作、代码生成等。 128K 0.005元 / 千tokens

3.6 昆仑万维天工AI

https://model-platform.tiangong.cn/pricing

模型/api 说明 单价
kyChat-MegaVerse 适用于对创新能力、学识深度、逻辑能力要求较高的超长文本的场景,包括企业办公辅助、文案生成、写小说、文本补全、代码辅助等。 0.010元/千tokens

0.005元/千tokens 新用户充值专享价 |
| AGI Sky-Saas-Search API | 基于"天工"大语言模型出色的推理能力,"AGI Sky-Saas-Search API"不仅具备一般搜索引擎网页抓取、排序的能力,同时能针对海量的网页信息针对性的提取和生成关键内容,提高用户获取信息的效率,并一定程度上解决了 大语言模型所面临的幻觉问题,根治大语言模型虚假生成、胡言乱语的问题。 | 0.18元/次 |
| AGI Sky-Saas-Writing API | "AGI Sky-Saas-Writing API"基于天工大语言模型的文本生成能力,几句对话即可生成所需写作内容。边聊边写,不论是初稿还是修改,都变得快速而自然,体验创意的自由,探索写作的新境界。集 AI 写作、改写、扩写、缩写于一体的 AI 文本编辑器,提高写作效率,增强表达力,打造专业且富有创造力的内容。 | 欢迎咨询 |

3.7 OpenAIGPT

https://openai.com/pricing
使用OpenAI的API需要梯子。

Model Input Output
gpt-4-1106-preview $0.01 / 1K tokens(¥0.07 / 500个汉字) $0.03 / 1K tokens(¥0.21 / 500个汉字)
gpt-4-1106-vision-preview $0.01 / 1K tokens(¥0.07 / 500个汉字) $0.03 / 1K tokens(¥0.21 / 500个汉字)
gpt-4 $0.03 / 1K tokens(¥0.21 / 500个汉字) $0.06 / 1K tokens(¥0.42 / 500个汉字)
gpt-4-32k $0.06 / 1K tokens(¥0.42 / 500个汉字) $0.12 / 1K tokens(¥0.84 / 500个汉字)
gpt-3.5-turbo-1106 $0.0010 / 1K tokens(¥0.007 / 500个汉字) $0.0020 / 1K tokens(¥0.014 / 500个汉字)
gpt-3.5-turbo-instruct $0.0015 / 1K tokens(¥0.0105 / 500个汉字) $0.0020 / 1K tokens(¥0.014 / 500个汉字)
相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
1天前
|
人工智能 移动开发 前端开发
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
蚂蚁团队推出的AI前端研发平台WeaveFox,能够根据设计图直接生成前端源代码,支持多种应用类型和技术栈,提升开发效率和质量。本文将详细介绍WeaveFox的功能、技术原理及应用场景。
104 66
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
|
1天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
30 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
5天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
39 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
6天前
|
人工智能 数据库 自然语言处理
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
「拥抱Data+AI」系列文章由阿里云瑶池数据库推出,基于真实客户案例,展示Data+AI行业解决方案。本文通过钉钉AI助理的实际应用,探讨如何利用阿里云Data+AI解决方案实现智能问数服务,使每个人都能拥有专属数据分析师,显著提升数据查询和分析效率。点击阅读详情。
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
|
3天前
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
22 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
|
4天前
|
传感器 机器学习/深度学习 人工智能
AI视频监控卫士技术介绍:智能化河道管理解决方案
AI视频监控卫士系统,通过高清摄像头、智能传感器和深度学习技术,实现河道、水库、城市水务及生态保护区的全天候、全覆盖智能监控。系统能够自动识别非法行为、水质变化和异常情况,并实时生成警报,提升管理效率和精准度。
33 13
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
MetaGPT开源SELA,用AI设计AI,效果超越OpenAI使用的AIDE
MetaGPT团队开源了Tree-Search Enhanced LLM Agents(SELA)系统,通过蒙特卡罗树搜索(MCTS)优化AutoML过程,显著提升了机器学习模型的构建效率和性能。SELA在20个数据集上的实验结果表明,其性能优于传统AutoML方法和基于LLM的代理,为AutoML领域带来了新的突破。
19 4
|
3天前
|
缓存 人工智能 负载均衡
AI革新迭代:如何利用代理IP提升智能系统性能
在人工智能快速发展的背景下,智能系统的性能优化至关重要。本文详细介绍了如何利用代理IP提升智能系统性能,涵盖数据加速与缓存、负载均衡、突破地域限制、数据传输优化和网络安全防护等方面。结合具体案例和代码,展示了代理IP在实际应用中的价值和优势。
12 0
|
5天前
|
人工智能 API Windows
免费部署本地AI大语言模型聊天系统:Chatbox AI + 马斯克grok2.0大模型(简单5步实现,免费且比GPT4.0更好用)
本文介绍了如何部署本地AI大语言模型聊天系统,使用Chatbox AI客户端应用和Grok-beta大模型。通过获取API密钥、下载并安装Chatbox AI、配置模型,最终实现高效、智能的聊天体验。Grok 2大模型由马斯克X-AI发布,支持超长文本上下文理解,免费且易于使用。
33 0
|
人工智能 大数据
从大数据到ET大脑-阿里云的超智能AI平台
首先声明本座并不是阿里粉丝,一直认为阿里的服务框架Dubbo跟Netflix的Spring Cloud相比,无论从社区成熟度还是功能组件上相比都差了一大截。 但就在刚刚过去的618年中大促中,阿里硬是将这个京东成立日变成了自己在上半年的购物狂欢节。
1810 0
下一篇
DataWorks