❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
原文链接:https://mp.weixin.qq.com/s/pzjpeCFDVvZyc5RfK3iIlA
🚀 快速阅读
- 模型架构:Granite 3.1 提供密集模型和稀疏模型,支持 128K 令牌的上下文长度。
- 功能增强:引入全新的嵌入模型和功能调用幻觉检测能力,提升多语言支持和工具调用控制。
- 应用场景:广泛应用于客户服务自动化、内容创作、企业搜索、语言翻译和风险管理等领域。
正文(附运行示例)
Granite 3.1 是什么
Granite 3.1 是 IBM 推出的新一代语言模型,具有强大的性能和更长的上下文处理能力。Granite 3.1 模型家族包括 4 种不同的尺寸和 2 种架构:密集模型(2B 和 8B 参数模型)和稀疏模型(1B 和 3B MoE 模型)。这些模型分别使用 12 万亿和 10 万亿个 token 进行训练,支持 128K 令牌的上下文长度,能够处理复杂的文本和任务。
Granite 3.1 还引入了全新的嵌入模型,覆盖 12 种语言,增强了多语言支持。此外,Granite Guardian 3.1 模型具备功能调用幻觉检测能力,提升了对工具调用的控制和可观察性。
Granite 3.1 的主要功能
- 扩展的上下文窗口:上下文窗口扩展到 128K 令牌,支持模型处理更大的输入,进行更长的连续交互,并在每个输出中融入更多信息。
- 全新的嵌入模型:推出一系列新的检索优化的 Granite Embedding 模型,提供从 30M 到 278M 参数的不同大小,支持 12 种不同语言的多语言支持。
- 功能调用幻觉检测:Guardian 3.1 8B 和 2B 模型新增功能调用幻觉检测能力,增强对进行工具调用的代理的控制和可观察性。
Granite 3.1 的技术原理
- 大型语言模型(LLM):基于大型语言模型构建,通过深度学习和自然语言处理技术训练,理解和生成自然语言文本。
- 变换器架构(Transformer Architecture):使用变换器架构,捕捉文本中的长距离依赖关系。
- 上下文窗口(Context Window):扩展上下文窗口至 128K 令牌,模型能同时考虑更多的信息,处理更长的文本和更复杂的任务。
- 多语言支持(Multilingual Support):训练模型识别和理解多种语言,支持 12 种不同语言的文本处理。
如何运行 Granite 3.1
以下是一个简单的代码示例,展示如何使用 Granite 3.1 进行文本生成:
from transformers import AutoModelForCausalLM, AutoTokenizer
# 加载模型和分词器
model_name = "ibm-granite/granite-3.1-8b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# 输入文本
input_text = "请生成一段关于人工智能的文本。"
# 生成文本
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
output = model.generate(input_ids, max_length=100)
# 解码并输出生成的文本
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
资源
- GitHub 仓库:https://github.com/ibm-granite/granite-3.1-language-models
- HuggingFace 模型库:https://huggingface.co/collections/ibm-granite
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦