Granite 3.1:IBM 开源新一代可商用大语言模型,支持 128K 上下文长度、多语言和复杂任务处理

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: IBM 推出的 Granite 3.1 是一款新一代语言模型,具备强大的性能和更长的上下文处理能力,支持多语言和复杂任务处理。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/pzjpeCFDVvZyc5RfK3iIlA


🚀 快速阅读

  1. 模型架构:Granite 3.1 提供密集模型和稀疏模型,支持 128K 令牌的上下文长度。
  2. 功能增强:引入全新的嵌入模型和功能调用幻觉检测能力,提升多语言支持和工具调用控制。
  3. 应用场景:广泛应用于客户服务自动化、内容创作、企业搜索、语言翻译和风险管理等领域。

正文(附运行示例)

Granite 3.1 是什么

公众号: 蚝油菜花 - granite-3.1

Granite 3.1 是 IBM 推出的新一代语言模型,具有强大的性能和更长的上下文处理能力。Granite 3.1 模型家族包括 4 种不同的尺寸和 2 种架构:密集模型(2B 和 8B 参数模型)和稀疏模型(1B 和 3B MoE 模型)。这些模型分别使用 12 万亿和 10 万亿个 token 进行训练,支持 128K 令牌的上下文长度,能够处理复杂的文本和任务。

Granite 3.1 还引入了全新的嵌入模型,覆盖 12 种语言,增强了多语言支持。此外,Granite Guardian 3.1 模型具备功能调用幻觉检测能力,提升了对工具调用的控制和可观察性。

Granite 3.1 的主要功能

  • 扩展的上下文窗口:上下文窗口扩展到 128K 令牌,支持模型处理更大的输入,进行更长的连续交互,并在每个输出中融入更多信息。
  • 全新的嵌入模型:推出一系列新的检索优化的 Granite Embedding 模型,提供从 30M 到 278M 参数的不同大小,支持 12 种不同语言的多语言支持。
  • 功能调用幻觉检测:Guardian 3.1 8B 和 2B 模型新增功能调用幻觉检测能力,增强对进行工具调用的代理的控制和可观察性。

Granite 3.1 的技术原理

  • 大型语言模型(LLM):基于大型语言模型构建,通过深度学习和自然语言处理技术训练,理解和生成自然语言文本。
  • 变换器架构(Transformer Architecture):使用变换器架构,捕捉文本中的长距离依赖关系。
  • 上下文窗口(Context Window):扩展上下文窗口至 128K 令牌,模型能同时考虑更多的信息,处理更长的文本和更复杂的任务。
  • 多语言支持(Multilingual Support):训练模型识别和理解多种语言,支持 12 种不同语言的文本处理。

如何运行 Granite 3.1

以下是一个简单的代码示例,展示如何使用 Granite 3.1 进行文本生成:

from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型和分词器
model_name = "ibm-granite/granite-3.1-8b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 输入文本
input_text = "请生成一段关于人工智能的文本。"

# 生成文本
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
output = model.generate(input_ids, max_length=100)

# 解码并输出生成的文本
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
179591 21
|
15天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
17天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9439 24
|
21天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
5105 15
资料合集|Flink Forward Asia 2024 上海站
|
21天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
5天前
|
JSON 分布式计算 数据处理
加速数据处理与AI开发的利器:阿里云MaxFrame实验评测
随着数据量的爆炸式增长,传统数据分析方法逐渐显现出局限性。Python作为数据科学领域的主流语言,因其简洁易用和丰富的库支持备受青睐。阿里云推出的MaxFrame是一个专为Python开发者设计的分布式计算框架,旨在充分利用MaxCompute的强大能力,提供高效、灵活且易于使用的工具,应对大规模数据处理需求。MaxFrame不仅继承了Pandas等流行数据处理库的友好接口,还通过集成先进的分布式计算技术,显著提升了数据处理的速度和效率。
|
29天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
16天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
1247 74

热门文章

最新文章