360Zhinao2-7B:360推出自研360智脑大模型的升级版

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版,涵盖基础模型及多种上下文长度的聊天模型。该模型在语言理解与生成、聊天能力、数学逻辑推理等方面表现出色,支持多语言和多上下文长度,适用于多种商业应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 模型升级:360Zhinao2-7B是360智脑7B参数的升级版,采用全新的多阶段训练方式和更优质的数据处理策略。
  2. 功能强大:模型支持语言理解与生成、聊天能力、数学逻辑推理等多项功能,适用于多种商业场景。
  3. 技术领先:在国内外同尺寸开源模型中,360Zhinao2-7B在中文能力、IFEval指令遵循7B和复杂数学推理能力方面均排名第一。

正文(附运行示例)

360Zhinao2-7B是什么

公众号: 蚝油菜花 - 360zhinao2

360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版,涵盖基础模型及多种上下文长度的聊天模型。该模型是继360Zhinao1-7B之后的重要更新,基于采用全新的多阶段训练方式和更优质的数据处理策略,提升中英文通用能力,增强模型的数学逻辑推理能力。

在国内外同尺寸开源模型中,360Zhinao2-7B在中文能力、IFEval指令遵循7B和复杂数学推理能力方面均排名第一。模型的长文本微调能力在各个长文本benchmark上也位列第一梯队。

360Zhinao2-7B的主要功能

  • 语言理解与生成:能理解和生成中文和英文文本,适用于多种语言处理任务。
  • 聊天能力:提供强大的聊天功能,支持生成流畅、相关且准确的对话回复。
  • 多上下文长度支持:具有不同上下文长度的聊天模型,能处理从4K到360K不同长度的对话历史。
  • 数学逻辑推理:在数学问题解答和逻辑推理方面表现出色,能处理复杂的数学问题。
  • 多语言支持:除中文,模型也支持英文,能在不同语言的数据集上进行训练和推理。
  • 商业应用:支持免费商用,适用于教育、医疗、智能客服等多个商业场景。

360Zhinao2-7B的技术原理

  • 大规模预训练:采用两阶段训练方法,首先进行大规模的无差别数据训练,然后增加高质量数据的比例,进行第二阶段训练。
  • 大量数据训练:模型训练涉及10T(万亿)个token的第一阶段训练和100B(百亿)个token的第二阶段训练。
  • Transformer架构:基于Transformer架构,一种深度学习模型,广泛应用于自然语言处理任务。
  • 自注意力机制:模型使用自注意力机制处理输入序列中的每个元素,让模型能理解单词或短语之间的复杂关系。
  • 上下文建模:聊天模型支持不同长度的上下文,能根据对话历史生成回复,要求模型具备良好的上下文建模能力。
  • 优化策略:采用余弦退火等学习率调度策略,优化训练过程;采用BF16(Brain Floating Point 16)等混合精度训练技术,提高训练效率和减少内存使用。

如何运行 360Zhinao2-7B

依赖安装

  • python >= 3.8
  • pytorch >= 2.0
  • transformers >= 4.37.2
  • CUDA >= 11.4
pip install -r requirements.txt

可选安装Flash-Attention 2以提高性能和减少内存占用。

FLASH_ATTENTION_FORCE_BUILD=TRUE pip install flash-attn==2.3.6

🤗 Transformers

基础模型推理示例

from transformers import AutoTokenizer, AutoModelForCausalLM
from transformers.generation import GenerationConfig

MODEL_NAME_OR_PATH = "qihoo360/360Zhinao2-7B-Base"

tokenizer = AutoTokenizer.from_pretrained(
    MODEL_NAME_OR_PATH, 
    trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME_OR_PATH,
    device_map="auto",
    trust_remote_code=True)

generation_config = GenerationConfig.from_pretrained(
    MODEL_NAME_OR_PATH,
    trust_remote_code=True)

inputs = tokenizer('中国二十四节气\n1. 立春\n2. 雨水\n3. 惊蛰\n4. 春分\n5. 清明\n', return_tensors='pt')
inputs = inputs.to(model.device)

pred = model.generate(input_ids=inputs["input_ids"], generation_config=generation_config)
print("outputs:\n", tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))

聊天模型推理示例

from transformers import AutoTokenizer, AutoModelForCausalLM
from transformers.generation import GenerationConfig

MODEL_NAME_OR_PATH = "qihoo360/360Zhinao2-7B-Chat-4K"

tokenizer = AutoTokenizer.from_pretrained(
    MODEL_NAME_OR_PATH, 
    trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME_OR_PATH,
    device_map="auto",
    trust_remote_code=True)

generation_config = GenerationConfig.from_pretrained(
    MODEL_NAME_OR_PATH,
    trust_remote_code=True)

messages = []
#round-1
messages.append({
   "role": "user", "content": "介绍一下刘德华"})
response = model.chat(tokenizer=tokenizer, messages=messages, generation_config=generation_config)
messages.append({
   "role": "assistant", "content": response})
print(messages)

#round-2
messages.append({
   "role": "user", "content": "他有什么代表作?"})
response = model.chat(tokenizer=tokenizer, messages=messages, generation_config=generation_config)
messages.append({
   "role": "assistant", "content": response})
print(messages)

🤖 ModelScope

基础模型推理示例

from modelscope import AutoModelForCausalLM, AutoTokenizer
from modelscope import GenerationConfig

MODEL_NAME_OR_PATH = "qihoo360/360Zhinao2-7B-Base"

tokenizer = AutoTokenizer.from_pretrained(
    MODEL_NAME_OR_PATH, 
    trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME_OR_PATH,
    device_map="auto",
    trust_remote_code=True)

generation_config = GenerationConfig.from_pretrained(
    MODEL_NAME_OR_PATH,
    trust_remote_code=True)

inputs = tokenizer('中国二十四节气\n1. 立春\n2. 雨水\n3. 惊蛰\n4. 春分\n5. 清明\n', return_tensors='pt')
inputs = inputs.to(model.device)

pred = model.generate(input_ids=inputs["input_ids"], generation_config=generation_config)
print("outputs:\n", tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))

聊天模型推理示例

from modelscope import AutoModelForCausalLM, AutoTokenizer
from modelscope import GenerationConfig

MODEL_NAME_OR_PATH = "qihoo360/360Zhinao2-7B-Chat-4K"

tokenizer = AutoTokenizer.from_pretrained(
    MODEL_NAME_OR_PATH, 
    trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME_OR_PATH,
    device_map="auto",
    trust_remote_code=True)

generation_config = GenerationConfig.from_pretrained(
    MODEL_NAME_OR_PATH,
    trust_remote_code=True)

messages = []
#round-1
messages.append({
   "role": "user", "content": "介绍一下刘德华"})
response = model.chat(tokenizer=tokenizer, messages=messages, generation_config=generation_config)
messages.append({
   "role": "assistant", "content": response})
print(messages)

#round-2
messages.append({
   "role": "user", "content": "他有什么代表作?"})
response = model.chat(tokenizer=tokenizer, messages=messages, generation_config=generation_config)
messages.append({
   "role": "assistant", "content": response})
print(messages)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型
性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型
491 0
|
人工智能 编解码 文字识别
通义千问720亿参数模型开源,适配企业级、科研级高性能应用
通义千问720亿参数模型开源,适配企业级、科研级高性能应用
1851 0
|
4月前
|
机器学习/深度学习 算法 语音技术
技术开源|FunASR升级第三代热词方案
技术开源|FunASR升级第三代热词方案
|
7月前
|
存储 人工智能 弹性计算
阿里云推出第八代企业级实例 g8i:AI 推理性能最高提升 7 倍、可支持 72B 大语言模型
1 月 11 日,全球领先的云计算厂商阿里云宣布推出第八代企业级通用计算实例 ECS g8i,这也是国内首款搭载第五代英特尔至强可扩展处理器(代号 EMR)的云计算产品。依托阿里云自研的「飞天+CIPU」架构体系,ECS g8i 实例的整机性能最高提升 85%,AI 推理性能最高提升 7 倍,可支撑高达 72B 参数的大语言模型,为 AI 提速,同时新实例还提供了端到端安全防护,为企业构建可信 AI 应用提供强有力的隐私增强算力支撑。
|
存储 人工智能 数据可视化
元象开源650亿参数高性能大模型,无条件免费商用!魔搭最佳实践来了!
为推动国产大模型开源生态繁荣与产业应用快速发展,元象XVERSE公司宣布 开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用,业界尚属首次。
|
人工智能 自然语言处理 Swift
元象开源70 亿参数通用大模型 XVERSE-7B,全开源、免费可商用,魔搭最佳实践来啦!
元象推出 70 亿参数通用大模型 XVERSE-7B 底座与对话版,保持高性能、全开源、免费可商用,让海量中小企业和 AI 开发者能以低成本用上高性能大模型,并在魔搭社区开源,共同推动中国大模型生态建设。
|
机器学习/深度学习 存储 自然语言处理
阿里开源自研工业级稀疏模型高性能训练框架 HybridBackend
近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。
阿里开源自研工业级稀疏模型高性能训练框架 HybridBackend
|
机器学习/深度学习 人工智能 弹性计算
阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%
神龙AI加速引擎与GPU云服务器,双结合,更强劲~
阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%
|
SQL 存储 JSON
三款典型国产分布式数据库的对比评测
编者按:近几年国产数据库市场风生水起,涌现了多款优秀的国产数据库产品,本文选取了三款典型的国产分布式数据库进行全方位对比压测,呈现了国产分布式数据库的发展现状。
3363 0
三款典型国产分布式数据库的对比评测
|
人工智能 自动驾驶 大数据
华为计算战略揭晓:开放鲲鹏主板,推出开发套件,发布系列最强算力AI计算产品
华为在 HC 大会上发布的「全球最快 AI 训练集群」Atlas 900 引起了人们广泛关注。这仅仅是华为智能计算在全联接大会上新产品发布的开始,华为昨天推出的鲲鹏服务器主板、鲲鹏台式机主板,以及全球最强 AI 训练卡 Atlas 300、AI 训练服务器 Atlas 800 等产品,让我们再次见证了这家公司的研发实力。
472 0
华为计算战略揭晓:开放鲲鹏主板,推出开发套件,发布系列最强算力AI计算产品

热门文章

最新文章