基于PaddleNLP的ChatGLM-6B模型lora微调实现Data-To-Text 硬约束下的受控文本生成

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 基于PaddleNLP的ChatGLM-6B模型lora微调实现Data-To-Text 硬约束下的受控文本生成

一、基于PaddleNLP的ChatGLM-6B模型lora微调实现Data-To-Text 硬约束下的受控文本生成


1696842773866.jpg


1.大赛背景


  全国大数据与计算智能挑战赛是由国防科技大学系统工程学院大数据与决策实验室组织的年度赛事活动,旨在深入挖掘大数据应用实践中亟需破解的能力生成难题,选拔汇聚数据领域优势团队,促进大数据领域的技术创新和面向需求的成果生成,推动形成“集智众筹、联合攻关、共享共用”的研建用一体迭代演进创新模式。   本届大赛以“发榜挑战、集智攻关”为主题,面向全国大数据与计算智能领域的相关单位,将围绕自然语言处理、图像检测识别、时空数据分析、知识建模分析等前沿技术难点开设赛道,以“揭榜打擂”的形式组织创研竞赛,通过线上打榜与现场评审相结合的方式决出优势团队,进一步创新大数据管理与应用模式,推动大数据与计算智能领域技术发展与生态构建。   热烈欢迎全国各工业部门、科研院所、各高校及民营企业的业内优势团队踊跃参赛揭榜!

  了解更多赛事信息 2023全国大数据与计算智能挑战赛


2.赛题介绍


• 赛题名称Data-To-Text:硬约束下的受控文本生成

• 赛题背景受控文本生成,作为人工智能技术在自然语言生成方面的一种应用,越来越受到学界和各行业的关注,并在体育、财经、气象等领域取得了一定的成果。目前受控文本生成的数据集和技术方面主要依赖以英语为主体、具有显著领域特征的公开数据集,在中文的军事相关的文本上难以直接落地应用。另一方面,现有受控文本生成技术仍存在遗漏关键信息、语句表达不通顺、错误推断结论等问题,导致文本可读性、可信性不够。

截至目前,已经通过工作实践,积累了大量军事领域的中文结构化数据和文本数据,并经过整理和标注,形成可供学习训练的数据集。期望通过参赛者的聪明才智和共同努力,探索构建从结构化数据到非结构化文本的模型算法,推动Data to Text的技术进步和实践运用。

• 赛题任务考虑数据集的开源性和赛题的难度梯度,区分互联网初赛和线下复赛2个环节,设计给定关键词的文本生成技术攻关和给定表格的文本生成技术攻关2个课题,二者在技术上同属一域、内容上一脉相承、难度上梯次递增。 初赛任务需要在一组给定顺序的关键词的情况下,生成一段包含所有关键词的文本,生成文本需要具有领域相关性和表达流畅性。复赛任务是在给定一个表格的情况下,生成一段包含表格关键信息的文本,生成文本必须忠实于表格,且满足语法使用正确、表达简洁清晰、语义自然连贯的要求。

硬约束下的受控文本生成需要解决以下难题:

(1)语言复杂性:参赛者需要考虑如何正确使用中文的语法,高效、准确地表达复杂语义。 (2)中文词汇的多义性和歧义性:在不同的语境下中文词汇表达的意思可能不同,参赛者需要对上下文进行更精确的建模以正确理解和表达文本的含义。 (3)受控机制的设计:生成的文本需要具有领域相关性,同时要保持句子的语义流畅性。 (4)关键词的覆盖率和顺序:生成的文本需要包含所有给定的关键词,并且保证关键词的顺序不变。 (5)可参考的资料和文献较少:中文硬约束文本生成的相关工作较少,参赛者需要充分理解试题并设计针对性的解决方案。


3.数据简介


初赛数据集来源于公开军事新闻网站(如新浪军事、中国军网和环球网等)。复赛数据集来源于特定的结构化数据在线采集平台和相应的综合报告。


4.数据说明


初赛数据集共15000条数据,其中训练集10400条数据,验证集2600条数据,测试集2000条数据。初赛任务为给定关键词,生成领域相关的文本。要求生成的文本中包含所有的关键词,并且关键词按顺序出现。在数据集中,关键词(key_words)为给定信息,文本(text)为期望的输出结果。

共包含3个文件:

训练集(train_set.json)

验证集(valid_set.json)

测试集(test_set.json)

• 训练集和验证集:

训练集(train_set.json)共10400条数据,验证集(valid_set.json)共2600条数据。每条的数据格式为:

{
        "id": 1,
        "text": "最近,因为某知名坦克博主的一篇微博,我国的99A型坦克又被推到了风口浪尖,其中最主要的问题就是,原来传的神乎其神的99A坦克的俯角,似乎并没有很多人想象的那么大,那么今天我们不妨来谈一谈坦克俯角的那些事。",
        “key_words”: [“最近”, “坦克”, “一篇”, “微博”, “99A型坦克”, “99A坦克”, “今天”,"坦克", "那些事“]
}


二、环境设置


1.升级pip


避免pip安装失败

%%capture
#要更新pip要不容易安装失败
!pip install --upgrade pip


2.安装PaddleNLP开发版


# https://gitee.com/livingbody/PaddleNLP为我同步的最新的PaddleNLP,官方gitee的有一些旧
!git clone https://gitee.com/livingbody/PaddleNLP -b develop --depth=1
%%capture
!pip install -e PaddleNLP/


三、数据转换


1.JSONL简介


JSONL(JSON Lines)是一种文本格式,每行包含一个独立的的数据结构,通常用于大规模数据存储和传输。因此,将JSON转换为JSONL相对简单,只需要将每个JSON对象放在单独的行中即可。

import json  
# JSON数据  
json_data = [  
    {"name": "Alice", "age": 25},  
    {"name": "Bob", "age": 30},  
     {"name": "Charlie", "age": 35}  
]  
# 打开输出文件  
with open("output.jsonl", "w") as f:  
    # 逐行写入JSON对象  
    for data in json_data:  
        f.write(json.dumps(data) + "\n")

在上面的示例中,我们使用Python的内置json模块将JSON对象转换为JSON字符串,然后在输出文件中逐行写入每个JSON对象。注意,每个JSON对象都需要以独立的行为基础,并以换行符结尾。这样,就可以将JSON转换为JSONL格式了。

!cat output.jsonl
{"name": "Alice", "age": 25}
{"name": "Bob", "age": 30}
{"name": "Charlie", "age": 35}


2.数据格式转换


  • train \ dev 转jsonl格式
!head data/data222851/test_set.json
[
    {
        "id": 1,
        "key_words": [
            "拉脱维亚",
            "前苏联",
            "部署",
            "核武器",
            "一个",
            "核反应堆",
# 训练集
import json
from pprint import pprint
def json2jsonl(source_file, target_file):
    # 读取 JSON 文件
    with open(source_file, 'r', encoding='utf-8') as f:
        data = json.load(f)
    pprint(len(data))
    # 写入文件
    f = open(target_file, 'w', encoding="utf-8")
    result_list = []
    for item in data:
        temp = dict()
        temp['content'] = ' '.join(item['key_words'])
        temp['summary'] = item['text']
        f.write(json.dumps(temp, ensure_ascii=False) + "\n")
        result_list.append(temp)
    f.close()
!mkdir converted
json2jsonl('data/data222851/valid_set.json', 'converted/dev.json' )
json2jsonl('data/data222851/train_set.json', 'converted/train.json' )
!head -n3 converted/dev.json
{"content": "贵飞 2017年 山鹰 一架 后机身 山鹰 后期 批次 山鹰 歼7L 天线", "summary": "据贵飞消息,2017年批产山鹰最后一架份后机身已经交付总装线,至此山鹰系列已生产到了第七批次的第22架,从贵飞发布的照片可以看到较后期批次的山鹰垂尾都装了类似歼7L的数据链天线。"}
{"content": "分毫 火箭军 导弹旅 邱黄成 一个 22年 邱黄成 多次 导弹发射 两次 三等功 火箭军 去年6月 40岁 一名 新时代", "summary": "但凡是跟打仗有关的事,必须一丝不苟,分毫不能差。这是火箭军某导弹旅任务规划队原队长邱黄成对待工作的一贯态度。在战友们眼中,他就是这样一个始终专注于练兵备战的人。入伍22年来,邱黄成先后多次参与导弹发射任务,两次荣立三等功,被评为火箭军基层好主官标兵。去年6月,他因突发颅内淋巴瘤倒在了战位上,用年仅40岁的生命,诠释了一名新时代基层干部的奉献和担当。"}
{"content": "读者网 郭广杰 徐伟 陈聪 尹志伟 2月3日 浙江 安徽 演练 春节 武警部队 节前 演练 突发事件 演练 总指挥组", "summary": "军事读者网讯郭广杰徐伟陈聪尹志伟摄影报道:2月3日,浙江、安徽武警反恐特战队员实装进行了反恐任务演练。春节来临之际,武警部队有针对性地进行了节前处突反恐演练,为贴近实战需求,在演练中设置突发事件,在演练总指挥组的导调下不断变换新情况"}


3.chatglm-6b模型预置


  • 使用数据集复制到临时存储模型目录.paddlenlp/models/THUDM/chatglm-6b/,避免等待长耗时的下载
!mkdir .paddlenlp/models/THUDM/chatglm-6b/ -p
!cp data/data217141/*  .paddlenlp/models/THUDM/chatglm-6b/


四、微调


ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。


1.参数说明


  • model_name_or_path: 预训练模型内置名称或者模型所在目录,默认为THUDM/chatglm-6b
  • task_name_or_path: 数据集存储目录。
  • max_steps: 模型训练步数。
  • learning_rate: 参数更新的学习率。
  • warmup_steps: 学习率热启的步数。
  • eval_steps: 模型评估的间隔步数。
  • logging_steps: 训练日志打印的间隔步数。
  • save_steps: 模型参数保存的间隔步数。
  • save_total_limit: 模型 checkpoint 保存的份数。
  • output_dir: 模型参数保存目录。
  • src_length: 上下文的最大输入长度,默认为128.
  • tgt_length: 生成文本的最大长度,默认为160.
  • gradient_accumulation_steps: 模型参数梯度累积的步数,可用于扩大 batch size。实际的 batch_size = per_device_train_batch_size * gradient_accumulation_steps。
  • fp16: 使用 float16 精度进行模型训练和推理。
  • fp16_opt_level: float16 精度训练模式,O2表示纯 float16 训练。
  • recompute: 使用重计算策略,开启后可节省训练显存。
  • do_train: 是否训练模型。
  • do_eval: 是否评估模型。
  • tensor_parallel_degree: 模型并行数量。
  • eval_with_do_generation: 在评估的时候是否调用model.generate,默认为False。

2.lora微调


!python ~/PaddleNLP/llm/chatglm/finetune_generation.py \
    --output_dir ./checkpoints/chatglm-6b \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 2 \
    --per_device_eval_batch_size 8 \
    --model_name_or_path THUDM/chatglm-6b \
    --task_name_or_path converted/ \
    --num_train_epochs 2 \
    --learning_rate 3e-4 \
    --warmup_steps 30 \
    --logging_steps 1 \
    --evaluation_strategy epoch \
    --save_strategy epoch \
    --src_length 1024 \
    --tgt_length 1024 \
    --fp16 \
    --fp16_opt_level O2 \
    --do_train \
    --do_eval \
    --disable_tqdm True \
    --load_best_model_at_end True \
    --metric_for_best_model accuracy \
    --eval_with_do_generation False \
    --recompute \
    --save_total_limit 1 \
    --overwrite_output_dir \
    --lora True \
    --lora_rank 8    
r_second: 1.09, ppl: 3.9061367028048903, epoch: 1.1923
[2023-08-02 20:31:35,256] [    INFO] - loss: 1.37255859, learning_rate: 0.0001233, global_step: 1551, interval_runtime: 0.8586, interval_samples_per_second: 9.318, interval_steps_per_second: 1.165, ppl: 3.945432536555322, epoch: 1.1931
[2023-08-02 20:31:36,232] [    INFO] - loss: 1.80371094, learning_rate: 0.0001232, global_step: 1552, interval_runtime: 0.9752, interval_samples_per_second: 8.204, interval_steps_per_second: 1.025, ppl: 6.072139049825416, epoch: 1.1938
[2023-08-02 20:31:37,414] [    INFO] - loss: 1.47412109, learning_rate: 0.000123, global_step: 1553, interval_runtime: 1.1831, interval_samples_per_second: 6.762, interval_steps_per_second: 0.845, ppl: 4.367195713659017, epoch: 1.1946
[2023-08-02 20:31:38,292] [    INFO] - loss: 1.87402344, learning_rate: 0.0001229, global_step: 1554, interval_runtime: 0.8781, interval_samples_per_second: 9.11, interval_steps_per_second: 1.139, ppl: 6.514454257550992, epoch: 1.1954
[2023-08-02 20:31:39,253] [    INFO] - loss: 1.85986328, learning_rate: 0.0001228, global_step: 1555, interval_runtime: 0.9606, interval_samples_per_second: 8.328, interval_steps_per_second: 1.041, ppl: 6.422858578172402, epoch: 1.1962


五、预测


1.修改预测脚本


修改PaddleNLP/llm/chatglm/predict_generation.py第167行,加入预测数据看看效果。

if __name__ == "__main__":
    args = parse_arguments()
    paddle.set_device(args.device)
    predictor = Predictor(args)
    if args.data_file is None:
        all_texts = [
            "拉脱维亚 前苏联 部署 核武器 一个 核反应堆 苏美 1987年 中程导弹 前苏联 核武器 核反应堆 苏联解体 拉脱维亚 一个 无核国家",
            "通用动力公司 一份 1710万美元 M1A2坦克 今年4月 一份 7.41亿美元 跨年度 307辆 SEP坦克 此前 通用动力公司 580辆 SEP坦克 206辆 坦克",
            "法国 国防部 网站 法国 今年10月8日至11月2日 派遣 1200名 埃及 联合军事演习 每隔两年 一次 20多个 埃及 美国"
        ]


2.预测数据集处置


以空格隔开各个词汇,存储为json

# 训练集
import json
from pprint import pprint
def save_test(source_file, target_file):
    # 读取 JSON 文件
    with open(source_file, 'r', encoding='utf-8') as f:
        data = json.load(f)
    pprint(len(data))
    # 写入文件
    f = open(target_file, 'w', encoding="utf-8")
    result_list = []
    for item in data:
        temp = dict()
        temp['content'] = ' '.join(item['key_words'])
        temp['summary'] = ''
        f.write(json.dumps(temp, ensure_ascii=False) + "\n")
        result_list.append(temp)
    f.close()
test_file='data/data222851/test_set.json'
test_convert='test_set.json'
save_test(test_file, test_convert)
2000
!head -n3 test_set.json
{"content": "拉脱维亚 前苏联 部署 核武器 一个 核反应堆 苏美 1987年 中程导弹 前苏联 核武器 核反应堆 苏联解体 拉脱维亚 一个 无核国家", "summary": ""}
{"content": "通用动力公司 一份 1710万美元 M1A2坦克 今年4月 一份 7.41亿美元 跨年度 307辆 SEP坦克 此前 通用动力公司 580辆 SEP坦克 206辆 坦克", "summary": ""}
{"content": "法国 国防部 网站 法国 今年10月8日至11月2日 派遣 1200名 埃及 联合军事演习 每隔两年 一次 20多个 埃及 美国", "summary": ""}


3.开始预测


对前三条数据进行预测

{"content": "拉脱维亚 前苏联 部署 核武器 一个 核反应堆 苏美 1987年 中程导弹 前苏联 核武器 核反应堆 苏联解体 拉脱维亚 一个 无核国家", "summary": ""}
{"content": "通用动力公司 一份 1710万美元 M1A2坦克 今年4月 一份 7.41亿美元 跨年度 307辆 SEP坦克 此前 通用动力公司 580辆 SEP坦克 206辆 坦克", "summary": ""}
{"content": "法国 国防部 网站 法国 今年10月8日至11月2日 派遣 1200名 埃及 联合军事演习 每隔两年 一次 20多个 埃及 美国", "summary": ""}
# 覆盖预测文件
!cp predict_generation.py PaddleNLP/llm/chatglm/predict_generation.py -rf
 !python PaddleNLP/llm/chatglm/predict_generation.py \
    --model_name_or_path THUDM/chatglm-6b \
    --lora_path ./model_checkpoints/chatglm-6b/checkpoint-1300
/opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages/_distutils_hack/__init__.py:33: UserWarning: Setuptools is replacing distutils.
  warnings.warn("Setuptools is replacing distutils.")
[2023-08-02 21:34:02,338] [    INFO] - Found /home/aistudio/.paddlenlp/models/THUDM/chatglm-6b/tokenizer_config.json[2023-08-02 21:34:02,339] [    INFO] - We are using <class 'paddlenlp.transformers.chatglm.tokenizer.ChatGLMTokenizer'> to load 'THUDM/chatglm-6b'.[2023-08-02 21:34:02,339] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/THUDM/chatglm-6b/ice_text.model[2023-08-02 21:34:02,339] [    INFO] - Downloading https://bj.bcebos.com/paddlenlp/models/community/THUDM/chatglm-6b/added_tokens.json and saved to /home/aistudio/.paddlenlp/models/THUDM/chatglm-6b[2023-08-02 21:34:02,374] [ WARNING] - file<https://bj.bcebos.com/paddlenlp/models/community/THUDM/chatglm-6b/added_tokens.json> not exist[2023-08-02 21:34:02,374] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/THUDM/chatglm-6b/special_tokens_map.json[2023-08-02 21:34:02,374] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/THUDM/chatglm-6b/tokenizer_config.json[2023-08-02 21:34:02,686] [    INFO] - Found /home/aistudio/.paddlenlp/models/THUDM/chatglm-6b/config.json[2023-08-02 21:34:02,687] [    INFO] - We are using <class 'paddlenlp.transformers.chatglm.modeling.ChatGLMForCausalLM'> to load 'THUDM/chatglm-6b'.[2023-08-02 21:34:02,687] [ WARNING] - `load_state_as_np` is deprecated,  please delete it![2023-08-02 21:34:02,711] [    INFO] - Found /home/aistudio/.paddlenlp/models/THUDM/chatglm-6b/config.json[2023-08-02 21:34:02,711] [    INFO] - Loading configuration file /home/aistudio/.paddlenlp/models/THUDM/chatglm-6b/config.json[2023-08-02 21:34:02,712] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/THUDM/chatglm-6b/model_state.pdparams[2023-08-02 21:34:02,712] [    INFO] - Loading weights file model_state.pdparams from cache at /home/aistudio/.paddlenlp/models/THUDM/chatglm-6b/model_state.pdparams[2023-08-02 21:35:38,457] [    INFO] - Loaded weights file from disk, setting weights to model.W0802 21:35:38.460880  6418 gpu_resources.cc:119] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 11.6
W0802 21:35:38.468986  6418 gpu_resources.cc:149] device: 0, cuDNN Version: 8.4.
[2023-08-02 21:35:50,552] [ WARNING] - Some weights of the model checkpoint at THUDM/chatglm-6b were not used when initializing ChatGLMForCausalLM: ['lm_head.weight']
- This IS expected if you are initializing ChatGLMForCausalLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing ChatGLMForCausalLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).[2023-08-02 21:35:50,552] [ WARNING] - Some weights of ChatGLMForCausalLM were not initialized from the model checkpoint at THUDM/chatglm-6b and are newly initialized: ['transformer.rotary_embeddings.inv_freq', 'lm_head.decoder_weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.[2023-08-02 21:35:51,265] [ WARNING] - Reset tensor_parallel_degree of lora_config to 1.[2023-08-02 21:35:51,299] [    INFO] - Loading the LoRA weights from ./model_checkpoints/chatglm-6b/checkpoint-1300/lora_model_state.pdparams[2023-08-02 21:35:51,330] [    INFO] - Load lora weight successfully拉脱维亚 前苏联 部署 核武器 一个 核反应堆 苏美 1987年 中程导弹 前苏联 核武器 核反应堆 苏联解体 拉脱维亚 一个 无核国家拉脱维亚是前苏联部署核武器的一个核反应堆,苏美于1987年进行了中程导弹试射,表明前苏联已经具备核武器,但核反应堆没有建成,苏联解体后,拉脱维亚成为一个独立的国家,但仍然是一个独立的核国家。通用动力公司 一份 1710万美元 M1A2坦克 今年4月 一份 7.41亿美元 跨年度 307辆 SEP坦克 此前 通用动力公司 580辆 SEP坦克 206辆 坦克通用动力公司一份1710万美元的订单,将用于购买M1A2坦克。今年4月,通用动力公司一份价值7.41亿美元的合同,将用于购买307辆SEP坦克。此前通用动力公司已经向军方交付了580辆SEP坦克,还有206辆坦克等待交付。法国 国防部 网站 法国 今年10月8日至11月2日 派遣 1200名 埃及 联合军事演习 每隔两年 一次 20多个 埃及 美国据法国国防部网站消息,法国今年10月8日至11月2日派遣了大约1200名士兵参加埃及的联合军事演习。该演习每隔两年举行一次,20多个国家参加,埃及是其中之一。图为美国士兵参加演习。


4.效果分析 结果如下


拉脱维亚 前苏联 部署 核武器 一个 核反应堆 苏美 1987年 中程导弹 前苏联 核武器 核反应堆 苏联解体 拉脱维亚 一个 无核国家
拉脱维亚是前苏联部署核武器的一个核反应堆,苏美于1987年进行了中程导弹试射,表明前苏联已经具备核武器,但核反应堆没有建成,苏联解体后,拉脱维亚成为一个独立的国家,但仍然是一个独立的核国家。
通用动力公司 一份 1710万美元 M1A2坦克 今年4月 一份 7.41亿美元 跨年度 307辆 SEP坦克 此前 通用动力公司 580辆 SEP坦克 206辆 坦克
通用动力公司一份1710万美元的订单,将用于购买M1A2坦克。今年4月,通用动力公司一份价值7.41亿美元的合同,将用于购买307辆SEP坦克。此前通用动力公司已经向军方交付了580辆SEP坦克,还有206辆坦克等待交付。
法国 国防部 网站 法国 今年10月8日至11月2日 派遣 1200名 埃及 联合军事演习 每隔两年 一次 20多个 埃及 美国
据法国国防部网站消息,法国今年10月8日至11月2日派遣了大约1200名士兵参加埃及的联合军事演习。该演习每隔两年举行一次,20多个国家参加,埃及是其中之一。图为美国士兵参加演习。

六、总结


  • 通过使用lora对chatglm-6b进行微调,实现了根据给出多个关键词组,生成流畅的新闻。在认知域作战领域有一定用武之地。
  • 该题目应该是5月左右发布的,当时使用飞桨没有思路,目前大模型开源层出不穷,终于可以轻松解决该应用了。
  • 项目地址: aistudio.baidu.com/aistudio/pr…


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
存储 自然语言处理 数据处理
PaddleNLP--UIE--小样本快速提升性能(含doccona标注
需求跨领域跨任务:领域之间知识迁移难度高,如通用领域知识很难迁移到垂类领域,垂类领域之间的知识很难相互迁移;存在实体、关系、事件等不同的信息抽取任务需求。 - 定制化程度高:针对实体、关系、事件等不同的信息抽取任务,需要开发不同的模型,开发成本和机器资源消耗都很大。 - 训练数据无或很少:部分领域数据稀缺,难以获取,且领域专业性使得数据标注门槛高。
PaddleNLP--UIE--小样本快速提升性能(含doccona标注
|
4天前
|
JSON 人工智能 自然语言处理
小模型也能有类o1的慢思考能力?使用CAMEL生成CoT数据、Unsloth微调Qwen2.5-1.5B模型并上传至Hugging Face
本项目利用CAMEL生成高质量的CoT数据,结合Unsloth对Qwen2.5-1.5B模型进行微调,并将结果上传至Hugging Face。通过详细步骤介绍从数据生成到模型微调的完整流程,涵盖环境配置、API密钥设置、ChatAgent配置、问答数据生成与验证、数据转换保存、模型微调及推理保存等内容。最终展示了如何优化问答系统并分享实用技巧。 [CAMEL-AI](https://github.com/camel-ai/camel) 是一个开源社区,致力于智能体扩展研究。欢迎在GitHub上关注并加入我们!
|
2月前
|
人工智能 JSON 监控
Qwen2.5-Coder-7B-Instruct Lora 微调 SwanLab 可视化记录版
本节我们简要介绍如何基于 transformers、peft 等框架,对Qwen2.5-Coder-7B-Instruct 模型进行Lora微调。使用的数据集是中文法律问答数据集 DISC-Law-SFT,同时使用 SwanLab 监控训练过程与评估模型效果。
129 4
|
2月前
GLM-4模型微调报内核版本不匹配的错误
GLM-4模型微调报内核版本不匹配的错误
|
5月前
|
自然语言处理 机器人 API
Instruct2Act:使用大型语言模型将多模态指令映射到机器人动作
Instruct2Act是一个框架,它结合了大型语言模型和多模态基础模型,将自然语言和视觉指令转换为机器人的顺序动作,实现精确的感知、规划和行动,展示了强大的零样本性能和灵活性。
66 0
Instruct2Act:使用大型语言模型将多模态指令映射到机器人动作
|
8月前
|
人工智能 语音技术
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
中英文混合输出是文本转语音(TTS)项目中很常见的需求场景,尤其在技术文章或者技术视频领域里,其中文文本中一定会夹杂着海量的英文单词,我们当然不希望AI口播只会念中文,Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理,但更新了底模之后,V2.0以上版本支持了中英文混合推理(mix)模式。
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
|
6月前
|
Python
Fama-French模型,特别是三因子模型(Fama-French Three-Factor Model)
Fama-French模型,特别是三因子模型(Fama-French Three-Factor Model)
|
8月前
|
PyTorch 算法框架/工具
pytorch - swa_model模型保存的问题
pytorch - swa_model模型保存的问题
114 0
|
自然语言处理 安全 数据挖掘
PaddleNLP基于ERNIR3.0文本分类以CAIL2018-SMALL数据集罪名预测任务为例【多标签】
文本分类任务是自然语言处理中最常见的任务,文本分类任务简单来说就是对给定的一个句子或一段文本使用文本分类器进行分类。文本分类任务广泛应用于长短文本分类、情感分析、新闻分类、事件类别分类、政务数据分类、商品信息分类、商品类目预测、文章分类、论文类别分类、专利分类、案件描述分类、罪名分类、意图分类、论文专利分类、邮件自动标签、评论正负识别、药物反应分类、对话分类、税种识别、来电信息自动分类、投诉分类、广告检测、敏感违法内容检测、内容安全检测、舆情分析、话题标记等各类日常或专业领域中。 文本分类任务可以根据标签类型分为**多分类(multi class)、多标签(multi label)、层次分类
PaddleNLP基于ERNIR3.0文本分类以CAIL2018-SMALL数据集罪名预测任务为例【多标签】
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型的预训练[4]:指示学习Instruction Learning详解以及和Prompt工程、ICL区别
大语言模型的预训练[4]:指示学习Instruction Learning详解以及和Prompt工程、ICL区别