UIE_Slim满足工业应用场景,解决推理部署耗时问题,提升效能。

简介: UIE_Slim满足工业应用场景,解决推理部署耗时问题,提升效能。

项目链接:fork一下即可
UIE Slim满足工业应用场景,解决推理部署耗时问题,提升效能!
如果有图片缺失查看原项目

UIE Slim满足工业应用场景,解决推理部署耗时问题,提升效能

在UIE强大的抽取能力背后,同样需要较大的算力支持计算。在一些工业应用场景中对性能的要求较高,若不能有效压缩则无法实际应用。因此,基于数据蒸馏技术构建了UIE Slim数据蒸馏系统。其原理是通过数据作为桥梁,将UIE模型的知识迁移到封闭域信息抽取小模型,以达到精度损失较小的情况下却能达到大幅度预测速度提升的效果。

FasterTokenizer是一款简单易用、功能强大的跨平台高性能文本预处理库,集成业界多个常用的Tokenizer实现,支持不同NLP场景下的文本预处理功能,如文本分类、阅读理解,序列标注等。结合PaddleNLP Tokenizer模块,为用户在训练、推理阶段提供高效通用的文本预处理能力。use_faster: 使用C++实现的高性能分词算子FasterTokenizer进行文本预处理加速

UIE数据蒸馏三步

  • Step 1: 使用UIE模型对标注数据进行finetune,得到Teacher Model。
  • Step 2: 用户提供大规模无标注数据,需与标注数据同源。使用Taskflow UIE对无监督数据进行预测。
  • Step 3: 使用标注数据以及步骤2得到的合成数据训练出封闭域Student Model。

效果展示:

测试硬件情况:

1点算力卡对应的:
V100 32GB
GPUTesla V100
Video Mem32GB
CPU4 Cores
RAM32GB
Disk100GB

模型 模型计算运行时间 precision recall F1
uie-base 68.61049008s 0.69277 0.72327 0.70769
uie-mini 28.932519437s 0.74138 0.54088 0.62545
uie-micro 26.36701917 0.74757 0.48428 0.58779
uie-nano 24.8937761 0.74286 0.49057 0.59091
蒸馏mini 6.839258904s 0.7732 0.75 0.76142
蒸馏micro 6.776990s 0.78261 0.72 0.75
蒸馏nano 6.6231770s 0.7957 0.74 0.76684

模型计算运行时间:

| 模型 | 模型计算运行时间 | 提速x倍|
| -------- | -------- | -------- |
| UIE base | 203.95947s | 1|
| UIE base + FasterTokenizer | 177.1798s | 1.15|
| UIE蒸馏mini | 21.97979s |9.28 |
| UIE蒸馏mini + FasterTokenizer | 20.1557s |10.12 |

Archive: data.zip

  • inflating: ./data/unlabeled_data.txt
  • inflating: ./data/doccano_ext.json

示例数据包含以下两部分:

名称 数量
doccano格式标注数据(doccano_ext.json) 200
无标注数据(unlabeled_data.txt) 1277

1. 进行预训练微调,得到Teacher Model

具体参数以及doccano标注细节参考文档:

Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】

[PaddleNLP之UIE信息抽取小样本进阶(二)[含doccano详解]](https://aistudio.baidu.com/aistudio/projectdetail/4160689?contributionType=1)

Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案)

Paddlenlp之UIE关系抽取模型【高管关系抽取为例】

UIE:模型

模型 结构 语言 大小
uie-base (默认) 12-layers, 768-hidden, 12-heads 中文 118M
uie-base-en 12-layers, 768-hidden, 12-heads 英文 118M
uie-medical-base 12-layers, 768-hidden, 12-heads 中文
uie-medium 6-layers, 768-hidden, 12-heads 中文 75M
uie-mini 6-layers, 384-hidden, 12-heads 中文 27M
uie-micro 4-layers, 384-hidden, 12-heads 中文 23M
uie-nano 4-layers, 312-hidden, 12-heads 中文 18M
uie-m-large 24-layers, 1024-hidden, 16-heads 中、英文 实际大小2G
uie-m-base 12-layers, 768-hidden, 12-heads 中、英文 实际大小1G

实际模型大小解释:

base模型118M parameters是指base模型的参数个数,因为同一个模型可以被不同的精度来表示,例如float16,float32,下载下来是450M左右(存储空间大小),是因为下载的模型是float32,118M * 4 大概是存储空间的量级。

!python finetune.py \
    --train_path "./data/train.txt" \
    --dev_path "./data/dev.txt" \
    --save_dir "./checkpoint" \
    --learning_rate 5e-6  \
    --batch_size 16 \
    --max_seq_len 512 \
    --num_epochs 10 \
    --model "uie-base" \
    --seed 1000 \
    --logging_steps 10 \
    --valid_steps 50 \
    --device "gpu"

base模型部分结果展示:

[2022-09-08 17:26:55,701] [    INFO] - Evaluation precision: 0.69375, recall: 0.69811, F1: 0.69592
[2022-09-08 17:27:01,145] [    INFO] - global step 260, epoch: 9, loss: 0.00172, speed: 1.84 step/s
[2022-09-08 17:27:06,448] [    INFO] - global step 270, epoch: 9, loss: 0.00168, speed: 1.89 step/s
[2022-09-08 17:27:12,102] [    INFO] - global step 280, epoch: 10, loss: 0.00165, speed: 1.77 step/s
[2022-09-08 17:27:17,607] [    INFO] - global step 290, epoch: 10, loss: 0.00162, speed: 1.82 step/s
[2022-09-08 17:27:22,899] [    INFO] - global step 300, epoch: 10, loss: 0.00159, speed: 1.89 step/s
[2022-09-08 17:27:26,577] [    INFO] - Evaluation precision: 0.69277, recall: 0.72327, F1: 0.70769
[2022-09-08 17:27:26,577] [    INFO] - best F1 performence has been updated: 0.69841 --> 0.70769

2.离线蒸馏

2.1 通过训练好的UIE定制模型预测无监督数据的标签

用户提供大规模无标注数据,需与标注数据同源。使用Taskflow UIE对无监督数据进行预测。

References:

GlobalPointer:用统一的方式处理嵌套和非嵌套NER:

GPLinker:基于GlobalPointer的实体关系联合抽取

GPLinker_pytorch

CBLUE

%cd /home/aistudio/data_distill
!python data_distill.py \
    --data_path /home/aistudio/data \
    --save_dir student_data \
    --task_type relation_extraction \
    --synthetic_ratio 10 \
    --model_path /home/aistudio/checkpoint/model_best

可配置参数说明:

  • data_path: 标注数据(doccano_ext.json)及无监督文本(unlabeled_data.txt)路径。
  • model_path: 训练好的UIE定制模型路径。
  • save_dir: 学生模型训练数据保存路径。
  • synthetic_ratio: 控制合成数据的比例。最大合成数据数量=synthetic_ratio*标注数据数量。
  • task_type: 选择任务类型,可选有entity_extraction,relation_extraction,event_extraction和opinion_extraction。因为是封闭域信息抽取,需指定任务类型。
  • seed: 随机种子,默认为1000。
 parser.add_argument("--data_path", default="../data", type=str, help="The directory for labeled data with doccano format and the large scale unlabeled data.")
    parser.add_argument("--model_path", type=str, default="../checkpoint/model_best", help="The path of saved model that you want to load.")
    parser.add_argument("--save_dir", default="./distill_task", type=str, help="The path of data that you wanna save.")
    parser.add_argument("--synthetic_ratio", default=10, type=int, help="The ratio of labeled and synthetic samples.")
    parser.add_argument("--task_type", choices=['relation_extraction', 'event_extraction', 'entity_extraction', 'opinion_extraction'], default="entity_extraction", type=str, help="Select the training task type.")
    parser.add_argument("--seed", type=int, default=1000, help="Random seed for initialization")

可配置参数说明:

  • model_path: 训练好的UIE定制模型路径。
  • test_path: 测试数据集路径。
  • label_maps_path: 学生模型标签字典。
  • batch_size: 批处理大小,默认为8。
  • max_seq_len: 最大文本长度,默认为256。
  • task_type: 选择任务类型,可选有entity_extraction,relation_extraction,event_extraction和opinion_extraction。因为是封闭域信息抽取的评估,需指定任务类型。
parser.add_argument("--model_path", type=str, default=None, help="The path of saved model that you want to load.")
    parser.add_argument("--test_path", type=str, default=None, help="The path of test set.")
    parser.add_argument("--encoder", default="ernie-3.0-base-zh", type=str, help="Select the pretrained encoder model for GP.")
    parser.add_argument("--label_maps_path", default="./ner_data/label_maps.json", type=str, help="The file path of the labels dictionary.")
    parser.add_argument("--batch_size", type=int, default=16, help="Batch size per GPU/CPU for training.")
    parser.add_argument("--max_seq_len", type=int, default=128, help="The maximum total input sequence length after tokenization.")
    parser.add_argument("--task_type", choices=['relation_extraction', 'event_extraction', 'entity_extraction', 'opinion_extraction'], default="entity_extraction",

2.3学生模型训练

底座模型可以参考下面进行替换!

!python train.py \
    --task_type relation_extraction \
    --train_path student_data/train_data.json \
    --dev_path student_data/dev_data.json \
    --label_maps_path student_data/label_maps.json \
    --num_epochs 200 \
    --encoder ernie-3.0-mini-zh
# %cd /home/aistudio/data_distill
!python train.py \
    --task_type relation_extraction \
    --train_path student_data/train_data.json \
    --dev_path student_data/dev_data.json \
    --label_maps_path student_data/label_maps.json \
    --num_epochs 100 \
    --encoder ernie-3.0-mini-zh\
    --device "gpu"\
    --valid_steps 100\
    --logging_steps 10\
    --save_dir './checkpoint2'\
    --batch_size 16

3.Taskflow部署学生模型以及性能测试

通过Taskflow一键部署封闭域信息抽取模型,task_path为学生模型路径。

demo测试

from pprint import pprint
from paddlenlp import Taskflow

ie = Taskflow("information_extraction", model="uie-data-distill-gp", task_path="checkpoint2/model_best/") # Schema 在闭域信息抽取中是固定的
pprint(ie("登革热@结果 升高 ### 血清白蛋白水平 检查 结果 检查 在资源匮乏地区和富足地区,对有症状患者均应早期检测。"))

[{'疾病': [{'end': 3,
          'probability': 0.9995957,
          'relations': {'实验室检查': [{'end': 21,
                                   'probability': 0.99892455,
                                   'relations': {},
                                   'start': 14,
                                   'text': '血清白蛋白水平'}],
                        '影像学检查': [{'end': 21,
                                   'probability': 0.99832386,
                                   'relations': {},
                                   'start': 14,
                                   'text': '血清白蛋白水平'}]},
          'start': 0,
          'text': '登革热'}]}]
from pprint import pprint
import json
from paddlenlp.taskflow import Taskflow
import pandas as pd
#运行时间
import time


def openreadtxt(file_name):
    data = []
    file = open(file_name,'r',encoding='UTF-8')  #打开文件
    file_data = file.readlines() #读取所有行
    for row in file_data:
        data.append(row) #将每行数据插入data中     
    return data

# 时间1
old_time = time.time()
data_input=openreadtxt('/home/aistudio/数据集/unlabeled_data.txt')


few_ie = Taskflow("information_extraction", model="uie-data-distill-gp", task_path="/home/aistudio/data_distill/checkpoint2/model_best",batch_size=32) # Schema 在闭域信息抽取中是固定的


# 时间1
current_time = time.time()
print("数据模型载入运行时间为" + str(current_time - old_time) + "s")

#时间2
old_time1 = time.time()
results=few_ie(data_input)
current_time1 = time.time()
print("模型计算运行时间为" + str(current_time1 - old_time1) + "s")
#时间2

#时间三
old_time3 = time.time()
test = pd.DataFrame(data=results)
test.to_csv('/home/aistudio/output/reslut.txt', sep='\t', index=False,header=False) #本地

# with open("/home/aistudio/output/reslut.txt", "w+",encoding='UTF-8') as f:    #a :   写入文件,若文件不存在则会先创建再写入,但不会覆盖原文件,而是追加在文件末尾
#     for result in results:
#         line = json.dumps(result, ensure_ascii=False)  #对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False
#         f.write(line + "\n")
current_time3 = time.time()
print("数据导出运行时间为" + str(current_time3 - old_time3) + "s")

# for idx, text in enumerate(data):
#     print('Data: {} \t Lable: {}'.format(text[0], results[idx]))
print("数据结果已导出")
**mini运行时间:**

数据模型载入运行时间为0.8430757522583008s

模型计算运行时间为6.839258909225464s

数据导出运行时间为0.008304595947265625s

**nano运行时间:**
数据模型载入运行时间为0.5164840221405029s

模型计算运行时间为6.6231770515441895s

数据导出运行时间为0.023623943328857422s

**micro运行时间:**

数据模型载入运行时间为0.5323500633239746s

模型计算运行时间为6.77699007987976s

数据导出运行时间为0.04320549964904785s

4 进行预训练模型UIE-mini并测试推理时间

封闭域UIE的schema是固定的,可以在label_maps.json查看

0:"手术治疗"
1:"实验室检查"
2:"影像学检查"
from pprint import pprint
import json
from paddlenlp import Taskflow
import pandas as pd
#运行时间
import time


def openreadtxt(file_name):
    data = []
    file = open(file_name,'r',encoding='UTF-8')  #打开文件
    file_data = file.readlines() #读取所有行
    for row in file_data:
        data.append(row) #将每行数据插入data中     
    return data

# 时间1
old_time = time.time()
data_input=openreadtxt('/home/aistudio/数据集/unlabeled_data.txt')

schema = {'疾病': ['手术治疗', '实验室检查', '影像学检查']}
# few_ie = Taskflow('information_extraction', schema=schema, batch_size=32,task_path='/home/aistudio/checkpoint_mini/model_best') #自行切换
few_ie = Taskflow('information_extraction', schema=schema, batch_size=32,task_path='/home/aistudio/checkpoint_micro/model_best')
# 时间1
current_time = time.time()
print("数据模型载入运行时间为" + str(current_time - old_time) + "s")

#时间2
old_time1 = time.time()
results=few_ie(data_input)
current_time1 = time.time()
print("模型计算运行时间为" + str(current_time1 - old_time1) + "s")
#时间2

#时间三
old_time3 = time.time()
test = pd.DataFrame(data=results)
test.to_csv('/home/aistudio/output/reslut.txt', sep='\t', index=False,header=False) #本地

# with open("/home/aistudio/output/reslut.txt", "w+",encoding='UTF-8') as f:    #a :   写入文件,若文件不存在则会先创建再写入,但不会覆盖原文件,而是追加在文件末尾
#     for result in results:
#         line = json.dumps(result, ensure_ascii=False)  #对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False
#         f.write(line + "\n")
current_time3 = time.time()
print("数据导出运行时间为" + str(current_time3 - old_time3) + "s")

# for idx, text in enumerate(data):
#     print('Data: {} \t Lable: {}'.format(text[0], results[idx]))
print("数据结果已导出")
通过上述程序自行切换:加载对应模型

记录推理时间:
**uie-nano**
数据模型载入运行时间为0.3770780563354492s
模型计算运行时间为24.893776178359985s
数据导出运行时间为0.01157689094543457s

**uie-micro**
数据模型载入运行时间为0.39632749557495117s
模型计算运行时间为26.367019176483154s
数据导出运行时间为0.012260198593139648s

**uie-mini**

数据模型载入运行时间为0.5642790794372559s

模型计算运行时间为28.93251943588257s

数据导出运行时间为0.01435089111328125s

**uie-base**

数据模型载入运行时间为1.4756040573120117s

模型计算运行时间为68.61049008369446s

数据导出运行时间为0.02205801010131836s

5.提前尝鲜UIE FasterTokenizer加速,提升推理性能

FasterTokenizer是一款简单易用、功能强大的跨平台高性能文本预处理库,集成业界多个常用的Tokenizer实现,支持不同NLP场景下的文本预处理功能,如文本分类、阅读理解,序列标注等。结合PaddleNLP Tokenizer模块,为用户在训练、推理阶段提供高效通用的文本预处理能力。

use_faster: 使用C++实现的高性能分词算子FasterTokenizer进行文本预处理加速。需要通过pip install faster_tokenizer安装FasterTokenizer库后方可使用。默认为False。更多使用说明可参考[FasterTokenizer文档]

https://github.com/PaddlePaddle/PaddleNLP/blob/develop/faster_tokenizer/README.md

特性

  • 高性能。由于底层采用C++实现,所以其性能远高于目前常规Python实现的Tokenizer。在文本分类任务上,FasterTokenizer对比Python版本Tokenizer加速比最高可达20倍。
  • 跨平台。FasterTokenizer可在不同的系统平台上使用,目前已支持Windows x64,Linux x64以及MacOS 10.14+平台上使用。
  • 多编程语言支持。FasterTokenizer提供在C++、Python语言上开发的能力。
  • 灵活性强。用户可以通过指定不同的FasterTokenizer组件定制满足需求的Tokenizer。

FAQ

Q:我在AutoTokenizer.from_pretrained接口上已经打开use_faster=True开关,为什么文本预处理阶段性能上好像没有任何变化?

A:在有三种情况下,打开use_faster=True开关可能无法提升性能:

  • 没有安装faster_tokenizer。若在没有安装faster_tokenizer库的情况下打开use_faster开关,PaddleNLP会给出以下warning:"Can't find the faster_tokenizer package, please ensure install faster_tokenizer correctly. "。
  • 加载的Tokenizer类型暂不支持Faster版本。目前支持4种Tokenizer的Faster版本,分别是BERT、ERNIE、TinyBERT以及ERNIE-M Tokenizer。若加载不支持Faster版本的Tokenizer情况下打开use_faster开关,PaddleNLP会给出以下warning:"The tokenizer XXX doesn't have the faster version. Please check the map paddlenlp.transformers.auto.tokenizer.FASTER_TOKENIZER_MAPPING_NAMES to see which faster tokenizers are currently supported."
  • 待切词文本长度过短(如文本平均长度小于5)。这种情况下切词开销可能不是整个文本预处理的性能瓶颈,导致在使用FasterTokenizer后仍无法提升整体性能。

5.1 方案一

把paddlenlp直接装到指定路径然后修改对应文件;
详情参考这个PR:

Add use_faster flag for uie of taskflow.

5.2方案二

直接找到pr修改后的版本,从giuhub拉去过来:链接参考

https://github.com/joey12300/PaddleNLP/tree/add_ft_requirements

from pprint import pprint
import json
from paddlenlp.taskflow import Taskflow
import pandas as pd
#运行时间
import time


def openreadtxt(file_name):
    data = []
    file = open(file_name,'r',encoding='UTF-8')  #打开文件
    file_data = file.readlines() #读取所有行
    for row in file_data:
        data.append(row) #将每行数据插入data中     
    return data

# 时间1
old_time = time.time()
data_input=openreadtxt('/home/aistudio/数据集/unlabeled_data-Copy1.txt')

few_ie = Taskflow("information_extraction", model="uie-data-distill-gp", task_path="/home/aistudio/data_distill/checkpoint2/model_best",use_faster=True,batch_size=32) # Schema 在闭域信息抽取中是固定的
# few_ie = Taskflow("information_extraction", model="uie-data-distill-gp", task_path="/home/aistudio/data_distill/checkpoint2/model_best",batch_size=32) # Schema 在闭域信息抽取中是固定的

# schema = {'疾病': ['手术治疗', '实验室检查', '影像学检查']}
# few_ie = Taskflow('information_extraction', schema=schema, batch_size=32,use_faster=True,task_path='/home/aistudio/checkpoint/model_best')
# few_ie = Taskflow('information_extraction', schema=schema, batch_size=32,task_path='/home/aistudio/checkpoint/model_best')

# 时间1
current_time = time.time()
print("数据模型载入运行时间为" + str(current_time - old_time) + "s")

#时间2
old_time1 = time.time()
results=few_ie(data_input)
current_time1 = time.time()
print("模型计算运行时间为" + str(current_time1 - old_time1) + "s")
#时间2

#时间三
old_time3 = time.time()
test = pd.DataFrame(data=results)
test.to_csv('/home/aistudio/output/reslut.txt', sep='\t', index=False,header=False) #本地

# with open("/home/aistudio/output/reslut.txt", "w+",encoding='UTF-8') as f:    #a :   写入文件,若文件不存在则会先创建再写入,但不会覆盖原文件,而是追加在文件末尾
#     for result in results:
#         line = json.dumps(result, ensure_ascii=False)  #对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False
#         f.write(line + "\n")
current_time3 = time.time()
print("数据导出运行时间为" + str(current_time3 - old_time3) + "s")

# for idx, text in enumerate(data):
#     print('Data: {} \t Lable: {}'.format(text[0], results[idx]))
print("数据结果已导出")

5.3UIE FasterTokenizer加速,提升推理性能

数据样本增大为原来的三倍:unlabeled_data-Copy1.txt

UIE base

数据模型载入运行时间为1.6006419658660889s

模型计算运行时间为203.95947885513306s

数据导出运行时间为0.07103896141052246s

UIE base + FasterTokenizer

数据模型载入运行时间为1.6196515560150146s

模型计算运行时间为177.17986011505127s

数据导出运行时间为0.07898902893066406s

UIE蒸馏mini

数据模型载入运行时间为0.8441095352172852s

模型计算运行时间为21.979790925979614s

数据导出运行时间为0.02339339256286621s

UIE蒸馏mini + FasterTokenizer

数据模型载入运行时间为0.7269768714904785s

模型计算运行时间为20.155770540237427s

数据导出运行时间为0.012202978134155273s

6.总结

测试硬件情况:

1点算力卡对应的:
V100 32GB
GPUTesla V100
Video Mem32GB
CPU4 Cores
RAM32GB
Disk100GB

模型 模型计算运行时间 precision recall F1
uie-base 68.61049008s 0.69277 0.72327 0.70769
uie-mini 28.932519437s 0.74138 0.54088 0.62545
uie-micro 26.36701917 0.74757 0.48428 0.58779
uie-nano 24.8937761 0.74286 0.49057 0.59091
蒸馏mini 6.839258904s 0.7732 0.75 0.76142
蒸馏micro 6.776990s 0.78261 0.72 0.75
蒸馏nano 6.6231770s 0.7957 0.74 0.76684

模型计算运行时间:

| 模型 | 模型计算运行时间 | 提速x倍|
| -------- | -------- | -------- |
| UIE base | 203.95947s | 1|
| UIE base + FasterTokenizer | 177.1798s | 1.15|
| UIE蒸馏mini | 21.97979s |9.28 |
| UIE蒸馏mini + FasterTokenizer | 20.1557s |10.12 |

1.可以看出UIE蒸馏在小网络下,性能差不多可以按需选择。可能会在更大任务性能会更好点

2.这里uie-base等只简单运行了10个epoch,可以多训练会提升性能

3.一般学生模型会选择参数量比较小的,UIE蒸馏版是schema并行推理的,速度会比UIE快很多,特别是schema比较多以及关系抽取等需要多阶段推理的情况


1.FasterTokenizer加速,paddlenlp2.4.0版本目前还不支持,只要参考PR改下源码

2.封闭域UIE的话schema是固定的,可以在label_maps.json查看,目前支持实体抽取、关系抽取、观点抽取和事件抽取,句子级情感分类目前蒸馏还不支持

3.想要更快的推理换下学生模型的backbone就行

感谢

感谢paddlenlp工作人员@linjieccc的支持,接受了issue并创建了pull request:fix data distill for UIE #3231 https://github.com/PaddlePaddle/PaddleNLP/pull/3231

Add use_faster flag for uie of taskflow. #3194

展望:

后续对FasterTokenizer进行补充;以及研究一下UIE模型的量化、剪枝、NAS

项目链接:fork一下即可
UIE Slim满足工业应用场景,解决推理部署耗时问题,提升效能!
如果有图片缺失查看原项目

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
7月前
|
存储 人工智能 调度
GPT-4 Turbo 发布 | 大模型训练的新时代:超算互联网的调度与调优
算力对训练模型的重要性日益凸显。随着大模型训练的流行,全球显卡和算力正在快速增长。算力后周期市场也在迅速崛起。其中“后”更多是指后服务市场,涵盖从显卡服务器到货IDC之后,形成稳定算力到输出稳定商业推理结果全过程。该过程主要涉及云化、调优、调度、部署、落地和数据管理等环节。
|
1月前
|
机器学习/深度学习 异构计算 AI芯片
云端开炉,线上训练,Bert-vits2-v2.2云端线上训练和推理实践(基于GoogleColab)
对于笔者这样的穷哥们来讲,GoogleColab就是黑暗中的一道光,就算有训练时长限制,也能凑合用了,要啥自行车?要饭咱也就别嫌饭馊了,本次我们基于GoogleColab在云端训练和推理Bert-vits2-v2.2项目,复刻那黑破坏神角色莉莉丝(lilith)。
云端开炉,线上训练,Bert-vits2-v2.2云端线上训练和推理实践(基于GoogleColab)
|
1月前
|
JSON 自然语言处理 API
【LLM落地应用实战】LLM + TextIn文档解析技术实测
文档解析技术是从这些海量且复杂的数据中高效准确地提取有价值信息的关键。它从输入文档图像开始,经过图像处理、版面分析、内容识别和语义理解等流程,最终输出结构化电子文档或语义信息。通过文档解析技术,我们能够深入理解文档的结构、内容和主题,使得信息更易于检索、分析和利用。
|
1月前
|
算法 API C++
模型落地系列 | TensorRT应该如何添加自己的插件?
模型落地系列 | TensorRT应该如何添加自己的插件?
196 1
|
1月前
|
人工智能 弹性计算 PyTorch
【Hello AI】安装和使用AIACC-ACSpeed-分布式训练场景的通信优化库
AIACC-ACSpeed专注于分布式训练场景的通信优化库,通过模块化的解耦优化设计,实现了分布式训练在兼容性、适用性和性能加速等方面的升级。本文为您介绍安装和使用AIACC-ACSpeed v1.1.0的方法。
|
1月前
|
运维 自然语言处理 算法
使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践
CodeFuse是由蚂蚁集团开发的代码语言大模型,旨在支持整个软件开发生命周期,涵盖设计、需求、编码、测试、部署、运维等关键阶段。为了在下游任务上获得更好的精度,CodeFuse 提出了多任务微调框架(MFTCoder),能够解决数据不平衡和不同收敛速度的问题。通过对比多个预训练基座模型的精度表现,我们发现利用 MFTCoder 微调后的模型显著优于原始基座模型。其中,尤为值得关注的是采用了 MFTCoder 框架,并利用多任务数据集进行微调的 CodeFuse-CodeLlama-34B模型,在HumanEval 评估数据集中取得了当时的最好结果。
144 0
使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践
|
1月前
|
人工智能 算法 PyTorch
【Hello AI】AIACC-ACSpeed-AI分布式训练通信优化库
AIACC-ACSpeed(AIACC 2.0-AIACC Communication Speeding)是阿里云推出的AI分布式训练通信优化库AIACC-Training 2.0版本。相比较于分布式训练AIACC-Training 1.5版本,AIACC-ACSpeed基于模块化的解耦优化设计方案,实现了分布式训练在兼容性、适用性和性能加速等方面的升级。
|
1月前
|
人工智能 Ubuntu C++
极智AI | ncnn模型转换及量化流程
本文介绍一下 ncnn 模型转换及量化流程,以 from_darknet yolov4 为例。
192 0
|
9月前
|
机器学习/深度学习 数据可视化 PyTorch
自编码器AE全方位探析:构建、训练、推理与多平台部署
自编码器AE全方位探析:构建、训练、推理与多平台部署
218 0
|
11月前
|
机器学习/深度学习
基于分布式平台的机器学习模型训练以及上线部署方案总结
基于分布式平台的机器学习模型训练以及上线部署方案总结
469 0