通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🎭 「校勘古籍被逗号逼疯?华南理工用AI复活文言文:24亿字训练的通古大模型,让《资治通鉴》开口说人话!」

大家好,我是蚝油菜花。你是否经历过——

  • 📜 面对无标点古籍,断句错一次论文重写三天
  • 🖋️ 想引用《楚辞》却怕翻译失真被导师划红线
  • 🧐 查个典故翻遍二十五史,眼镜度数飙升200度...

今天要揭秘的 通古大模型 ,可能是文科生最需要的AI外挂!这个由华南理工大学实验室打造的文言文GPT,基于 24.1亿字古籍语料 训练,不仅实现:

  • ✅ 精准智能断句(误差率<2%)
  • ✅ 文白互译保真(支持双向转换)
  • ✅ 诗词格律生成(平仄押韵全自动)

更用 检索增强技术 解决"AI瞎编典故"的行业痛点。汉语言系学生用它写论文,古籍馆用它数字化《四库全书》——原来穿越千年的对话,真的可以一键实现!

🚀 快速阅读

通古大模型是专注于古籍文言文处理的人工智能语言模型。

  1. 主要功能:支持古文句读、文白翻译、诗词创作、古籍赏析和古籍检索与问答。
  2. 技术原理:基于百川2-7B-Base进行增量预训练,结合24.1亿古籍语料和400万古籍对话数据,采用冗余度感知微调(RAT)技术和检索增强生成(RAG)技术。

通古大模型是什么

通古大模型

通古大模型是由华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)开发的专注于古籍文言文处理的语言模型。该模型基于百川2-7B-Base进行增量预训练,使用24.1亿古籍语料进行无监督训练,并结合400万古籍对话数据进行指令微调。通过这些技术手段,通古大模型能够有效提升古籍任务的性能,帮助用户更便捷地理解和翻译古籍文献。

通古大模型不仅在古文句读、文白翻译等方面表现出色,还能够生成符合古诗词格律的作品,辅助用户进行古籍整理和数字化工作。通过检索增强生成(CCU-RAG)技术,模型减少了知识密集型任务中的幻觉问题,提高了生成内容的准确性和可靠性。

通古大模型的主要功能

  • 古文句读:自动为古文添加标点符号,解决古籍中常见的断句问题,帮助用户更好地理解古文内容。
  • 文白翻译:支持文言文与白话文之间的双向翻译,将晦涩的古文翻译为现代文,同时也可将现代文转换为文言文,方便用户进行古籍阅读和研究。
  • 诗词创作:生成符合古诗词格律和风格的诗歌,用户可以根据需求提供主题或关键词,模型生成相应的诗词作品。
  • 古籍赏析:对古籍中的经典篇章进行赏析,解读其文学价值、历史背景和文化内涵,辅助用户深入学习古籍。
  • 古籍检索与问答:结合检索增强技术,快速检索古籍内容,根据用户的问题提供准确的答案,帮助用户高效获取古籍信息。
  • 辅助古籍整理:识别古籍中的文字错误、缺漏等问题,提供修复建议,辅助古籍整理和数字化工作。

通古大模型的技术原理

  • 基础模型架构:通古大模型基于百川2-7B-Base进行增量预训练。百川2-7B-Base是一个强大的预训练语言模型,为通古大模型提供了基础的语言理解和生成能力。
  • 无监督增量预训练:模型在24.1亿古籍语料上进行无监督增量预训练,使模型学习古籍的语言风格和结构,为后续的古籍处理任务奠定基础。
  • 多阶段指令微调:通古大模型采用了多阶段指令微调技术,提出了冗余度感知微调(RAT)方法。在提升下游任务性能的同时,保留了基座模型的能力。通过指令微调,模型能更好地适应古籍处理的具体任务,如古文翻译、句读等。
  • 检索增强生成(RAG)技术:通古大模型结合了检索增强生成(RAG)技术,减少知识密集型任务中的幻觉问题。核心是将信息检索与文本生成相结合,通过从外部知识库中检索相关信息,作为上下文输入给语言模型,生成更准确、更符合上下文的答案。

如何运行通古大模型

1. 安装依赖

首先,确保你已经安装了必要的依赖库:

pip install torch transformers

2. 加载模型

接下来,加载通古大模型并设置系统消息和用户查询:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "SCUT-DLVCLab/TongGu-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(model_path, device_map='auto', torch_dtype=torch.bfloat16, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

system_message = "你是通古,由华南理工大学DLVCLab训练而来的古文大模型。你具备丰富的古文知识,为用户提供有用、准确的回答。"
user_query = "翻译成白话文:大学之道,在明明德,在亲民,在止于至善。"
prompt = f"{system_message}\n<用户> {user_query}\n<通古> "

3. 生成回复

最后,生成模型的回复并输出结果:

inputs = tokenizer(prompt, return_tensors='pt')
generate_ids = model.generate(
    inputs.input_ids.cuda(), 
    max_new_tokens=128
)
generate_text = tokenizer.batch_decode(
    generate_ids, 
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)[0][len(prompt):]

print(generate_text)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
人工智能 API 语音技术
VideoCaptioner:北大推出视频字幕处理神器,AI自动生成+断句+翻译,1小时工作量5分钟搞定
VideoCaptioner 是一款基于大语言模型的智能视频字幕处理工具,支持语音识别、字幕断句、优化、翻译全流程处理,并提供多种字幕样式和格式导出。
406 89
VideoCaptioner:北大推出视频字幕处理神器,AI自动生成+断句+翻译,1小时工作量5分钟搞定
|
15天前
|
存储 人工智能 搜索推荐
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
Shandu 是一款开源的 AI 研究自动化工具,结合 LangChain 和 LangGraph 技术,能够自动化地进行多层次信息挖掘和分析,生成结构化的研究报告,适用于学术研究、市场分析和技术探索等多种场景。
163 8
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
|
22天前
|
人工智能 算法 测试技术
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
OctoTools 是斯坦福大学推出的开源智能体框架,通过标准化工具卡片和自动化工具集优化算法,显著提升复杂推理任务的解决效率,支持多领域应用。
68 3
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
|
21天前
|
机器学习/深度学习 人工智能 编解码
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
89 0
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
|
24天前
|
传感器 人工智能 机器人
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
72 1
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
|
1月前
|
人工智能 自然语言处理 API
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
OpenDeepResearcher 是一款开源 AI 研究工具,支持异步处理、去重功能和 LLM 驱动的决策,帮助用户高效完成复杂的信息查询和分析任务。
205 18
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
|
19天前
|
传感器 数据采集 人工智能
翻译、调酒、下象棋?AI眼镜成了年货“新宠”
翻译、调酒、下象棋?AI眼镜成了年货“新宠”
|
1月前
|
存储 人工智能
Scaling Law或将终结?哈佛MIT预警:低精度量化已无路可走,重磅研究掀翻AI圈
哈佛大学和麻省理工学院的研究人员最近发布了一项重磅研究,对Scaling Law在低精度量化中的应用提出严重质疑。研究表明,随着训练数据增加,低精度量化带来的性能损失也增大,且与模型大小无关。这挑战了通过增加规模提升性能的传统观点,提醒我们在追求效率时不能忽视性能损失。该研究结果在AI圈内引发广泛讨论,提示未来需探索其他方法来提高模型效率,如混合精度训练、模型压缩及新型硬件架构。论文地址:https://arxiv.org/pdf/2411.04330。
61 11
|
18天前
|
人工智能 弹性计算 Ubuntu
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
959 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
|
11天前
|
人工智能 前端开发 JavaScript
AI程序员:通义灵码 2.0应用VScode前端开发深度体验
AI程序员:通义灵码 2.0应用VScode前端开发深度体验,在软件开发领域,人工智能技术的融入正深刻改变着程序员的工作方式。通义灵码 2.0 作为一款先进的 AI 编程助手,与广受欢迎的代码编辑器 Visual Studio Code(VScode)相结合,为前端开发带来了全新的可能性。本文将详细分享通义灵码 2.0 在 VScode 前端开发环境中的深度使用体验。
130 2

热门文章

最新文章