原来用聊天记录就可以创造数字分身!WeClone项目在Lab4AI上的复现

简介: 通过WeClone项目,只需导出聊天记录并微调大模型,即可打造专属数字分身。Lab4AI.cn提供一站式服务,无需复杂配置,四步完成:获取数据、预处理、微调、推理。支持自有数据训练,轻松实现个性化AI助手,体验“克隆”自己的奇妙之旅。

01 | WeClone如何创造数字分身

拥有一个数字分身可能是很多人的一个愿望。其实通过给大模型喂我们的聊天记录,就可打造出我们的数字分身,当前爆火的Weclone项目采取的就是这种做法。先导出自己的聊天记录,再把聊天记录作为数据用来微调大模型,让模型学习我们的语言风格和习惯,就能打造出专属的数字分身。近期,有开发者在Lab4AI大模型实验室成功复现WeClone项目,不需要准备繁琐的环境,很容易就能上手。

02 | 来Lab4AI一站式体验

进入Lab4AI.cn,找到【WeClone:从聊天记录创造数字分身的一站式解决方案】项目,我们有两种方式带您体验数字分身。

👉 项目指路: Lab4AI 项目页

方式一:直接使用Lab4AI的数据,体验数字分身

Lab4AI大模型实验室提供交互式对话,无需微调代码,就可以执行代码块,迅速体验交互过程。

方式二:使用自有数据打造数字分身

您可使用自己的聊天数据解锁数字分身。Lab4AI大模型实验室已准备好完整的环境、数据、算力支持,只需四步即可打造数字分身:获取聊天记录 --> 环境准备 --> 启动微调 --> 模型推理。

Step 1:获取聊天记录

Lab4AI大模型实验室提供的项目实践中以Telegram为例介绍了如何获取个人聊天记录。

1)导出聊天记录

在Telegram应用中,单击需要导出聊天记录的聊天对象,单击对话框右上角的省略号按钮,在弹出的选项中选择“Export chat history”,选择照片类型,格式选择JSON,可以导出多个联系人(不建议使用群聊记录)。然后将导出的ChatExport_*文件夹放在./dataset/telegram目录即可(不同人聊天记录的文件夹一起放在 ./dataset/telegram)。

2)数据预处理

我们已经提供了数据处理代码,您根据自己的数据情况和训练需求,编辑配置文件,即可生成数据集相关的配置。

Step 2:环境准备

我们已经准备好了Conda 环境和项目依赖包。

Step 3:启动微调

直接运行下方代码块,即可执行微调。

Step 4:模型推理

在JupyterLab内打开一个终端页面用于启动服务。模型的API在终端窗口启动后进行聊天问题测试,模型的生成结果会保存在指定路径下。下方展示了微调前和微调后的对话效果,可以看出:

  • 微调前,Assistant的回答并不专业,仅具备一些通用知识,无法简明扼要地向user索要订票所需的关键信息,并且经常回答过于冗长而被提前截断,未达到一位专业的航空公司订票客服的业务标准。
  • 微调后,Assistant回答更加专业,能够了解user需求后简短地回问索取用户信息,并回复订票的结果。整个流程更加贴合常见的订票人工客服操作标准,可明显观察到Assistant学习到了订票客服的画风和话术。

03 | 结语

很多人可能会觉得 “训练数字分身很复杂”,但在Lab4AI大模型实验室,整个过程其实很简单:只要有足够的聊天记录或语料,跟着 WeClone 的步骤 —— 导出数据、预处理、微调模型、启动推理,就能拥有专属分身。

作为算力驱动的AI实践内容生态社区,它不是普通的代码仓库,而是集代码、数据、算力与实验平台于一体的平台,项目中预装虚拟环境,让您彻底告别“环境配置一整天,训练报错两小时”的窘境。

如果你也想有一个能替你处理事务、陪伴你的数字分身,不妨去Lab4AI.cn试试 WeClone 项目。或许你会发现,这个用聊天记录 “克隆” 出来的小帮手,能给你的生活带来很多意想不到的便利和温暖。

相关文章
|
1月前
|
人工智能 自然语言处理 安全
AI驱动下的天猫测试全流程革新:从人工到智能的实践与落地经验
天猫技术质量团队探索AI在测试全流程的应用,覆盖需求解析到报告归档,实现用例生成、数据构造、执行校验等环节的自动化与智能化。通过自然语言理解、大模型推理和闭环架构,提升测试效率与质量,沉淀知识资产,构建可溯化、可管理的智能测试体系,推动质量保障向敏捷化、智能化演进。
AI驱动下的天猫测试全流程革新:从人工到智能的实践与落地经验
|
25天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
363 116
|
24天前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
1276 89
大厂CIO独家分享:AI如何重塑开发者未来十年
|
1月前
|
人工智能 自然语言处理 运维
2025主流AI智能客服软件深度评测,一文看懂企业智能客服选型
在AI与数字化转型背景下,智能客服成企业核心竞争力。本文系统对比瓴羊Quick Service、智齿客服、网易七鱼、沃丰Udesk四大产品,在全渠道覆盖、AI能力、部署灵活性等方面深度剖析,结合业务适配性、技术性能、成本服务等维度,为企业提供科学选型框架与实践建议,助力提升服务效率与客户体验。
|
24天前
|
人工智能 自然语言处理 搜索推荐
AI数字人技术力盘点:数字人平台技术实力、产品实测、市场口碑综合推荐
2025年,AI数字人爆发:克拉玛依“小克”上线,罗永浩数字人6小时带货5500万。IDC数据显示,中国AI数字人市场规模2024年达41.2亿元,增速85.3%。世优科技以全栈技术打造1200+数字人IP,赋能政务、文旅等场景;科大讯飞依托语音优势,让“数字大圣”多语互动;微软小冰聚焦明星IP,孵化洛天依等虚拟偶像。从技术深耕到IP运营,三巨头各展所长,推动数字人从概念走向规模化落地,重塑商业未来。
101 0
|
24天前
|
机器学习/深度学习 人工智能 测试技术
NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理
浙大等提出EgoThinker,首创支持第一视角视频推理的AI模型。构建500万问答对数据集EgoRe-5M,结合思维链与手物交互标注,通过两阶段训练提升时空定位与长时序因果推理能力,在多项基准超越现有模型,推动可穿戴助手与具身智能发展。
NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理
|
19天前
|
人工智能 开发工具 iOS开发
数字人又要变天了!十行代码调用电影级3D数字人,RK3566无GPU也能跑
魔珐星云是全球领先的具身智能3D数字人开放平台,让大模型拥有“身体”,实现语音、表情、动作的实时交互。通过一站式SDK,开发者可快速打造高质量、低延时、低成本的多端适配数字人应用,覆盖情感陪伴、虚拟IP、车载、机器人等丰富场景,开启具身智能新时代。
267 2
|
1月前
|
人工智能 自然语言处理 供应链
应用创新丨从赋能到重塑,AI Agent 构建企业智能新引擎
企业应用 AI 正经历从“调用模型”到“构建 AI Agent”的根本性范式转变。
应用创新丨从赋能到重塑,AI Agent 构建企业智能新引擎
|
25天前
|
人工智能 前端开发 JavaScript
新的LLM交互模式!大模型终于能自己生成交互式 UI 了
Google Research推出的Generative UI,让大模型不仅能生成内容,还能一键创建含地图、图表、小游戏等交互功能的完整网页。告别“文字墙”,迈向“内容即应用”的新时代,82.8%用户偏爱此创新体验。
350 8
|
2天前
|
数据采集 人工智能 自然语言处理
Qwen-Video-8B与LLaMA-Factory联动实现垂类视频理解
Qwen-Video-8B联合LLaMA-Factory,通过垂类知识注入与多模态融合优化,提升视频时序理解与专业场景分析能力,助力城市风光、工业、教育等领域实现精准视频智能解析,推动通用模型向行业专用“视觉顾问”进化。