模板信息提取阶段方案一

简介: 模板信息提取阶段方案一

一、数据采集
1.采集地点数据(可做)
通过各方面的api、网络爬虫、数据免费提供中心、数据字典等。
//要求地点数据 包含1000w+,1周实现
尽量采用ztree的方式,对所有的地点数据进行结构化

2.时间数据提取(可做)
//采集所有关于节日节气的数据
表结构如下
name beginTime endTime defaultTime

二、信息识别建立
类别1 A A1 A2 A3 + B1 B2 B3…+ D1 D2 D3 D4
各个类别建立ztree树状图形式
(已经实现)
三、信息提取
(1)采用模板方式进行提取
A+信 息 1 + B + {信息1}+B+信息1+B+{信息2}
如果模板是 提醒 信 息 1 + 早 上 + {信息1}+早上+信息1+早上+{信息2}
说一句话是 提醒 我 早上 看书
那么信息1为 我 信息2 为看书
(算法代码已经实现)
(2)时间建立
1>基本的时间设置,例如 周一 通常是这个周一、yyyy年MM月dd日
2>时间的推理 比如下个周一 下一天 诸如此类需要进行推理出来
评判标准 >大于第三方服务、过测试组

四、相似信息识别
(1)例如小明昨天买游戏卡火影100花了30元
我们需要将信息提取出来
A 买游戏卡
B 花了30元
C 小明
D 昨天
E 小明昨天
然后根据我们所需要功能,进行对这些提取后的信息进行识别

思想:
1.知识生态化构建,也就是现在说的深度学习、反馈纠正,利用数据包的进行,实现半监督、无监督方式
2.多种方式进行评估,然后根据多种方式权重之和,进行判断是否

相关文章
|
3月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
149 66
|
2月前
|
机器学习/深度学习 存储 人工智能
让模型评估模型:构建双代理RAG评估系统的步骤解析
在当前大语言模型(LLM)应用开发中,评估模型输出的准确性成为关键问题。本文介绍了一个基于双代理的RAG(检索增强生成)评估系统,使用生成代理和反馈代理对输出进行评估。文中详细描述了系统的构建过程,并展示了基于四种提示工程技术(ReAct、思维链、自一致性和角色提示)的不同结果。实验结果显示,ReAct和思维链技术表现相似,自一致性技术则呈现相反结果,角色提示技术最为不稳定。研究强调了多角度评估的重要性,并提供了系统实现的详细代码。
60 10
让模型评估模型:构建双代理RAG评估系统的步骤解析
|
1月前
|
机器学习/深度学习 并行计算 数据可视化
目标分类笔记(二): 利用PaddleClas的框架来完成多标签分类任务(从数据准备到训练测试部署的完整流程)
这篇文章介绍了如何使用PaddleClas框架完成多标签分类任务,包括数据准备、环境搭建、模型训练、预测、评估等完整流程。
95 0
目标分类笔记(二): 利用PaddleClas的框架来完成多标签分类任务(从数据准备到训练测试部署的完整流程)
|
1月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
48 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
3月前
|
索引
Sora视频重建与创新路线问题之TECO代码中条件部分和主体部分的编码如何处理
Sora视频重建与创新路线问题之TECO代码中条件部分和主体部分的编码如何处理
|
3月前
|
机器学习/深度学习 算法
ChatGPT 等相关大模型问题之收集数据并构建训练样本如何解决
ChatGPT 等相关大模型问题之收集数据并构建训练样本如何解决
|
4月前
|
人工智能 SEO
Sora信息问题之sora使用过程中的注意事项如何解决
Sora信息问题之sora使用过程中的注意事项如何解决
70 0
|
6月前
灵活标签导出:一键满足多样化下游数据需求!
Dataphin标签平台支持导出标签时同步导出代码名称,解决了业务人员理解代码值的难题。用户可选择导出标签值、代码名称或两者,支持多数据源一键建表,实现与业务系统无缝对接。
灵活标签导出:一键满足多样化下游数据需求!
|
6月前
|
机器学习/深度学习 缓存 文字识别
印刷文字识别产品使用合集之标注阶段设定了两个独立的字段,但在返回的信息中却合并成了一个字段如何解决
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
机器学习/深度学习 自然语言处理 安全
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
260 0