模板信息提取阶段方案一

简介: 模板信息提取阶段方案一

一、数据采集
1.采集地点数据(可做)
通过各方面的api、网络爬虫、数据免费提供中心、数据字典等。
//要求地点数据 包含1000w+,1周实现
尽量采用ztree的方式,对所有的地点数据进行结构化

2.时间数据提取(可做)
//采集所有关于节日节气的数据
表结构如下
name beginTime endTime defaultTime

二、信息识别建立
类别1 A A1 A2 A3 + B1 B2 B3…+ D1 D2 D3 D4
各个类别建立ztree树状图形式
(已经实现)
三、信息提取
(1)采用模板方式进行提取
A+信 息 1 + B + {信息1}+B+信息1+B+{信息2}
如果模板是 提醒 信 息 1 + 早 上 + {信息1}+早上+信息1+早上+{信息2}
说一句话是 提醒 我 早上 看书
那么信息1为 我 信息2 为看书
(算法代码已经实现)
(2)时间建立
1>基本的时间设置,例如 周一 通常是这个周一、yyyy年MM月dd日
2>时间的推理 比如下个周一 下一天 诸如此类需要进行推理出来
评判标准 >大于第三方服务、过测试组

四、相似信息识别
(1)例如小明昨天买游戏卡火影100花了30元
我们需要将信息提取出来
A 买游戏卡
B 花了30元
C 小明
D 昨天
E 小明昨天
然后根据我们所需要功能,进行对这些提取后的信息进行识别

思想:
1.知识生态化构建,也就是现在说的深度学习、反馈纠正,利用数据包的进行,实现半监督、无监督方式
2.多种方式进行评估,然后根据多种方式权重之和,进行判断是否

相关文章
|
7月前
|
自然语言处理
如何快速调用官方预置应用-企业知识检索增强
阿里云百炼提供的企业知识检索问答应用可以帮助大家实现让大模型瞬间“开挂”的技能。结合上传的知识数据,大模型识别解析学习文档内容,最终给出生成式回复。我们在通义千问-Turbo/Max大模型基础上,将文件上传、读取、切片、向量化等过程都开发好预置在应用中,实现开箱即用,更能满足您的日常需求。
|
4月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
161 66
|
2月前
|
机器学习/深度学习 并行计算 数据可视化
目标分类笔记(二): 利用PaddleClas的框架来完成多标签分类任务(从数据准备到训练测试部署的完整流程)
这篇文章介绍了如何使用PaddleClas框架完成多标签分类任务,包括数据准备、环境搭建、模型训练、预测、评估等完整流程。
172 0
|
2月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
69 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
3月前
|
语音技术 计算机视觉 开发者
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
【9月更文挑战第15天】LMMS-EVAL 是一项由多家研究机构联合开发的多模态模型评测框架,旨在为大型多模态模型提供全面、低成本且零污染的评测基准。该框架包含超过50个任务和10多个模型,覆盖图像分类、目标检测、语音识别等多个领域,使研究人员能够在有限资源下轻松评估和比较模型性能。通过利用实时更新的数据源,LMMS-EVAL 还确保了模型在真实世界中的泛化能力。论文地址: https://arxiv.org/abs/2407.12772
72 5
|
4月前
|
人工智能 自然语言处理 搜索推荐
彻底摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化
【8月更文挑战第18天】知识图谱作为结构化语义库,在AI领域应用广泛,但构建中实体对齐难题一直存在。近期,AutoAlign提供了一种全自动对齐方案,由张锐等人研发并发布于arXiv。此方法摒弃传统的人工标注依赖,利用大型语言模型实现全自动化对齐。AutoAlign包括谓词与实体对齐两部分,通过构建谓词邻近图及计算实体嵌入,有效提升对齐性能。实验显示其性能超越现有方法,尤其适用于大规模数据集。尽管如此,AutoAlign仍面临计算资源消耗及不同领域适应性等挑战,未来需进一步优化以增强鲁棒性和泛化能力。
101 7
|
4月前
|
机器学习/深度学习 算法
ChatGPT 等相关大模型问题之收集数据并构建训练样本如何解决
ChatGPT 等相关大模型问题之收集数据并构建训练样本如何解决
|
7月前
灵活标签导出:一键满足多样化下游数据需求!
Dataphin标签平台支持导出标签时同步导出代码名称,解决了业务人员理解代码值的难题。用户可选择导出标签值、代码名称或两者,支持多数据源一键建表,实现与业务系统无缝对接。
灵活标签导出:一键满足多样化下游数据需求!
|
7月前
|
自然语言处理 数据挖掘 Java
20源代码模型的数据增强方法:克隆检测、缺陷检测和修复、代码摘要、代码搜索、代码补全、代码翻译、代码问答、问题分类、方法名称预测和类型预测对论文进行分组【网安AIGC专题11.15】
20源代码模型的数据增强方法:克隆检测、缺陷检测和修复、代码摘要、代码搜索、代码补全、代码翻译、代码问答、问题分类、方法名称预测和类型预测对论文进行分组【网安AIGC专题11.15】
312 0
|
机器学习/深度学习 自然语言处理 安全
【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)
【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)
203 0