模板信息提取阶段方案一

简介: 模板信息提取阶段方案一

一、数据采集
1.采集地点数据(可做)
通过各方面的api、网络爬虫、数据免费提供中心、数据字典等。
//要求地点数据 包含1000w+,1周实现
尽量采用ztree的方式,对所有的地点数据进行结构化

2.时间数据提取(可做)
//采集所有关于节日节气的数据
表结构如下
name beginTime endTime defaultTime

二、信息识别建立
类别1 A A1 A2 A3 + B1 B2 B3…+ D1 D2 D3 D4
各个类别建立ztree树状图形式
(已经实现)
三、信息提取
(1)采用模板方式进行提取
A+信 息 1 + B + {信息1}+B+信息1+B+{信息2}
如果模板是 提醒 信 息 1 + 早 上 + {信息1}+早上+信息1+早上+{信息2}
说一句话是 提醒 我 早上 看书
那么信息1为 我 信息2 为看书
(算法代码已经实现)
(2)时间建立
1>基本的时间设置,例如 周一 通常是这个周一、yyyy年MM月dd日
2>时间的推理 比如下个周一 下一天 诸如此类需要进行推理出来
评判标准 >大于第三方服务、过测试组

四、相似信息识别
(1)例如小明昨天买游戏卡火影100花了30元
我们需要将信息提取出来
A 买游戏卡
B 花了30元
C 小明
D 昨天
E 小明昨天
然后根据我们所需要功能,进行对这些提取后的信息进行识别

思想:
1.知识生态化构建,也就是现在说的深度学习、反馈纠正,利用数据包的进行,实现半监督、无监督方式
2.多种方式进行评估,然后根据多种方式权重之和,进行判断是否

相关文章
|
消息中间件 数据采集 SQL
【行业应用】阿里云实时计算 Flink 版金融行业解决方案
基于实时计算 Flink 版的解决方案可帮助金融机构从容应对上述挑战,通过 Flink 构建实时数仓、实时反欺诈系统,助力金融机构快速构建实时风控体系。
【行业应用】阿里云实时计算 Flink 版金融行业解决方案
|
9月前
|
DataWorks 数据可视化 搜索推荐
DataWorks产品体验与评测报告
DataWorks是一款全面的大数据开发治理平台,通过最佳实践测评,展示了其在用户画像分析、数据管理和开发效率提升等方面的强大功能。体验过程中,虽遇到开通流程繁琐、文档不足等问题,但整体功能满足预期。建议增强实时数据处理能力和数据可视化功能,以进一步提升用户体验。与同类工具相比,DataWorks在功能全面性、性能和开放性上表现突出,但也需优化界面设计和价格策略。新版Data Studio中的Notebook和智能助手Copilot提供了优秀的交互式编程和智能辅助,但仍需改善稳定性和集成度。
|
JavaScript 前端开发 Java
​ES7、ES8、ES9、ES10、ES11、ES12都增加了哪些新特性?
​ES7、ES8、ES9、ES10、ES11、ES12都增加了哪些新特性?
|
存储 分布式计算 Hadoop
Hadoop性能问题
【7月更文挑战第12天】
190 11
|
存储 算法 Java
如何使用 Python 管理内存和避免内存泄漏?
如何使用 Python 管理内存和避免内存泄漏?
354 35
|
存储 缓存 开发工具
Xcode 清理大法
Xcode 清理大法
1319 0
|
缓存 运维 Cloud Native
李钰:从 OLAP 到湖仓,阿里云与 StarRocks 的共创共荣
本文根据 StarRocks Summit 2023 演讲实录整理而成
943 2
|
SQL 存储 关系型数据库
CHARACTER SET utf8 COLLATE utf8_general_ci
CHARACTER SET utf8 COLLATE utf8_general_ci
|
数据可视化 数据处理 Apache
初窥Apache DolphinScheduler
初窥Apache DolphinScheduler
241 0
|
消息中间件 分布式计算 Java
Scala入门教程(上)
Scala入门教程(上)
594 0
Scala入门教程(上)

热门文章

最新文章