数据采集

首页 标签 数据采集
# 数据采集 #
关注
20870内容
|
10天前
| |
来自: 物联网
RFID助力钢材应用智能化管理
RFID技术通过在钢材上绑定耐高温抗金属标签,实现生产、仓储、出库全流程数据化管理,自动采集信息,提升追溯精度与库存准确率至99.5%以上,减少60%人工操作,助力钢铁企业智能化升级。
|
10天前
| |
技术赋能医药全链路:AI 大模型应用在药企的落地痛点与破局之道
本文阐述AI技术在制药行业的深度变革,涵盖企业微信私有化部署、CRM系统智能升级、Data-Agent演进等全链路转型实践,结合RAG优化与幻觉控制方案,推动业务提效与合规双提升,展现AI赋能下行业模式的重塑路径。
状态检索:如何快速判断一个用户是否存在?
本文探讨如何高效判断用户是否存在,对比有序数组、二分查找树和哈希表后,引出更优方案:位图与布隆过滤器。位图以bit为单位存储,大幅节省空间;布隆过滤器通过多哈希函数降低冲突概率,虽有一定误判率,但查询效率达O(1),适用于注册去重、爬虫去重等场景,是提升系统性能的关键技术。
领域模型图(数据架构/ER图)
数据架构核心输出为ER图,包含实体、关系与属性。通过四色原型法进行领域建模:红色MI表示时标事件,绿色PPT为业务对象,黄色Role是参与角色,蓝色DESC提供描述信息。以风控系统为例,从业务流程中提炼MI,构建PPT实体,补充Role与DESC,最终提取出ER图,明确实体间一对一、一对多或多对多关系,形成清晰的数据模型。(238字)
测一测丨检索算法基础,你掌握了多少?
本文介绍了多种数据结构的查询、插入及冲突处理机制。对比了无序与有序数据结构的查询效率,分析了二叉检索树、跳表、哈希表、位图、布隆过滤器和倒排索引的特性与适用场景,涵盖时间空间复杂度、平衡性、遍历性能及实际应用设计原则。(238字)
18 | 搜索引擎:输入搜索词以后,搜索引擎是怎么工作的?
搜索引擎通过爬虫抓取网页,经索引系统处理生成倒排索引,并在检索系统中结合分词、纠错、推荐等技术,利用位置信息和最小窗口排序,精准返回用户所需结果,实现高效搜索。
04 | 状态检索:如何快速判断一个用户是否存在?
本文探讨如何高效判断对象是否存在,对比有序数组、二叉树、哈希表的查询性能,引出位图与布隆过滤器。位图利用数组按位存储,空间效率高;布隆过滤器通过多哈希函数映射到位数组,实现O(1)查询,虽存在误判但省空间,适用于注册去重、爬虫判重等场景。删除问题可通过引用计数或重建解决。
领域·模型图
数据架构核心输出为ER图,包含实体、关系与属性。通过四色原型法进行领域建模:红色MI表时序事件,绿色PPT为业务对象,黄色Role是参与角色,蓝色DESC提供描述信息。以风控系统为例,从业务流程提炼MI,构建PPT实体,补充Role与DESC,最终提取含约束关系的ER图,指导数据模型设计。(238字)
|
10天前
|
18 | 搜索引擎:输入搜索词以后,搜索引擎是怎么工作的?
本文介绍了搜索引擎的核心架构与工作原理,重点解析了爬虫、索引和检索三大系统。通过分词、纠错、推荐等查询分析技术,结合倒排索引与位置信息索引法,搜索引擎能精准理解用户意图并高效返回相关结果。特别地,以“极客时间”为例,深入讲解了短语检索中最小窗口排序与多关键词相关性判断机制,揭示了搜索背后的技术逻辑。(238字)
|
10天前
|
04 | 状态检索:如何快速判断一个用户是否存在?
本文探讨了高效判断对象是否存在的技术方案,对比有序数组、二叉搜索树和哈希表后,重点介绍位图与布隆过滤器。位图利用bit节省空间,实现O(1)查询;布隆过滤器通过多哈希函数进一步压缩空间,适用于允许误判的快速存在性检测场景,广泛用于缓存、爬虫等系统中。
免费试用