|
4月前
|
数据采集 自然语言处理 JavaScript
|

不写规则也能抽数据?

本文探讨了企业在招聘数据分析中对薪资信息采集的挑战,分析了从纯规则采集到智能解析的发展,并指出智能解析在招聘场景中的局限性。推荐企业采用人工规则与智能解析相结合的策略,以确保数据的稳定性和可解释性。

271 2
|
4月前
|
JSON 前端开发 API
|

京东商品详情 API 实战指南

京东商品详情API通过抓包分析前端异步请求,获取商品标题、价格、库存等核心信息,适用于电商数据分析与比价系统。本文详解接口逻辑、关键参数及Python实现,并强调反爬策略与合规性,助力开发者安全高效采集数据。(238字)

179 3
|
4月前
|
存储 文字识别 数据可视化
|

实用代码工具:Python打造PDF选区OCR / 截图批量处理工具(支持手动/全自动模式)

一款基于Python的PDF区域OCR与截图工具,支持精准框选、文字识别、图片截取及Excel一键导出。内置手动审核与全自动批量处理模式,结合PyMuPDF、easyocr等技术,实现高效、可视化的PDF数据提取,适用于发票、报表等场景,显著提升办公效率。

635 11
|
4月前
|
机器学习/深度学习 人工智能 数据可视化
|

构建AI智能体:七十三、模型的成绩单:一文读懂损失函数,看懂AI如何学习

本文系统介绍了损失函数在机器学习中的核心作用。首先通过类比教学场景,阐释损失函数作为模型"导师"的重要性。随后详细解析了回归任务中的均方误差(MSE)和平均绝对误差(MAE),通过房价预测案例展示了它们对误差的不同处理方式。在分类任务部分,重点讲解了二分类和多分类交叉熵损失函数,使用垃圾邮件识别和图像分类等实例,说明这些函数如何通过概率计算来评估预测准确性。文章通过可视化图表直观呈现了不同损失函数的特点,并强调损失函数作为模型优化的指南针,其设计直接影响学习效果。

467 20
|
4月前
|
存储 SQL JSON
|

云上数据管道太烧钱?别急,我给你捋一捋这三刀该怎么省(存储 / 计算 / 网络)

云上数据管道太烧钱?别急,我给你捋一捋这三刀该怎么省(存储 / 计算 / 网络)

91 2
|
4月前
|
人工智能 调度 芯片
|

Chiplet 技术:芯片终于不再“憋大招”,而是开始像搭积木一样干活了

Chiplet 技术:芯片终于不再“憋大招”,而是开始像搭积木一样干活了

219 0
|
4月前
|
数据采集 安全 API
|

高精度IP定位:准确性提升与数据优化全攻略

使用IP数据云、IPinfo、IPnews这类专业的IP数据服务平台检测,不仅可以查询IP,更是一个网络风险识别仪器。对于跨境电商、安全研究人员,或者想提高上网隐私的人来说,都挺值得收藏学习。

862 1
|
4月前
|
数据采集 缓存 供应链
|

1688关键字搜索工厂数据API使用指南

1688工厂数据接口支持通过关键词与多维度筛选(地区、类型、实力等)获取供应商核心信息,涵盖资质、产能、经营等20余项字段,助力产业带分析、源头直采与供应链调研,适用于电商选品、跨境 sourcing 等场景。

342 1
|
4月前
|
数据采集 传感器 调度
|

并发控制的下一步:让系统自己决定速度

本文讨论了并发控制的三个阶段:1.0阶段的固定并发模型,2.0阶段的规则驱动并发调节,以及3.0阶段的反馈驱动自适应模型。文章通过实战项目展示了如何实现自适应并发采集,强调了系统能力建设的重要性,使稳定性成为自然结果。

108 0
|
4月前
|
数据采集 API 开发者
|

1688商品评论API使用指南

本文介绍1688商品评论数据获取方案,基于合规爬虫技术解析商品ID(offerId)对应的买家评论信息,涵盖评论内容、评分、采购详情、多媒体及商家回复等。适用于口碑分析、质量调研等非商用学习场景,遵循平台规则与法律法规,不提供官方API外的公开接口。

158 1
|
4月前
|
人工智能
|

基于vite7.2+vue3.5+deepseek-v3.2高颜值流式ai会话助手

基于vue3.5+vite7.2+vant4+markdown+openai深度集成deepseek-v3.2聊天大模型。支持浅色+深色主题、stream流式输出、代码高亮、复制代码、katex公式、mermaid图表等功能。

212 4
|
4月前
|
机器学习/深度学习 数据采集 人工智能
|

构建AI智能体:七十二、交叉验证:从模型评估的基石到大模型时代的演进

交叉验证是机器学习中评估模型性能的核心方法,通过轮换数据划分实现稳健评估。文章系统解析了k折交叉验证的原理与实现,展示其在模型比较和超参数优化中的关键作用。随着大模型时代的到来,传统交叉验证面临计算成本挑战,但核心思想仍应用于下游任务。文章通过可视化案例完整呈现了从数据准备到最终评估的工作流程,强调交叉验证在有限数据场景下的不可替代性,同时指出需要根据任务规模灵活选择评估策略。理解交叉验证的原理与应用是AI从业者的必备能力。

408 16
|
4月前
|
消息中间件 分布式计算 Kafka
|

数据慢半拍,问题可能不在“数据”:聊聊数据传播延迟的那些坑

数据慢半拍,问题可能不在“数据”:聊聊数据传播延迟的那些坑

242 7
|
4月前
|
机器学习/深度学习 JSON API
|

1688图片识别商品接口API使用指南

1688图片识别商品API基于深度学习技术,支持上传图片或URL,精准识别1688平台商品信息,涵盖标题、链接、价格、供应商等。适用于批发采购、货源匹配等场景,具备高精度、低延迟、强兼容特性,支持主流图片格式,遵循RESTful规范,助力开发者高效对接1688商品生态。

250 1
|
4月前
|
消息中间件 Java Kafka
|

在 OpenAI 打造流处理平台:超大规模实时计算的实践与思考

本文介绍OpenAI构建流处理平台的实践与挑战。面对Kafka高可用、Python生态兼容、云环境限制等问题,团队基于PyFlink打造跨区域流处理架构,集成Kafka HA组、自研代理与控制平面,支撑实时Embedding生成、特征计算等场景,并推动开源协作与平台自动化演进。

276 1
来自: 实时计算 Flink  版块
|
4月前
|
JSON 监控 API
|

1688搜索店铺列表API使用指南

1688开放平台提供搜索店铺列表API,支持按关键词、行业、地区等条件检索店铺信息,适用于市场调研、竞品监控等场景。本文详解接口摘要、参数说明及Python调用示例,助力开发者高效接入。

876 1
|
4月前
|
机器学习/深度学习 人工智能 芯片
|

当算力变成“新石油”:AI 芯片的战争、底层逻辑与未来爆点

当算力变成“新石油”:AI 芯片的战争、底层逻辑与未来爆点

274 15
|
4月前
|
SQL 分布式计算 大数据
|

别让大数据任务“互相等着死” ——聊聊任务依赖与 DAG 设计的江湖规矩

别让大数据任务“互相等着死” ——聊聊任务依赖与 DAG 设计的江湖规矩

175 6
|
4月前
|
API 开发者
|

美股(纳斯达克/纽交所)数据 API 对接实战(含实时行情与 IPO 功能)

本文介绍如何通过StockTV API快速对接美股数据,支持纳斯达克、纽交所实时行情、IPO日历、K线图及公司基本面信息。仅需配置`countryId=5`,即可高效集成专业级金融数据,适用于量化交易与行情应用开发。

796 2
|
4月前
|
存储 数据采集 算法
|

具身智能:零基础入门睿尔曼机械臂(六)——手眼标定代码库详解,从原理到实践

本文详解睿尔曼手眼标定代码库,涵盖眼在手上与眼在手外两种模式的实现原理及核心代码解析。内容包括数据采集、位姿处理、相机标定与手眼矩阵求解全流程,结合OpenCV的Tsai算法实现高精度坐标转换,助力机器人视觉精准抓取应用开发。

543 3
|
4月前
|
数据采集 人工智能 算法
|

具身智能:零基础入门睿尔曼机械臂(七)—— 衔接开源代码!机械臂手眼标定实操

本文详解睿尔曼机械臂手眼标定全流程,涵盖环境搭建、设备准备、眼在手上/外的标定步骤、常见问题解决及标定结果在视觉抓取中的应用,助你实现精准视觉引导操作。

702 2
|
4月前
|
数据采集 数据挖掘 API
|

1688店铺所有商品API使用指南

本文详解1688店铺商品API的使用,涵盖接口摘要、概述、Python请求示例及注意事项。通过该API可获取商品列表、详情等核心数据,适用于店铺管理、ERP系统与数据分析。结合代码演示,助开发者快速完成对接,实现高效数据采集与应用。(239字)

233 4
|
4月前
|
机器学习/深度学习 人工智能 前端开发
|

构建AI智能体:七十、小树成林,聚沙成塔:随机森林与大模型的协同进化

随机森林是一种基于决策树的集成学习算法,通过构建多棵决策树并结合它们的预测结果来提高准确性和稳定性。其核心思想包括两个随机性:Bootstrap采样(每棵树使用不同的训练子集)和特征随机选择(每棵树分裂时只考虑部分特征)。这种方法能有效处理大规模高维数据,避免过拟合,并评估特征重要性。随机森林的超参数如树的数量、最大深度等可通过网格搜索优化。该算法兼具强大预测能力和工程化优势,是机器学习中的常用基础模型。

958 165
|
4月前
|
SQL HIVE
|

十一、Hive JOIN 连接查询

在 Hive 的世界里,JOIN 就像是数据间的红线,把原本分散在各自表里的信息串联起来。无论是内连接、外连接,还是 Hive 特有的左半连接,都各有“武功招式”,适用于不同场景。

258 12
|
4月前
|
SQL 大数据 数据挖掘
|

十、HQL:排序、联合与 CTE 高级查询

Hive 查询不仅能查,还能查得漂亮、高效。我们这次聚焦 HQL 中的高级技巧——从 ORDER BY 到 SORT BY、DISTRIBUTE BY 与 CLUSTER BY,带你理解排序在分布式环境中的执行逻辑;再深入讲解 UNION 与 CTE 等查询组织方式,帮你将复杂 SQL 拆解得更清晰。我还特意写了丰富示例与实战练习,适合正在提升 Hive 查询能力的你阅读、收藏和练习。

228 6
|
4月前
|
SQL 存储 分布式计算
|

九、HQL DQL七大查询子句

Hive 查询写得清楚,数据分析就能更顺手。我们这次从入门角度出发,带你理清 Hive 中最常用的七个查询子句(FROM、WHERE、GROUP BY、HAVING、SELECT、ORDER BY、LIMIT),结合执行顺序梳理每一步的用法与注意事项。每个子句都有配套案例,还有实战练习题帮你快速上手。如果你刚开始学习 Hive 查询,或希望把基础打得更扎实,这篇内容值得收藏。

196 9
|
4月前
|
SQL 存储 数据处理
|

八、HQL DML数据导入与操作

在 Hive 中,写好一条 INSERT,远不止“把数据塞进去”那么简单。本文将用清晰的语法讲解和实用案例,带你一步步掌握 LOAD DATA、INSERT ... SELECT、动态分区、CTAS 等核心用法。从数据导入、表间写入到多表分发、HDFS 导出,覆盖 Hive DML 的关键技能,让你的数据处理更高效、更得心应手。

155 6
|
4月前
|
SQL 存储 数据管理
|

七、深入 Hive DDL:管理表、分区与洞察元数据

在日常使用 Hive 的过程中,我们不仅要会建表,更要学会灵活地维护和管理已有的数据结构。从添加字段到修改分区,从查看元数据到删除表或清空数据,掌握这些 DDL 操作和常用的 SHOW 命令,就像掌握了一套管理数据仓库的“万能钥匙”。这次将带你一步步熟悉这些命令的用法和实际应用场景,配合清晰的语法示例与练习题,帮助你更轻松地驾驭 Hive 数据管理的日常工作。

456 6
|
4月前
|
SQL 数据采集 存储
|

六、Hive 分桶

在 Hive 的世界里,除了常见的分区,分桶也是一项非常实用的数据优化方式。它能帮助我们将数据按某个字段均匀划分到多个“桶”中,不仅能提升大表连接的效率,还特别适合做数据抽样和精细管理。本文将带你一步步了解分桶表的创建方法、数据加载过程和常见应用场景,配有丰富示例和练习题,帮助你在实战中轻松掌握这项技能。

374 7
|
4月前
|
机器学习/深度学习 人工智能 监控
|

别把模型当宠物养:从 CI/CD 到 MLOps 的工程化“成人礼”

别把模型当宠物养:从 CI/CD 到 MLOps 的工程化“成人礼”

416 163
|
4月前
|
SQL 存储 JSON
|

四、Hive DDL表定义、数据类型、SerDe 与分隔符核心

Hive 中的表是数据仓库的核心容器,定义了数据的结构和存储方式。本文系统讲解了 Hive 中创建表的语法与关键参数,包括字段类型、分隔符设置、SerDe 使用等内容,特别通过结构化与复杂数据类型(如 ARRAY、MAP、STRUCT)的案例讲解,让读者理解如何让 Hive 正确“读懂”你的数据。配合常见示例与练习题,帮你打好 Hive 表设计的基础,轻松驾驭文本、JSON 等多格式数据。数据如何入库、如何被解析,一文看懂!

210 12
|
4月前
|
SQL 存储 分布式计算
|

五、Hive表类型、分区及数据加载

在 Hive 中设计表,绝不仅是“建个结构那么简单”。选对内部表或外部表,决定了数据的归属和生命周期;设计合理的静态/动态分区策略,则直接关系到大数据场景下的查询效率和存储管理成本。本文深入讲解 Hive 表类型与分区机制,配合大量实战代码与练习题,带你从“写对语法”走向“设计合理”,让你的数仓查询快到飞起!

284 11
|
4月前
|
SQL 存储 Apache
|

三、Hive DDL数据库操作

Hive 中的数据库(Schema)是构建数据仓库的基础单位。这次我们来了解 Hive 中创建、查看、切换、修改与删除数据库的 DDL 操作语法与用法,涵盖 COMMENT、LOCATION、DBPROPERTIES 等常用参数,辅以丰富示例与练习,助你扎实掌握 Hive 数据库管理核心能力。

279 11
|
4月前
|
机器学习/深度学习 人工智能 算法
|

构建AI智能体:六十八、集成学习:从三个臭皮匠到AI集体智慧的深度解析

集成学习不是简单的"模型堆砌",而是有深刻理论支撑的系统性方法。理解其核心思想:集体智慧,多个不完美的个体可以组成一个强大的集体,误差分解,通过降低方差或偏差来提升性能,多样性驱动,模型间的差异是集成效果的关键,分层学习,从数据学习到学习如何学习。集成学习代表了机器学习中的一个重要哲学:通过协作和组合,我们可以创造出超越任何单个组件能力的系统。这正是"三个臭皮匠,顶个诸葛亮"在人工智能时代的具体实践。

388 108
|
4月前
|
运维 安全 Ubuntu
|

补丁别靠吼,Linux补丁要自动化!从 openEuler 打通到全栈实践方案

补丁别靠吼,Linux补丁要自动化!从 openEuler 打通到全栈实践方案

357 154
|
4月前
|
消息中间件 分布式计算 测试技术
|

数据管道别裸奔!聊聊单元、集成、端到端测试的“三层护体”玩法

数据管道别裸奔!聊聊单元、集成、端到端测试的“三层护体”玩法

126 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|

深度ai学术-从全网文献搜索到免费文献AI解析

深度AI学术(scholar.aisciresgo.com)打通科研全流程:全网智能搜索、免费获取文献、AI深度解析与精准翻译,一站式解决“搜不到、下不了、读不完”难题,助力研究者高效创新,开启智能科研新范式。

545 1
来自: 智能搜索推荐  版块
|
4月前
|
存储 供应链 API
|

1688店铺详情API使用指南

1688店铺详情API是阿里巴巴开放平台核心接口,支持通过店铺ID获取商家基本信息、资质、等级及主营类目等数据,适用于电商分析、供应链对接等场景。本文详解接口参数、Python调用示例及注意事项,助开发者高效集成与应用。

300 1
|
4月前
|
Prometheus 运维 监控
|

别再裸奔搞监控了!一篇带你上手 Prometheus+Grafana 的实战指南

别再裸奔搞监控了!一篇带你上手 Prometheus+Grafana 的实战指南

863 2
|
4月前
|
SQL 存储 分布式计算
|

别让大数据“全表扫描”掏空你:数据分区策略与分区裁剪的实战心经

别让大数据“全表扫描”掏空你:数据分区策略与分区裁剪的实战心经

248 3

盒子模型

`<div>`标签独占一行,宽度默认为父元素宽度,高度由内容决定,可设置宽高;`<span>`标签为行内元素,一行可显示多个,宽高由内容撑开,不可直接设置宽高。

60 1

新闻-页脚-超链接

通过a标签实现页面跳转:href指定目标地址,target控制打开方式——self在当前页跳转,blank在新窗口打开。简单高效,适用于各类链接场景。

117 1

新闻-正文-段落

通过段落标签(p)可定义文本段落,支持加粗、下划线、倾斜、删除线等文本样式。结合img标签插入图片,丰富页面内容。持续添加多段p与img标签,完善网页结构与视觉呈现。

60 1

新闻-正文-视频

使用`<video>`标签可嵌入视频,支持在线资源、相对路径和绝对路径三种src方式,推荐使用相对路径。添加controls属性显示播放控件,通过width和height设置尺寸。

72 0

完成新浪新闻-标题-样式

四张图片展示了网页标题样式的修订。

52 0
|
4月前
|
前端开发 数据可视化 数据挖掘
|

前端创建

三张图片展示了数据可视化图表,包括柱状图、折线图与饼图,用于直观呈现数据分析结果,适用于报告、仪表盘等场景,助力信息清晰传达。

64 1
|
4月前
|
前端开发 数据可视化 数据挖掘
|

前端引入图片

三张图片展示了数据可视化图表,包括柱状图、折线图与饼图,直观呈现不同数据维度的对比与趋势,适用于数据分析、报告展示等场景,助力快速洞察信息。

54 1
|
4月前
|
数据可视化 数据挖掘
|

新闻-标题-优化

三张图片展示了数据可视化图表,包括柱状图、折线图与饼图,直观呈现各类数据分布与趋势,助力快速洞察信息,适用于数据分析、报告展示等场景。

53 0
|
4月前
|
数据库
|

测试数据库删除

新增按ID删除武器皮肤功能,支持数据库记录删除与错误处理,并在index.js中添加测试代码,验证删除操作的正确性。

58 0
|
4月前
|
数据库
|

数据库案例

新增根据ID扣减库存功能,入参为id和stock。校验参数后执行数据库更新,确保库存为非负整数,更新成功返回结果,失败则抛出错误并记录日志。

76 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

2
今日
69334
内容
128
活动
439815
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务