|
3月前
|
JSON 算法 数据库
|

使用 BAML 模糊解析改进 LangChain 知识图谱提取:成功率从25%提升到99%

在构建基于知识图谱的检索增强生成(RAG)系统时,从非结构化数据中准确提取节点和关系是一大挑战,尤其在使用小型本地量化模型时表现更差。本文对比了传统 LangChain 提取框架的严格 JSON 解析限制,提出采用 BAML 的模糊解析策略,显著提升知识图谱提取成功率。实验表明,在相同条件下,BAML 将成功率从约 25% 提升至 99% 以上,为构建高效、稳定的 RAG 系统提供了有效解决方案。

160 0
|
4月前
|
JSON Java API
|

如何获取sku详情信息

`item_sku`接口用于获取商品的SKU详细信息,支持通过商品ID和SKU ID查询。提供公共参数及请求参数说明,并包含请求和响应示例。支持多种开发语言,如Curl、PHP、JAVA等,适用于电商应用开发。

170 0
|
4月前
|
机器学习/深度学习 人工智能 测试技术
|

【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选

阿里云 PAI 团队、通义实验室联合中国科学院大学在 ICML 2025 发表论文,提出 ChunkFlow 方案,实现变长及超长序列数据的高效训练。该方案显著提升 Qwen 模型训练性能,端到端性能最高提升 4.53 倍,大幅降低 GPU 成本。

216 0
|
4月前
|
数据采集 存储 JSON
|

网页快照结构化处理方法笔记:以 Common Crawl 为例

本文介绍了如何利用 Common Crawl 项目获取历史网页快照,并通过 Python 实现快照下载、HTML 解析与结构化提取。结合爬虫代理和请求设置,帮助用户高效稳定地进行历史网页数据分析,适用于品牌追踪、内容对比等场景。

191 2
|
4月前
|
传感器 机器学习/深度学习 人工智能
|

AI种田有多猛?看它如何“统治”自动化农业!

AI种田有多猛?看它如何“统治”自动化农业!

186 8
|
4月前
|
分布式计算 Java 大数据
|

springboot项目集成dolphinscheduler调度器 可拖拽spark任务管理

springboot项目集成dolphinscheduler调度器 可拖拽spark任务管理

237 2
|
4月前
|
人工智能 自然语言处理
|

AI律师上线了?别惊讶,它连合同都能自动看懂!

AI律师上线了?别惊讶,它连合同都能自动看懂!

255 59
|
4月前
|
数据采集 搜索推荐 API
|

淘宝商品评论API接口全解析:从数据采集到情感分析

淘宝商品评论API是淘宝开放平台提供的数据服务,支持开发者获取商品的用户评论、评分、时间、多媒体信息等。接口具备筛选、分页和排序功能,适用于产品优化与市场分析。文章还附有Python调用示例,演示如何请求和解析评论数据。

213 0
|
4月前
|

淘宝图搜接口功能解析

淘宝图搜是基于图像识别的便捷购物工具,支持通过图片查找商品,省去手动输入关键词的麻烦。本文详解其功能、常见问题及解决方法,助你高效使用这一工具。

292 0
|
5月前
|
监控 数据挖掘 API
|

淘宝API系列:淘宝商品详情接口详解

淘宝商品详情接口是淘宝开放平台的核心服务之一,支持开发者通过编程获取商品的标题、价格、销量、描述、图片、视频及SKU信息。广泛应用于电商数据分析、价格监控、竞品分析和自动化工具开发,助力企业提升运营效率与市场竞争力。

152 4
|
5月前
|
机器学习/深度学习 并行计算 测试技术
|

5倍加速!PAI-EAS在线服务优化:ResNet50模型推理性能调优指南

本文系统分析ResNet50推理性能瓶颈,结合TensorRT加速、模型剪枝、批量推理及CUDA多流并行等技术,实现吞吐量提升56.7倍、延迟降低至22ms,同时优化GPU利用率与服务稳定性,提供完整的生产部署验证方案。

250 5
|
5月前
|
机器学习/深度学习 存储 缓存
|

Chonkie:面向大语言模型的轻量级文本分块处理库

Chonkie是一个专为大语言模型(LLM)应用场景设计的轻量级文本分块处理库,提供高效的文本分割和管理解决方案。该库采用最小依赖设计理念,特别适用于现实世界的自然语言处理管道。本文将详细介绍Chonkie的核心功能、设计理念以及五种主要的文本分块策略。

235 0
|
5月前
|
存储 传感器 安全
|

数据不是“铁打的”,从出生到销毁它也有生命周期

数据不是“铁打的”,从出生到销毁它也有生命周期

414 1
|
5月前
|
算法
|

基于遗传优化算法的带时间窗多车辆路线规划matlab仿真

本程序基于遗传优化算法,实现带时间窗的多车辆路线规划,并通过MATLAB2022A仿真展示结果。输入节点坐标与时间窗信息后,算法输出最优路径规划方案。示例结果包含4条路线,覆盖所有节点并满足时间窗约束。核心代码包括初始化、适应度计算、交叉变异及局部搜索等环节,确保解的质量与可行性。遗传算法通过模拟自然进化过程,逐步优化种群个体,有效解决复杂约束条件下的路径规划问题。

116 3
|
5月前
|
JSON 数据格式 开发者
|

淘宝天猫图片搜索商品接口(附代码示例)

拍立淘图片搜索接口支持开发者通过上传图片或提供图片URL,在淘宝、天猫平台搜索相似商品,适用于商品识别、比价等场景。接口采用POST(上传图片)或GET(图片URL)请求方式,返回JSON格式数据,包含商品ID、标题、价格、卖家信息、销量及图片URL等详情,参数可指定搜索关键词、类目、结果数量等,默认返回20条。

201 3
|
5月前
|
API UED 开发者
|

深入研究:淘宝天猫商品评论接口详解

淘宝天猫商品评论接口是用于获取商品用户评价信息的RESTful API,支持电商数据分析、竞品调研等需求。通过HTTP请求返回JSONP格式数据,包含评论内容、评分、时间及用户信息等字段。数据结构中,`rateDetail.rateList`为评论列表,`paginator`提供分页信息如每页数量、总评论数和最后一页页码,适用于情感分析与市场研究等多个领域。

101 1
|
5月前
|
Web App开发 SQL 缓存
|

如何评估数据接口的稳定性和可靠性

评估数据接口(API)的稳定性和可靠性是保障系统运行的关键。本文从基础技术指标、场景化测试、长期监控及供应商评估四方面展开。技术指标涵盖响应时间、并发能力等;场景化测试包括负载、压力、容错与兼容性测试,确保复杂环境下的稳定性;长期监控通过实时指标、日志分析和历史数据复盘优化性能;供应商评估则关注资质、SLA与文档支持。建议建立常态化健康检查机制,确保API始终可靠。

287 2
|
5月前
|
机器学习/深度学习 自然语言处理 并行计算
|

提升长序列建模效率:Mamba+交叉注意力架构完整指南

本文探讨了Mamba架构中交叉注意力机制的集成方法,Mamba是一种基于选择性状态空间模型的新型序列建模架构,擅长处理长序列。通过引入交叉注意力,Mamba增强了多模态信息融合和条件生成能力。文章从理论基础、技术实现、性能分析及应用场景等方面,详细阐述了该混合架构的特点与前景,同时分析了其在计算效率、训练稳定性等方面的挑战,并展望了未来优化方向,如动态路由机制和多模态扩展,为高效序列建模提供了新思路。

353 1
|
5月前
|
缓存 算法 Java
|

【Java 程序员面试 + 学习指南】覆盖互联网一线大厂 Java 程序员所需面试知识点与技巧

本指南专为Java程序员准备互联网大厂面试而设,涵盖面试知识点与技巧两大部分。知识点包括Java基础(面向对象、集合框架、并发编程)、JVM(内存分区、回收机制、类加载机制)、数据库(MySQL、Redis)、开发框架(Spring、Spring Boot、MyBatis)及其他相关技术(计算机网络、操作系统)。面试技巧涉及简历撰写、项目经验阐述及答题策略,助你全面提升面试成功率。提供资源链接,支持深入学习。

123 4
|
6月前
|
存储 Rust Go
|

介绍一下这只小水獭 —— Fluss Logo 背后的故事

Fluss是一款开源流存储项目,致力于为Lakehouse架构提供高效的实时数据层。其全新Logo以一只踏浪前行的小水獭为核心形象,象征流动性、适应性和友好性。水獭灵感源于“Fluss”德语中“河流”的含义,传递灵活与亲和力。经过30多版设计迭代,最终呈现动态活力的视觉效果。Fluss计划捐赠给Apache软件基金会,目前已开启孵化提案。社区还推出了系列周边礼品,欢迎加入钉钉群109135004351参与交流!

767 3
来自: 实时计算 Flink  版块
|
6月前
|
数据采集 存储 Web App开发
|

自动化爬虫:requests定时爬取前程无忧最新职位

自动化爬虫:requests定时爬取前程无忧最新职位

199 4
|
6月前
|
SQL 分布式计算 DataWorks
|

使用DataWorks PyODPS节点调用XGBoost算法

本文介绍如何在DataWorks中通过PyODPS3节点调用XGBoost算法完成模型训练与测试,并实现周期离线调度。主要内容包括:1) 使用ODPS SQL构建数据集;2) 创建PyODPS3节点进行数据处理与模型训练;3) 构建支持XGBoost的自定义镜像;4) 测试运行并选择对应镜像。适用于需要集成机器学习算法到大数据工作流的用户。

231 24
|
6月前
|
数据挖掘 API 开发者
|

京东商品详情 API 接口全攻略:从入门到精通

京东商品详情API接口是京东开放平台为开发者提供的服务,用于获取商品详细信息。通过调用接口,开发者可获得商品属性、价格、库存、促销信息等数据,适用于电商应用、价格比较工具及数据分析平台等场景。支持GET/POST请求方式,参数包括API版本、密钥等。示例代码展示了如何使用Python的requests库调用该接口,并获取JSON格式的返回数据,包含商品基本信息、价格、库存和用户评价等内容。

264 16
|
6月前
|
Java 开发者 Kotlin
|

华为仓颉语言初识:并发编程之线程的基本使用

本文详细介绍了仓颉语言中线程的基本使用,包括线程创建(通过`spawn`关键字)、线程名称设置、线程执行控制(使用`get`方法阻塞主线程以获取子线程结果)以及线程取消(通过`cancel()`方法)。文章还指出仓颉线程与Java等语言的差异,例如默认不提供线程名称。掌握这些内容有助于开发者高效处理并发任务,提升程序性能。

210 2
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
|

Python数据分析,别再死磕Excel了!

Python数据分析,别再死磕Excel了!

245 2
|
6月前
|
SQL 安全 算法
|

解读 Python 3.14:模板字符串、惰性类型、Zstd压缩等7大核心功能升级

Python 3.14 引入了七大核心技术特性,大幅提升开发效率与应用安全性。其中包括:t-strings(PEP 750)提供更安全灵活的字符串处理;类型注解惰性求值(PEP 649)优化启动性能;外部调试器API标准化(PEP 768)增强调试体验;原生支持Zstandard压缩算法(PEP 784)提高效率;REPL交互环境升级更友好;UUID模块扩展支持新标准并优化性能;finally块语义强化(PEP 765)确保资源清理可靠性。这些改进使Python在后端开发、数据科学等领域更具竞争力。

255 5
|
6月前
|
前端开发 开发者
|

HarmonyOS实战:自定义时间选择器

在鸿蒙开发中,官方提供的默认时间选择器可能无法满足特定需求。本文分享了自定义时间选择器的实现过程:通过 TextPicker 控件实现年月日及时分的选择,支持默认选中当前时间、精确到时分,并注意闰年计算与日期格式处理。代码中使用 Promise 处理耗时的日期计算,确保显示和逻辑正确。总结指出,尽管看似简单,但需关注时间计算、格式化等细节。快动手试试吧!

246 1
|
6月前
|
数据采集 运维 监控
|

Serverless爬虫架构揭秘:动态IP、冷启动与成本优化

随着互联网数据采集需求的增长,传统爬虫架构因固定IP易封禁、资源浪费及扩展性差等问题逐渐显现。本文提出基于Serverless与代理IP技术的新一代爬虫方案,通过动态轮换IP、弹性调度任务等特性,显著提升启动效率、降低成本并增强并发能力。架构图与代码示例详细展示了其工作原理,性能对比数据显示采集成功率从71%提升至92%。行业案例表明,该方案在电商情报与价格对比平台中效果显著,未来有望成为主流趋势。

186 0
|
6月前
|
机器学习/深度学习 PyTorch 算法框架/工具
|

高效处理多维数组:einsum()函数从入门到精通

本文深入解析了NumPy中的`einsum()`函数,从基础语法到高级应用全面展开。文章首先介绍了爱因斯坦求和约定的数学基础,解释了`einsum()`如何通过简洁的索引符号实现复杂的多维数组运算。

197 5
|
6月前
|
机器学习/深度学习 数据采集 算法
|

数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?

数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?

352 12
|
6月前
|
SQL 算法 数据挖掘
|

【SQL周周练】:利用行车轨迹分析犯罪分子作案地点

【SQL破案系列】第一篇: 如果监控摄像头拍下了很多车辆的行车轨迹,那么如何利用这些行车轨迹来分析车辆运行的特征,是不是能够分析出犯罪分子“踩点”的位置

165 15
来自: 大数据计算 MaxCompute  版块
|
6月前
|
文字识别 Python
|

python做ocr卡证识别很简单

本示例展示了如何使用 `potencent` 库调用腾讯云 OCR 服务识别银行卡和身份证信息。代码中分别通过本地图片路径 (`img_path`) 和配置文件 (`potencent-config.toml`) 实现了银行卡和身份证的 OCR 识别,并输出结果。测试图片及结果显示了识别效果,需提前配置腾讯云的 `SECRET_ID` 和 `SECRET_KEY`。

209 8
|
6月前
|
数据采集 Web App开发 前端开发
|

Python爬虫中time.sleep()与动态加载的配合使用

Python爬虫中time.sleep()与动态加载的配合使用

173 8
|
6月前
|
JSON 数据挖掘 API
|

小红书笔记评论API接口如何使用

小红书作为生活方式分享平台,评论是用户互动的核心形式。通过小红书笔记评论API接口,开发者可高效获取特定笔记下的评论数据(如内容、昵称、时间、点赞数等),用于舆情分析、用户反馈收集和市场调研。请求参数包括`note_id`、`page`、`page_size`、`timestamp`和`sign`,采用HTTP方式调用,返回JSON格式数据,为业务决策提供数据支持。

534 2
|
6月前
|
数据采集 机器学习/深度学习 算法
|

R语言数据挖掘:从“挖井”到“淘金”

R语言数据挖掘:从“挖井”到“淘金”

112 9
|
6月前
|
消息中间件 监控 5G
|

5G+智能家居:让生活更智慧、更畅快

5G+智能家居:让生活更智慧、更畅快

254 7
|
6月前
|
机器学习/深度学习 算法 PyTorch
|

Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南

深度学习近年来在多个领域取得了显著进展,但其核心组件——人工神经元和反向传播算法自提出以来鲜有根本性突破。穿孔反向传播(Perforated Backpropagation)技术通过引入“树突”机制,模仿生物神经元的计算能力,实现了对传统神经元的增强。该技术利用基于协方差的损失函数训练树突节点,使其能够识别神经元分类中的异常模式,从而提升整体网络性能。实验表明,该方法不仅可提高模型精度(如BERT模型准确率提升3%-17%),还能实现高效模型压缩(参数减少44%而无性能损失)。这一革新为深度学习的基础构建模块带来了新的可能性,尤其适用于边缘设备和大规模模型优化场景。

277 16
|
7月前
|
人工智能 自然语言处理 DataWorks
|

DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!

阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。

551 23
|
7月前
|
存储 SQL 运维
|

中国联通网络资源湖仓一体应用实践

本文分享了中国联通技术专家李晓昱在Flink Forward Asia 2024上的演讲,介绍如何借助Flink+Paimon湖仓一体架构解决传统数仓处理百亿级数据的瓶颈。内容涵盖网络资源中心概况、现有挑战、新架构设计及实施效果。新方案实现了数据一致性100%,同步延迟从3小时降至3分钟,存储成本降低50%,为通信行业提供了高效的数据管理范例。未来将深化流式数仓与智能运维融合,推动数字化升级。

297 0
来自: 实时计算 Flink  版块
|
7月前
|
大数据 数据处理 数据安全/隐私保护
|

数据治理,你真的合规了吗?——从代码到实践的深度解析

数据治理,你真的合规了吗?——从代码到实践的深度解析

176 8
|
7月前
|
前端开发 JavaScript
|

新手博主狂喜!用SimpleMemory一键生成高逼格博客,访客量翻了5倍的秘密在这

`SimpleMemory Theme Extension` 是一款专为博客园设计的前端美化插件,基于 `SimpleMemory` 主题开发,功能强大且易用。使用前需在博客园后台开通 JS 权限,下载最新版插件(v2.1.4)后,按照步骤配置选项、皮肤和代码。将插件中的 CSS 代码粘贴至自定义样式,并添加基础配置脚本即可完成设置,实现美观的博客效果。更多高级参数将在后续教程中详解。

120 10
|
7月前
|
数据采集 JSON 网络安全
|

移动端数据抓取:Android App的TLS流量解密方案

本文介绍了一种通过TLS流量解密技术抓取知乎App热榜数据的方法。利用Charles Proxy解密HTTPS流量,分析App与服务器通信内容;结合Python Requests库模拟请求,配置特定请求头以绕过反爬机制。同时使用代理IP隐藏真实IP地址,确保抓取稳定。最终成功提取热榜标题、内容简介、链接等信息,为分析热点话题和用户趋势提供数据支持。此方法也可应用于其他Android App的数据采集,但需注意选择可靠的代理服务。

295 11
|
7月前
|
算法 安全 数据安全/隐私保护
|

基于AES的遥感图像加密算法matlab仿真

本程序基于MATLAB 2022a实现,采用AES算法对遥感图像进行加密与解密。主要步骤包括:将彩色图像灰度化并重置大小为256×256像素,通过AES的字节替换、行移位、列混合及轮密钥加等操作完成加密,随后进行解密并验证图像质量(如PSNR值)。实验结果展示了原图、加密图和解密图,分析了图像直方图、相关性及熵的变化,确保加密安全性与解密后图像质量。该方法适用于保护遥感图像中的敏感信息,在军事、环境监测等领域具有重要应用价值。

266 35
|
7月前
|
数据采集 前端开发 JavaScript
|

Scrapy结合Selenium实现搜索点击爬虫的最佳实践

Scrapy结合Selenium实现搜索点击爬虫的最佳实践

354 5
|
7月前
|
JSON 数据挖掘 API
|

深入研究:京东店铺所有商品API详解

本文介绍了一款强大的工具——京东店铺所有商品API,它可以帮助用户批量获取指定京东店铺的商品详细信息。通过传入店铺ID,API可返回包括商品名称、价格、库存、销量等在内的多维度数据,响应格式为JSON。文章还提供了Python调用示例,利用`requests`库完成签名生成与数据请求,助力商家管理店铺、开发者构建应用及数据分析人员挖掘商业价值,极大提升电商运营效率。

217 16
|
7月前
|
存储 消息中间件 分布式计算
|

Hologres实时数仓在B站游戏的建设与实践

本文介绍了B站游戏业务中实时数据仓库的构建与优化过程。为满足日益增长的数据实时性需求,采用了Hologres作为核心组件优化传统Lambda架构,实现了存储层面的流批一体化及离线-实时数据的无缝衔接。文章详细描述了架构选型、分层设计(ODS、DWD、DIM、ADS)及关键技术挑战的解决方法,如高QPS点查、数据乱序重写等。目前,该实时数仓已广泛应用于运营分析、广告投放等多个场景,并计划进一步完善实时指标体系、扩展明细层应用及研发数据实时解析能力。

472 0
来自: 实时数仓 Hologres  版块
|
7月前
|
机器学习/深度学习 数据采集 算法
|

如何用大数据与机器学习挖掘瞪羚企业认定标准

本文探讨如何利用大数据与机器学习技术挖掘瞪羚企业认定标准。通过阿里云的大数据平台和政策宝资源整合能力,结合机器学习算法分析政策文本,提取关键信息,助力企业精准理解认定标准。文章对比了传统获取方式的局限性与新技术的优势,并以案例说明政策宝在申报中的作用,强调数据整合、模型选择及数据安全的重要性,为企业提供发展方向和政策支持。

157 1
|
7月前
|
机器学习/深度学习 人工智能 算法
|

AI鱼类识别技术原理及示例代码

本文详细解析了AI鱼类识别的代码示例,涵盖深度学习框架选择、数据集处理、模型构建与训练优化全流程。内容包括技术选型对比(如TensorFlow、PyTorch、YOLO系列)、数据准备流程(开源数据集与标注规范)、完整代码示例(以PyTorch版ResNet50改进模型为例)以及模型优化策略(如量化压缩、知识蒸馏)。此外,还提供了典型应用场景(如渔业资源监测系统)、模型评估指标及开源项目推荐,并针对常见问题(小样本、水下模糊、类别不平衡等)提出解决方案。

484 5
|
8月前
|
监控 算法 搜索推荐
|

数据中挖掘能量:能源行业效率提升的秘密

数据中挖掘能量:能源行业效率提升的秘密

114 18
|
8月前
|
传感器 人工智能 搜索推荐
|

让可穿戴设备更“贴心”:用户体验设计的奥秘

让可穿戴设备更“贴心”:用户体验设计的奥秘

142 15

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

4
今日
67392
内容
127
活动
439369
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 日志服务
  • 检索分析服务 Elasticsearch版