|
9月前
|
机器学习/深度学习 自然语言处理 算法
|

Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的对抗训练与鲁棒性提升(205)

本文探讨Java大数据与机器学习在自然语言处理中的对抗训练与鲁棒性提升,分析对抗攻击原理,结合Java技术构建对抗样本、优化训练策略,并通过智能客服等案例展示实际应用效果。

280 0
|
9月前
|
JSON 算法 数据库
|

使用 BAML 模糊解析改进 LangChain 知识图谱提取:成功率从25%提升到99%

在构建基于知识图谱的检索增强生成(RAG)系统时,从非结构化数据中准确提取节点和关系是一大挑战,尤其在使用小型本地量化模型时表现更差。本文对比了传统 LangChain 提取框架的严格 JSON 解析限制,提出采用 BAML 的模糊解析策略,显著提升知识图谱提取成功率。实验表明,在相同条件下,BAML 将成功率从约 25% 提升至 99% 以上,为构建高效、稳定的 RAG 系统提供了有效解决方案。

394 0
|
9月前
|
机器学习/深度学习 数据采集 搜索推荐
|

你以为是“说走就走”?其实是“算好才走”:大数据是怎么悄悄优化旅游体验的?

你以为是“说走就走”?其实是“算好才走”:大数据是怎么悄悄优化旅游体验的?

182 0
|
10月前
|
机器学习/深度学习 负载均衡 C++
|

MoR vs MoE架构对比:更少参数、更快推理的大模型新选择

本文将深入分析递归混合(MoR)与专家混合(MoE)两种架构在大语言模型中的技术特性差异,探讨各自的适用场景和实现机制,并从架构设计、参数效率、推理性能等多个维度进行全面对比。

631 0
|
10月前
|
机器学习/深度学习 搜索推荐 数据挖掘
|

朋友圈点赞也能造假?社交媒体数据欺诈识别的那些事

朋友圈点赞也能造假?社交媒体数据欺诈识别的那些事

447 0
|
10月前
|
存储 人工智能 自然语言处理
|

版权问题老难解?用区块链干净利落搞定它!

版权问题老难解?用区块链干净利落搞定它!

385 0
|
10月前
|
监控 API 数据处理
|

淘宝商品详情API响应数据解析的详细说明

本内容介绍了淘宝商品详情API的调用与数据解析方法,涵盖商品基础信息、价格、库存、规格、促销、物流等关键数据的获取方式。提供了核心接口如taobao.item.get、taobao.itemprops.get、taobao.item.sku.get的功能说明及Python请求示例,适用于跨平台数据整合、价格监控、自动化运营等场景,并提示了字段兼容性、错误处理及数据更新等注意事项。

377 0
|
10月前
|
搜索推荐 API 开发者
|

京东商品列表API响应数据解析

京东商品列表API是京东开放平台的核心接口,支持开发者批量获取商品数据,适用于市场调研、竞品分析、推荐系统等场景。接口支持关键词搜索、分类筛选、价格区间等参数配置,返回商品名称、价格、销量、库存等信息,并具备高并发、实时更新等特性。

247 2
|
10月前
|
数据采集 弹性计算 自然语言处理
|

微服务化采集平台:可扩展性与容错机制

本文介绍一个基于财经场景的微服务化数据采集平台,解决新浪财经等内容站点信息分散、结构多变、更新频繁等痛点。通过代理配置、动态解析、自动分类与容错机制,实现要闻、突发、证券资讯的高效抓取与结构化处理,为舆情监控、NLP分析和投研建模提供实时数据支撑,提升市场响应速度与数据质量。

214 1
|
10月前
|
数据采集 搜索推荐 API
|

淘宝商品评论API接口全解析:从数据采集到情感分析

淘宝商品评论API是淘宝开放平台提供的数据服务,支持开发者获取商品的用户评论、评分、时间、多媒体信息等。接口具备筛选、分页和排序功能,适用于产品优化与市场分析。文章还附有Python调用示例,演示如何请求和解析评论数据。

347 0
|
10月前
|
API
|

1688图片搜索API详解

1688图片搜索接口通过上传图片实现相似商品匹配,适用于电商比价、商品溯源。支持按图搜同款或相似商品,返回商品ID、标题、价格等信息,并可设置分页、排序与筛选参数。核心参数包括图片URL/Base64(imgid)、搜索模式(search_type)及排序方式(sort_type)。

578 3
|
11月前
|
人工智能 Apache 流计算
|

FFA 2025 新加坡站全议程上线|The Future of AI is Real-Time

Flink Forward Asia 2025将于7月3日在新加坡举办,主题为“实时智能的未来”。大会聚焦实时AI、实时湖仓与实时分析,展示Apache Flink及社区项目如Paimon、Fluss的最新成果。来自阿里云、AWS、TikTok等企业专家将分享洞见,现场及直播观众均可参与互动抽奖,共襄技术盛宴。

738 14
来自: 实时计算 Flink  版块
|
11月前
|
存储 机器学习/深度学习 自然语言处理
|

避坑指南:PAI-DLC分布式训练BERT模型的3大性能优化策略

本文基于电商搜索场景下的BERT-Large模型训练优化实践,针对数据供给、通信效率与计算资源利用率三大瓶颈,提出异步IO流水线、梯度压缩+拓扑感知、算子融合+混合精度等策略。实测在128卡V100集群上训练速度提升3.2倍,GPU利用率提升至89.3%,训练成本降低70%。适用于大规模分布式深度学习任务的性能调优。

549 3
|
11月前
|
人工智能 数据可视化 搜索推荐
|

“老师,我怎么总考不及格?”——用大数据找回教育的温度

“老师,我怎么总考不及格?”——用大数据找回教育的温度

153 0
|
11月前
|
Oracle Java 关系型数据库
|

java 入门学习视频_2025 最新 java 入门零基础学习视频教程

《Java 21 入门实操指南(2025年版)》提供了Java最新特性的开发指导。首先介绍了JDK 21和IntelliJ IDEA 2025.1的环境配置,包括环境变量设置和预览功能启用。重点讲解了Java 21三大核心特性:虚拟线程简化高并发编程,Record模式优化数据解构,字符串模板提升字符串拼接可读性。最后通过图书管理系统案例,展示如何运用Record定义实体类、使用Stream API进行数据操作,以及结合字符串模板实现控制台交互。该指南完整呈现了从环境搭建到实际项目开发的Java 21全流程实

705 1
|
11月前
|
数据采集 运维 BI
|

Python 文件操作进阶|使用 shutil 实现高效文件复制

在开发和运维中,处理大量文件是常见需求,如备份配置、归档日志或构建部署包。手动复制粘贴已无法满足高效需求!Python 的 `shutil` 模块提供了强大的文件操作功能,支持单文件复制、目录树迁移及自动化任务构建。本文详解 `shutil.copy()` 基础用法与进阶技巧,如批量复制、自动路径检测、时间戳命名备份等,助你实现高效自动化。结合实战案例(如自动备份系统),让你的代码更专业!学习后,欢迎交流心得,一起精进 Python 技能。关注我,获取更多编程技巧与源码分享!

699 0
|
11月前
|
人工智能 自然语言处理 数据可视化
|

AI重新定义体育直播

2024年的AI体育直播正以前所未有的方式革新观赛体验:进球瞬间生成多语言解说、预判精彩镜头、实时战术分析、自动生成集锦。AI不仅取代传统导播,还提供风格化解说、情绪化运镜和防作弊辅助,让比赛更智能、互动更丰富。开发者可借助开源工具入局,未来或将实现全息解说与脑机直连,为体育注入科技魅力!

656 2
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

解决RAG检索瓶颈:RAPL线图转换让知识图谱检索准确率提升40%

本文探讨了RAPL框架,一种创新的人工智能架构,用于改进知识图谱环境下的检索增强生成系统。RAPL通过线图转换和合理化监督技术,构建高效且可泛化的检索器,显著提升大型语言模型在知识问答中的准确性和可解释性。文章分析了现有RAG系统的缺陷,即最短路径并非总是合理路径,并提出RAPL的三步解决方案:利用大型语言模型生成高质量训练数据、将知识图谱转换为线图以实现基于路径的推理,以及通过双向图神经网络进行路径检索。实验结果表明,RAPL不仅提高了检索精度,还缩小了小型与大型语言模型间的性能差距,推动了更高效、透明的AI系统发展。

286 4
|
11月前
|
机器学习/深度学习 存储 监控
|

ProRL:基于长期强化学习让1.5B小模型推理能力超越7B大模型

该研究通过长期强化学习训练(ProRL)挑战了强化学习仅能放大模型输出的传统观点,证明其能使基础模型发现全新推理策略。ProRL体系包含KL散度控制、参考策略重置及多元化任务训练集。核心算法GRPO优化了传统PPO,缓解熵坍塌问题并提升探索能力。Nemotron-Research-Reasoning-Qwen-1.5B模型基于此方法训练,在数学、编程、STEM等领域显著超越基础模型,性能提升达15.7%-25.9%,并在分布外任务中展现更强泛化能力。

286 3
|
11月前
|
JSON 数据格式 开发者
|

淘宝天猫图片搜索商品接口(附代码示例)

拍立淘图片搜索接口支持开发者通过上传图片或提供图片URL,在淘宝、天猫平台搜索相似商品,适用于商品识别、比价等场景。接口采用POST(上传图片)或GET(图片URL)请求方式,返回JSON格式数据,包含商品ID、标题、价格、卖家信息、销量及图片URL等详情,参数可指定搜索关键词、类目、结果数量等,默认返回20条。

434 3
|
11月前
|
监控 测试技术 Android开发
|

App Trace技术解析:传参安装、一键拉起与快速安装

本文从开发者视角解析App Trace技术的关键功能与实现方法,涵盖传参安装、一键拉起和快速安装技术。详细介绍了Android和iOS平台的具体实现代码与配置要点,探讨了参数丢失、跨平台一致性及iOS限制等技术挑战的解决方案,并提供了测试策略、监控指标和性能优化的最佳实践建议,帮助开发者提升用户获取效率与体验。

388 45
|
11月前
|
数据采集 Python
|

如何通过requests和time模块限制爬虫请求速率?

如何通过requests和time模块限制爬虫请求速率?

425 3
|
11月前
|
Java API 开发工具
|

1688寻原通API接口攻略

1688寻原通API接口攻略涵盖注册申请、开发准备、系统对接、测试调试及上线维护等步骤。开发前需阅读API文档,明确请求参数与响应格式,并选择合适语言(如Python、Java)和工具。对接系统时,注重调用方式与数据格式,确保稳定可靠。其核心功能包括商品采集上传、订单处理及数据同步,助力卖家高效管理跨境电商店铺,实现与1688平台的无缝连接。

244 0
|
12月前
|
XML 数据挖掘 API
|

1688商品详情API接口指南

1688 商品详情 API 是阿里巴巴提供的开发者接口,用于获取 1688 平台商品的详细信息,包括 ID、标题、价格、销量、评价、SKU 等。通过构造 HTTP 请求并使用 App Key 和 App Secret 验证,可实现安全调用。该接口适用于电商网站、内容管理系统、数据分析工具及第三方开发场景,助力商品信息同步、市场分析与应用开发。

631 0
|
12月前
|
开发工具 Android开发 iOS开发
|

HarmonyOS实战:腾讯IM之聊天列表搭建(一)

本文详细介绍了在鸿蒙系统中实现腾讯IM聊天列表页面的过程。由于腾讯仅提供了接口而无现成UI,需自行开发。文章涵盖需求分析(如删除功能、时间排序、消息更新)、技术实现(展示会话列表、新增会话、删除会话)等内容,并附代码示例。最终实现了类似微信的聊天列表功能,建议点赞收藏以便后续参考。

433 5
|
12月前
|
人工智能 数据挖掘 API
|

基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充

基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充

1125 21
|
12月前
|
JSON 监控 供应链
|

深度实操:京东商品详情API接入全流程与技术要点剖析

京东商品详情API接口用于获取商品基础信息(标题、价格、库存状态、用户评价等),支持单个或多个商品查询。适用于商品列表展示、竞品分析、价格监控、库存管理、营销活动和数据分析等场景。通过发送HTTP请求(GET/POST)调用接口,服务器返回JSON格式数据,可使用Python等语言解析处理。示例代码中展示了如何用requests库调用API并获取商品详情。

292 4
|
1月前
|
数据采集 消息中间件 监控
|

AIGC数据引擎的基石:图库抓取架构从单机到云原生的演进与实战

AIGC领域优化数据采集策略,提升大模型竞争力。初期使用Python脚本搭建单机爬虫,后转向分布式设计,引入代理技术。云原生部署实现弹性伸缩,全链路监控。构建高可用数据采集引擎是关键。

169 4
|
2月前
|
自然语言处理
|

为什么你的 NLP 模型一换语言就“智商归零”?多语言 NLP 的坑,比你想的深得多

为什么你的 NLP 模型一换语言就“智商归零”?多语言 NLP 的坑,比你想的深得多

200 6
|
2月前
|
分布式计算 大数据 流计算
|

你还在手动发包?容器镜像一上,大数据部署直接“起飞”!

你还在手动发包?容器镜像一上,大数据部署直接“起飞”!

170 4
|
2月前
|
SQL Cloud Native 大数据
|

别再只做“数据仓库苦力”了:聊聊如何用云原生把数据真正做成产品

别再只做“数据仓库苦力”了:聊聊如何用云原生把数据真正做成产品

196 3
|
2月前
|
数据可视化 安全 搜索推荐
|

自动化工具泛滥的当下,我为什么坚持用1949自动化做个人工作流?

本文反思自动化工具泛滥带来的新负担,主张回归“轻量、本地、无感”的自动化理念:拒绝复杂配置与云端依赖,选择事件驱动、隐私安全、可视化编排的桌面工具,让自动化真正服务于人——不是取代思考,而是释放创造力。

132 2
|
2月前
|
数据采集 传感器 数据可视化
|

从一次桌面整理说起,聊聊协同自动化工具1949里的那些看不见的代码逻辑

这是一篇关于轻量级协同自动化实践的随笔:作者用零代码拖拽搭建发票归档流程,遇瓶颈时通过内置Python节点灵活扩展逻辑,实现文件名智能重命名;再逐步串联浏览器、桌面与邮件操作,形成低资源、高适应的多应用自动化链。工具既省去重复劳动,又保留代码自定义空间——像一把“称手的刀”,静默高效,亦可刻下个性印记。(239字)

167 14
|
2月前
|
Java
|

java工具:《检测一个字符串是否是时间格式》

java工具:《检测一个字符串是否是时间格式》

158 4
|
2月前
|
JSON 缓存 API
|

微店商品详情API概述

本文整理商品详情获取核心接口,涵盖权限申请、调用流程、参数说明及常见问题。支持反向海淘、ERP对接等场景,返回商品基础信息、价格、库存、素材、物流及销售数据,并提供标准签名调用与缓存建议。(239字)

186 1
|
2月前
|
Java BI
|

java工具:《获取上个月的结束时间》

java工具:《获取上个月的结束时间》

172 4
|
2月前
|
Java 调度
|

java工具:《Java获取明日零点时间工具方法》

java工具:《Java获取明日零点时间工具方法》

155 5
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
|

AI 会写稿了,人还要不要写?——聊聊生成式 AI 在数据增强与自动写稿里的伦理和质量问题

AI 会写稿了,人还要不要写?——聊聊生成式 AI 在数据增强与自动写稿里的伦理和质量问题

294 1
|
2月前
|
Java
|

java工具:Long转String(时间毫秒数转日期格式字符串)

java工具:Long转String(时间毫秒数转日期格式字符串)

279 2
|
3月前
|
机器学习/深度学习 人工智能 物联网
|

从微调到 PPO:祝福 AI 的下一步进化

本文探讨祝福AI从“写得不错”到“越写越懂你”的演进路径:SFT微调已解决群体风格对齐,而PPO强化学习则让模型基于用户反馈(点赞、修改、发送等)动态适配个体偏好,学会为表达后果负责——不是教它“怎么说”,而是教它“何时这样说才对”。

205 1
|
3月前
|
人工智能 安全 UED
|

多任务微调:拜年、感谢、道歉,为什么不是三个简单任务

本文探讨祝福类AI扩展多任务(拜年/感谢/道歉)时的关键工程抉择:表面相似的情绪表达,实则在风险等级、语气分寸与用户期待上差异巨大。多任务微调易致任务“污染”,尤其低风险任务会拉偏高风险任务的表达倾向。核心结论:技术难点不在模型能力,而在厘清人情世故的边界——何时共享,何时拆模,才是成熟落地的关键。

404 149
|
3月前
|
机器学习/深度学习 数据采集 人工智能
|

手把手教程:五分钟构建你的春节祝福AI

手把手教你零基础打造春节祝福AI!无需深度学习经验或高端显卡,5步搞定:准备50+条祝福数据→选用LLaMA-Factory Online平台→微调Qwen3-7B等小模型→在线测试生成效果→一键部署API。5分钟上手,轻松定制温情/搞笑/商务等多风格祝福,为新春增添科技年味!

376 0
|
3月前
|
安全 搜索推荐 物联网
|

为什么微调会放大训练数据中的隐私残留

本文揭示一个反直觉真相:模型隐私风险多在微调后才凸显,而非预训练阶段。微调并非“创造”隐私信息,而是放大模型中已存在的隐性模式(如身份指向、行为细节),尤其LoRA等高效方法更易固化风险。关键在于警惕“过度具体化”输出——它比直接泄露更隐蔽、更危险。

149 2
|
3月前
|
SQL 机器学习/深度学习 消息中间件
|

模型服务化这件事:从 Batch 到 Stream,不只是改个部署方式那么简单

模型服务化这件事:从 Batch 到 Stream,不只是改个部署方式那么简单

179 6
|
3月前
|
传感器 人工智能 供应链
|

智能体来了:传统行业的新心脏

在景德镇百年瓷坊,全息“陶瓷导师”远程传授釉料奥秘;苏州绣娘指尖化为数字模块,山西醋师经验凝成23项参数——智能体正以“伙伴”身份融入传统行业:不替代人,而激活隐性知识、延伸技艺生命、重塑价值链。这是技术与匠心的共生复兴。

145 5
|
3月前
|
人工智能 安全 C++
|

一个项目能长期活下去,靠的从来不是模型

AI项目成败关键不在模型强弱,而在于系统性生存能力:厘清责任边界、接纳不确定性、严控复杂度、建立止损机制、允许模型“不万能”、并在模型成功时保持克制。真正活久的项目,清醒、务实、敬畏现实。

287 12
|
4月前
|
C++
|

证据不足 vs 证据冲突:哪个对模型更致命

本文揭示RAG系统中模型“胡说”的真相:问题常非幻觉(hallucination),而是**证据冲突**所致——当上下文混入矛盾信息,模型被迫自信编造答案;而证据不足反而易显犹豫、可控。工程上,宁可精简上下文、主动拒答,也不纵容冲突输入。

181 1
|
4月前
|
人工智能 调度
|

当西南传统产业遇上智能体来了时代:一场效率与韧性的深度变革

智能体以“感知-决策-执行”闭环能力,正驱动西南传统产业系统性升级:从川渝汽车制造到云南普洱茶、贵州白酒、重庆火锅等场景,实现动态感知、自主优化与闭环执行,突破经验依赖与规则局限,推动单点优化迈向生态重构。

175 3

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

2
今日
69522
内容
128
活动
439955
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务