|
11月前
|
分布式计算 Hadoop 数据挖掘
|

“Hadoop整不明白,数据分析就白搭?”——教你用Hadoop撸清大数据处理那点事

“Hadoop整不明白,数据分析就白搭?”——教你用Hadoop撸清大数据处理那点事

543 34
|
11月前
|
文字识别 Python
|

python做ocr卡证识别很简单

本示例展示了如何使用 `potencent` 库调用腾讯云 OCR 服务识别银行卡和身份证信息。代码中分别通过本地图片路径 (`img_path`) 和配置文件 (`potencent-config.toml`) 实现了银行卡和身份证的 OCR 识别,并输出结果。测试图片及结果显示了识别效果,需提前配置腾讯云的 `SECRET_ID` 和 `SECRET_KEY`。

490 8
|
11月前
|
存储 人工智能 API
|

RAG-MCP:基于检索增强生成的大模型工具选择优化框架

RAG-MCP是一种通过检索增强生成技术解决大型语言模型(LLM)工具选择困境的创新框架。它针对提示词膨胀和决策效率低的问题,利用语义检索动态筛选相关工具,显著减少提示词规模并提升准确率。本文深入解析其技术原理,包括外部工具索引构建、查询时检索处理等核心步骤,以及实验评估结果。RAG-MCP不仅优化了LLM的工具使用能力,还为AI代理的发展提供了重要支持,未来可在极端规模检索、多工具工作流等方面进一步探索。

743 16
|
11月前
|
算法 搜索推荐 vr&ar
|

试衣间OUT!增强现实让购物更丝滑

试衣间OUT!增强现实让购物更丝滑

376 14
|
11月前
|
人工智能 自然语言处理 文字识别
|

阿里云 AI 搜索开放平台新增:服务开发能力

阿里云 AI 搜索开放平台新发布:服务开发能,可通过集成 dsw 能力并新增 notebook 功能,进一步提升用户编排效率。

444 0
来自: 智能搜索推荐  版块
|
11月前
|
算法 机器人 数据安全/隐私保护
|

基于双向RRT算法的三维空间最优路线规划matlab仿真

本程序基于双向RRT算法实现三维空间最优路径规划,适用于机器人在复杂环境中的路径寻找问题。通过MATLAB 2022A测试运行,结果展示完整且无水印。算法从起点和终点同时构建两棵随机树,利用随机采样、最近节点查找、扩展等步骤,使两棵树相遇以形成路径,显著提高搜索效率。相比单向RRT,双向RRT在高维或障碍物密集场景中表现更优,为机器人技术提供了有效解决方案。

612 3
|
11月前
|
数据采集 数据可视化 API
|

QUIC协议优化:HTTP/3环境下的超高速异步抓取方案

本文介绍了一种基于QUIC和HTTP/3的异步爬虫方案,用于抓取知乎热榜数据并生成趋势图。通过HTTPX与aioquic结合实现高性能连接复用,配合代理IP绕过反爬限制,提取标题、热度等信息。利用Python代码示例展示了异步抓取流程,并借助Matplotlib绘制话题热度变化图表。分析显示突发热点生命周期短,而深度话题热度更稳定。此方案可优化内容运营策略,快速捕捉潜在爆款话题。

448 4
|
11月前
|
机器学习/深度学习 算法 搜索推荐
|

数据不忽悠:如何用大数据预测未来?

数据不忽悠:如何用大数据预测未来?

588 12
|
11月前
|
消息中间件 监控 5G
|

5G+智能家居:让生活更智慧、更畅快

5G+智能家居:让生活更智慧、更畅快

455 7
|
11月前
|
数据采集 运维 数据可视化
|

别再靠拍脑袋了!搞懂数据治理框架,企业才有未来

别再靠拍脑袋了!搞懂数据治理框架,企业才有未来

355 11
|
12月前
|
数据采集 XML 存储
|

Headers池技术在Python爬虫反反爬中的应用

Headers池技术在Python爬虫反反爬中的应用

483 0
|
12月前
|
边缘计算 运维 监控
|

5G落地没那么简单!细扒部署挑战与硬核解决方案

5G落地没那么简单!细扒部署挑战与硬核解决方案

401 30
|
12月前
|
API 分布式计算 MaxCompute
|

MaxCompute 是否有RESTful API文档?

152 1
来自:大数据计算 MaxCompute 版块
|
12月前
|
安全 JavaScript 前端开发
|

引流器即服务(Drainer-as-a-Service)的兴起 | 了解引流器即服务(DaaS)

近期,X(原推特)平台遭遇一波账号接管攻击,多个知名账户被入侵以传播窃取加密货币的恶意内容。这些攻击主要依赖“加密货币引流器”及“引流器即服务”(DaaS)平台实施。DaaS提供现成脚本、智能合约等工具,帮助攻击者从受害者钱包中转移资产。2021年起,此类威胁逐渐兴起,但未引起足够关注。文章深入分析了DaaS运作模式及其影响,并以CLINKSINK恶意软件为例剖析具体攻击手法。为防范此类威胁,建议启用多因素认证(MFA),警惕社会工程学手段,使用硬件钱包提升安全性。DaaS因低门槛、高回报特点,可能吸引更多恶意参与者,需持续关注其演变趋势。

213 0
|
12月前
|
运维 5G vr&ar
|

5G+增强现实:科技交汇的未来之光

5G+增强现实:科技交汇的未来之光

318 10
|
12月前
|
自动驾驶 安全 物联网
|

5G加持自动驾驶:从“聪明”到“智慧”的进化

5G加持自动驾驶:从“聪明”到“智慧”的进化

386 8
|
12月前
|
关系型数据库 MySQL 数据安全/隐私保护
|

大数据新视界--大数据大厂之MySQL 数据库课程设计:数据安全深度剖析与未来展望

本文深入探讨数据库课程设计 MySQL 的数据安全。以医疗、电商、企业案例,详述用户管理、数据加密、备份恢复及网络安全等措施,结合数据安全技术发展趋势,与《大数据新视界 -- 大数据大厂之 MySQL 数据库课程设计》紧密关联,为 MySQL 数据安全提供全面指南。

274 11
|
12月前
|
算法
|

基于MATLAB的地下水模拟系统开发

本项目基于MATLAB开发了一套地下水模拟系统,利用GUI实现参数输入与结果显示。系统集成径向基函数配点法和有限元法,可输出地下水位等高线及立体图。测试版本为MATLAB 2022A,展示多场景运行结果。开发内容涵盖水文地质条件分析、模块化设计(文件、数据输入、算法等模块)及具体开发步骤,确保科学性与实用性。核心程序实现了交互功能与数值计算,适用于复杂地下水系统的离散化模拟与分析。

220 12
|
12月前
|
数据采集 测试技术 C++
|

无headers爬虫 vs 带headers爬虫:Python性能对比

无headers爬虫 vs 带headers爬虫:Python性能对比

362 5
|
12月前
|
JSON API 开发者
|

深入研究:1688 拍立淘图片搜索 API 详解

本文介绍了 1688 拍立淘图片搜索 API 的功能与使用方法。该 API 支持开发者通过上传图片,在 1688 平台上搜索相似商品,返回商品标题、价格、销量等信息,适用于电商数据分析和商品推荐等场景。文章详细说明了接口的请求方式(HTTP POST)、参数(如 app_key、timestamp、sign 和 image)及 JSON 响应格式。此外,提供了 Python 请求示例代码,涵盖图片 Base64 编码、签名生成、发送请求及响应处理等步骤,帮助开发者快速集成与调试。

474 1
|
12月前
|
JSON 数据挖掘 API
|

深入研究:京东店铺所有商品API详解

本文介绍了一款强大的工具——京东店铺所有商品API,它可以帮助用户批量获取指定京东店铺的商品详细信息。通过传入店铺ID,API可返回包括商品名称、价格、库存、销量等在内的多维度数据,响应格式为JSON。文章还提供了Python调用示例,利用`requests`库完成签名生成与数据请求,助力商家管理店铺、开发者构建应用及数据分析人员挖掘商业价值,极大提升电商运营效率。

317 16
|
12月前
|
消息中间件 存储 监控
|

Lalamove基于Flink实时湖仓演进之路

本文由货拉拉国际化技术部资深数据仓库工程师林海亮撰写,围绕Flink在实时数仓中的应用展开。文章首先介绍了Lalamove业务背景,随后分析了Flink在实时看板、数据服务API、数据监控及数据分析中的应用与挑战,如多数据中心、时区差异、上游改造频繁及高成本问题。接着阐述了实时数仓架构从无分层到引入Paimon湖仓的演进过程,解决了数据延迟、兼容性及资源消耗等问题。最后展望未来,提出基于Fluss+Paimon优化架构的方向,进一步提升性能与降低成本。

420 11
来自: 实时计算 Flink  版块
|
12月前
|

DataWorks X MCP:数据开发治理Agent发布!

DataWorks X MCP产品演示:使用DataWorks MCP Server和Hologres MCP Server来自动化完成数据集成实时数据同步任务开发和Hologres数据分析。

566 0
|
12月前
|
数据采集 搜索推荐 API
|

Python 原生爬虫教程:京东商品列表页面数据API

京东商品列表API是电商大数据分析的重要工具,支持开发者、商家和研究人员获取京东平台商品数据。通过关键词搜索、分类筛选、价格区间等条件,可返回多维度商品信息(如名称、价格、销量等),适用于市场调研与推荐系统开发。本文介绍其功能并提供Python请求示例。接口采用HTTP GET/POST方式,支持分页、排序等功能,满足多样化数据需求。

644 5
|
12月前
|
机器学习/深度学习 人工智能 搜索推荐
|

用大数据重塑客户关系管理:聪明企业的秘密武器

用大数据重塑客户关系管理:聪明企业的秘密武器

268 9
|
12月前
|
机器学习/深度学习 人工智能 JSON
|

【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。

580 63
来自: 人工智能平台PAI  版块
|
12月前
|
人工智能 数据可视化 前端开发
|

自学软硬件工程师776天精简版github项目同步推送步骤

注意 这篇文章不是水内容的,虽然我之前也写过 github推送同步的内容。

280 0
|
12月前
|
数据采集 存储 消息中间件
|

数据应用:从采集到分析 —— 构建端到端数据管道

本文分享了一个针对亚洲航空官网的爬虫项目实践,从需求提出到最终优化,详细记录了故障解决与架构改进的过程。初期因频繁访问被限制后,通过引入代理IP、伪装User-Agent和Cookie等技术突破反爬机制。随后采用分布式爬虫架构、智能代理切换及容错重试机制提升系统稳定性。示例代码展示了如何配置代理并解析航班信息,为类似项目提供了完整的技术参考与经验总结。

265 9
|
12月前
|
传感器 数据采集 人工智能
|

可穿戴设备中的生物识别技术:连接人体与数据的桥梁

可穿戴设备中的生物识别技术:连接人体与数据的桥梁

256 7
|
12月前
|
机器学习/深度学习 并行计算 PyTorch
|

【pytorch】【202504】关于torch.nn.Linear

小白从开始这段代码展示了`nn.Linear`的使用及其背后的原理。 此外,小白还深入研究了PyTorch的核心类`torch.nn.Module`以及其子类`torch.nn.Linear`的源码。`grad_fn`作为张量的一个属性,用于指导反向传播 进一步地,小白探讨了`requires_grad`与叶子节点(leaf tensor)的关系。叶子节点是指在计算图中没有前驱操作的张量,只有设置了`requires_grad=True`的叶子节点才会在反向传播时保存梯度。 最后,小白学习了PyTorch中的三种梯度模式 通过以上学习小白对PyTorch的自动求导机制有了更深刻的理解。

477 6
|
2月前
|
机器学习/深度学习 人工智能 物联网
|

从微调到 PPO:祝福 AI 的下一步进化

本文探讨祝福AI从“写得不错”到“越写越懂你”的演进路径:SFT微调已解决群体风格对齐,而PPO强化学习则让模型基于用户反馈(点赞、修改、发送等)动态适配个体偏好,学会为表达后果负责——不是教它“怎么说”,而是教它“何时这样说才对”。

127 1
|
2月前
|
数据采集 安全 C++
|

当 Prompt 和 RAG 都开始别扭时,你该认真考虑微调了

本文以春节祝福生成为例,揭示微调本质:它不是技术升级的“最后一招”,而是对任务性质的判断结果——当问题核心是“模型会做但不像你要的”(如风格不一致、分寸难拿捏),且Prompt/RAG已显乏力时,微调反而是最克制高效的选择。提供可落地的三维度决策框架。

327 148
|
2月前
|
人工智能 自然语言处理
|

效果评估:如何判断一个祝福 AI 是否“走心”

本文以「码上拜年」AI为例,探讨创意生成任务(如春节祝福)的评估困境:传统指标(loss、BLEU)失效,因“走心”无法量化。提出三维主观评估框架——事实准确、风格契合、表达自然,并强调评估核心是“人是否愿意直接发送”,即用户真实感受才是终极标准。

175 8
|
2月前
|
数据采集 安全 算法
|

安全对齐不是消灭风险,而是重新分配风险

本文揭示模型对齐的本质是“风险权衡”而非“绝对安全”:每轮对齐压低一类风险(如越界),必抬升另一类(如保守失能)。破除五大错觉——对齐不减风险总量、reward非中立、多轮≠更安全、对齐非纯技术问题、“临上线再对齐”难解根本责任。核心在于清醒选择可接受的代价,让系统真正“敢用”。

102 0
|
2月前
|
SQL 机器学习/深度学习 消息中间件
|

模型服务化这件事:从 Batch 到 Stream,不只是改个部署方式那么简单

模型服务化这件事:从 Batch 到 Stream,不只是改个部署方式那么简单

103 6
|
2月前
|
数据采集 安全 算法
|

LoRA、PPO、DPO、RAG:这些词什么时候会害你

本文警示:LoRA、PPO、DPO、RAG皆为“放大器”,不解决问题本身,只放大已有对错。当技术名词沦为条件反射式答案(如“要不要上RAG?”),便已背离工程本质——真正关键,是清醒拆解问题,而非用术语掩盖思考缺位。

104 1
|
2月前
|
人工智能 缓存 C++
|

模型不该背的锅:哪些风险应该交给系统

本文揭示大模型项目中常见误区:问题常不在模型本身,而在系统责任边界模糊。模型只应负责生成与理解,而合规审查、回答授权、输入过滤、规则执行、兜底逻辑和一致性保障等,必须由系统层承担。厘清“能力”与“责任”之分,方能构建稳健AI系统。

113 4
|
3月前
|
前端开发 数据库 C++
|

向量数据库项目,什么时候该止损

本文探讨向量数据库项目中常被忽视的关键决策:何时该及时止损。指出许多项目失败并非技术问题,而是因沉没成本心理、误用场景或盲目调优(如TopK膨胀)导致不可控复杂度。提出五大止损信号与实用诊断法,强调“停”是工程成熟的表现——真正负责的是系统稳定性与长期成本,而非工具本身。

109 16
|
3月前
|
自然语言处理
|

DLM在RAG中的最佳实践

ChatDLM是面向RAG的扩散语言模型,首创将Diffusion范式与MoE架构引入文本生成。通过区块扩散实现线性复杂度长文本处理,结合动态检索-生成协同、多文档深度合成与交互式可控生成,显著突破自回归模型在效率、一致性与可解释性上的瓶颈。

143 7
|
3月前
|
机器学习/深度学习 存储 人工智能
|

量子机器学习:AI 的下一个维度,真不是玄学

量子机器学习:AI 的下一个维度,真不是玄学

182 9
|
3月前
|
SQL 机器学习/深度学习 运维
|

MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤

MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤

178 13
|
3月前
|
量子技术 芯片 异构计算
|

量子芯片为什么这么难造?从“画电路”到“跑量子态”,中间全是坑

量子芯片为什么这么难造?从“画电路”到“跑量子态”,中间全是坑

206 3
|
3月前
|
存储 人工智能 资源调度
|

从代码维护到数字资产掌控:AI Agent 职业路线的体系化进阶指南

AGI落地推动软件工程向“代理工程”演进,AI Agent搭建师需构建“意志驱动+浮光执行”架构,实现从编码到数字资产掌控的跃迁。职业核心转向目标定义与逻辑蒸馏,通过感知、记忆、对齐三层架构,打造具备主动执行能力的智能体集群,以浮光行为为杠杆,重构生产力模式与商业价值。

114 3
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
|

大数据与机器学习的定义

大数据指海量、高速、多样的信息集合,传统工具难以处理;机器学习是AI分支,能从数据中自动学习规律并决策。二者相辅相成:大数据为机器学习提供训练基础,机器学习则挖掘数据价值,推动金融、医疗、零售、工业等领域的智能化升级。核心技术包括Hadoop、Spark、TensorFlow等,未来趋势聚焦边缘计算、可解释AI与实时分析。

134 5
|
3月前
|
传感器 自动驾驶 算法
|

自动驾驶不是“一行代码开上高速”:聊聊感知、预测与决策这三大算法核心

自动驾驶不是“一行代码开上高速”:聊聊感知、预测与决策这三大算法核心

219 13
|
3月前
|
消息中间件 自然语言处理 前端开发
|

Pandabuy模式淘宝 1688 代购系统搭建指南

聚焦留学生与海外华人需求,采用微服务架构集成淘宝/1688及国际物流API,提供代购集运一站式服务。盈利来自交易差价、增值服务与会员体系,结合网红营销与低价策略,支持多语言、多支付与合规认证,适配俄欧美等市场。

145 4
|
3月前
|
自动驾驶 数据挖掘 新能源
|

别光看销量:聊聊电动车市场背后的数据分析逻辑

别光看销量:聊聊电动车市场背后的数据分析逻辑

123 13
|
3月前
|
人工智能 运维 算法
|

区块链 + AI:一个负责“信任”,一个负责“聪明”,能不能真结婚?

区块链 + AI:一个负责“信任”,一个负责“聪明”,能不能真结婚?

224 12
|
3月前
|

信任是否可以被量化?系统如何“评估”一个主体

信任能否被量化?系统不评判态度或人格,而是通过持续记录行为轨迹,评估主体的稳定性、一致性和成长趋势。量化核心并非“你是谁”,而是“你如何变化”——系统关注可预测的行为模式与修复能力,偏好缓慢而稳定的价值输出。信任正从静态标签变为动态状态变量,其关键维度是“信任斜率”:变化的速度与方向,比当前位置更重要。

121 8
来自: 智能搜索推荐  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69314
内容
128
活动
439802
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务