|
数据采集 Web App开发 测试技术
|

使用Selenium调试Edge浏览器的常见问题与解决方案

在互联网数据采集领域,Selenium常用于自动化网页爬取。针对使用Edge浏览器时遇到的启动远程调试失败、访问受限及代理IP设置等问题,本文提供了解决方案。通过特定命令启动Edge的远程调试模式,并利用Python脚本配合Selenium库,可实现代理IP、User-Agent的设定及Cookie管理等高级功能,有效提升爬虫稳定性和隐蔽性。遵循步骤配置后,即可顺畅执行自动化测试任务。

3461 1
|
机器学习/深度学习 数据采集 运维
|

Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

1991 0
来自: 人工智能平台PAI  版块
|
存储 安全 算法
|

三种常见的加密算法:MD5、对称加密与非对称加密的比较与应用

网络安全聚焦加密算法:MD5用于数据完整性校验,易受碰撞攻击;对称加密如AES快速高效,密钥管理关键;非对称加密如RSA提供身份验证,速度慢但安全。三种算法各有所长,适用场景各异,安全与效率需权衡。【6月更文挑战第17天】

3572 2
|
Cloud Native Java API
|

Java一分钟之-Micronaut:轻量级微服务框架

【6月更文挑战第16天】Micronaut是面向JVM的微服务框架,以其快速启动、低内存占用著称。文章探讨了配置管理、注解理解和AOT编译的挑战,提供了解决方案,并通过一个简单的HTTP服务示例展示了如何创建控制器和应用启动类。通过克服这些问题,开发者能更好地利用Micronaut构建高效微服务。

770 8
|
机器学习/深度学习 缓存 人工智能
|

大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?

Transformer的基石自2017年后历经变革,2022年RoPE引领NLP新方向,现已被顶级模型如Llama、Llama2等采纳。RoPE融合绝对与相对位置编码优点,解决传统方法的序列长度限制和相对位置表示问题。它通过旋转矩阵对词向量应用角度与位置成正比的旋转,保持向量稳定,保留相对位置信息,适用于长序列处理,提升了模型效率和性能。RoPE的引入开启了Transformer的新篇章,推动了NLP的进展。[[1](https://avoid.overfit.cn/post/9e0d8e7687a94d1ead9aeea65bb2a129)]

2854 0
|
存储 前端开发 机器人
|

通过4个任务比较LangChain和LlamaIndex

我们在本地使用大模型的时候,尤其是构建RAG应用的时候,一般会有2个成熟的框架可以使用

3443 2
|
机器学习/深度学习 存储 算法
|

机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost

机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost

2181 0
|
自然语言处理 机器人 人机交互
|

智能语音交互概述(一)

智能语音交互概述(一)

2005 0
|
人工智能 编解码 自然语言处理
|

prompt提示词

prompt提示词

1746 0
|
小程序 定位技术 vr&ar
|

【微信小程序AR】基于Kivicube零代码实现微信小程序AR

话不多说,先看实现效果作者之前尝试过Apple公司的ARkit、Google公司的ARCore以及国产的EasyAR和SenseAR。Apple公司和Google公司的AR产品是市面上的主流,功能非常的完善,基本可以满足所有的程序载体,但是开发门槛非常的高。国内这两款AR产品还不错,但是主要针对的是WebAR,在微信小程序上功能不是很完善,作者在网上查找资源后发现国内弥知科技公司的Kivicube产品完美的适配于微信小程序,而且几乎上是零代码。非常适合小白新手。

1948 0
|
新零售 搜索推荐 调度
|

通过Flink实时构建搜索引擎的索引

1.背景介绍 搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下: 互联网搜索,如谷歌,百度等; 垂直搜索,如淘宝、天猫的商品搜索; 站内搜索,各个内容网站提供的站内搜索服务; 企业内部搜索,员工查询企业内部信息; 广告投放,根据投放上下文检索出对应的广告主和广告内容; 搜索引擎的关键是让用户找到其所需信息,其整体架构如下: 从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。

18567 160
来自: 实时计算 Flink  版块
|
算法 搜索推荐 前端开发
|

搜索双链路实时计算体系@双11实战

该文章来自阿里巴巴技术协会(ATA)精选集  0. 前言 何为双链路实时计算体系?微观实时计算链路 a) 最细粒度商品/店铺/用户数据的实时 b) 底层模型的实时宏观实时计算链路 相比微观实时,宏观实时的对象粒度更粗,更上层 a) 以实时效果为目标,基于bandit learning的实

16433 2
来自: 智能搜索推荐  版块
|
13天前
|
人工智能 前端开发 JavaScript
|

用AI重塑RPA稳定性:实在Agent TARS语义定位技术拆解与落地实践

实在智能在实在Agent v7.3.4中推出TARS AI元素定位技术,通过视觉-语义联合建模,实现多模态编码、语义锚点生成与动态匹配优化,显著提升RPA在敏捷前端环境下的元素识别稳定性与自适应能力,配置即用,助力企业自动化迈向真正无人值守。(239字)

127 7
|
1月前
|
人工智能 自然语言处理 JavaScript
|

开源 AI 智能体 OpenClaw 安装与使用,电脑自动化效率提升

OpenClaw(小龙虾)是2026年爆火的开源本地AI智能体,GitHub星标超28万。无需编程,纯中文指令即可自动操控电脑完成文件整理、表格生成、浏览器操作等任务。本地运行保隐私,一键部署5分钟搞定,零基础友好!

270 0
|
1月前
|
人工智能 安全 数据可视化
|

Windows 全版本 OpenClaw 搭建教程 零代码可视化一键部署

OpenClaw(小龙虾)是2026年热门开源AI自动化工具,支持Win10/11本地离线运行。零代码、全图形化、内置依赖、多模型切换、大Token额度,5–10分钟一键部署。数据不出设备,安全可控,适配办公全场景。(239字)

244 1
|
2月前
|
存储 安全 数据安全/隐私保护
|

数据放云上就安全了?别天真:聊透“云上合规+数据主权”的那些坑与解法

数据放云上就安全了?别天真:聊透“云上合规+数据主权”的那些坑与解法

274 3
|
2月前
|
存储 数据采集 人工智能
|

1949AI轻量化AI自动化:定时任务浏览器自动化+数据分发代码实战

基于1949AI轻量化理念,本工具以Python实现浏览器自动化采集、本地存储与飞书/邮箱双通道通知,全程无云依赖、低资源占用、安全合规,适配个人开发者及小型团队的轻量工程化需求。(239字)

816 0
|
2月前
|
监控 数据挖掘 API
|

从踩坑到高效落地:淘宝商品详情API的实操心得

淘宝商品详情API提供全维度商品数据,含基础信息、详情页HTML、SKU、价格、销量等,支持比价、代购、数据分析及内容电商等场景,涵盖item.get、item.get_pro等核心接口,接入便捷高效。

364 4
|
3月前
|
数据采集 XML 前端开发
|

BeautifulSoup:Python网页解析的优雅利器

BeautifulSoup是Python最易用的HTML/XML解析库,以超强容错性与人性化API著称。它能将混乱网页转为结构化树,支持CSS选择器、多种解析器(推荐lxml),无需正则即可快速提取数据,是中小型爬虫、教学及原型开发首选工具。(239字)

313 1
|
3月前
|
人工智能 关系型数据库 数据库
|

为什么传统数据库不够用,向量数据库如何补位?

本文通俗解析向量数据库:它让AI能按“语义相似性”而非关键词检索文本、图像等非结构化数据,是RAG技术的“记忆中枢”。详解嵌入原理、ANN索引(如HNSW)、实战搭建步骤及效果评估方法,强调其与传统数据库协同而非替代的关系。(239字)

344 1
|
3月前
|
人工智能 自然语言处理 搜索推荐
|

RAG不只是问答!看完这些应用案例,才发现它的潜力这么大

RAG(检索增强生成)技术正赋能企业知识管理、智能客服、辅助决策、内容创作与教育培训等多元场景,通过语义检索+精准生成,提升信息获取效率与AI实用性,助力零代码构建专属智能系统。

439 5
|
4月前
|
数据采集 自然语言处理 搜索推荐
|

大模型从“瞎聊”到“干活”:指令微调核心逻辑全拆解

本文深入浅出解析大模型指令微调核心技术,从“能聊”到“会干”的关键跃迁。通过“教小孩做事”类比,拆解指令微调原理,详解数据格式、质量与策略三要素,提供16G显卡可跑的四步实操流程,并结合效果评估与未来趋势,助力新手快速掌握让大模型精准执行任务的核心方法。

506 3
|
4月前
|
人工智能 JSON 物联网
|

别光“调戏”ChatGPT了!亲手微调一个专属大模型,你需要知道这些

本文深入浅出地讲解大模型“训练-微调-推理”三步法,类比医生培养过程,帮助读者理解AI如何从通才变为专才。涵盖技术原理、实操步骤、效果评估与GPU选型,助力个人与企业打造专属AI模型,推动AI应用落地。

449 9
|
4月前
|
机器学习/深度学习 人工智能 算法
|

【AI大模型面试宝典七】- 训练优化篇

【AI大模型面试宝典】聚焦强化学习核心考点:从MDP、贝尔曼方程到策略梯度、Actor-Critic框架,详解价值函数、优势函数与GAE等高频概念,结合蒙特卡洛与TD方法的偏差方差权衡,助你系统掌握RL原理与面试要点,轻松应对大模型算法挑战!

378 0
来自: 人工智能平台PAI  版块
|
5月前
|
存储 监控 算法
|

ElasticSearch集群

Elasticsearch集群通过分片与副本机制解决海量数据存储和单点故障问题。将索引拆分为多个分片分布于不同节点,提升存储与性能;通过副本实现高可用。利用docker-compose可快速搭建三节点集群,结合cerebro监控状态。分片路由基于hash算法,确保数据均衡。集群支持故障转移与脑裂防护,保障稳定可靠。

466 0
|
5月前
|
消息中间件 存储 数据挖掘
|

应用架构图

本文介绍应用架构图的设计原理,涵盖单体与分布式架构。从展现层、业务层、数据层到基础层,阐述各层职责及技术选型逻辑,并通过调用关系明确系统边界,支撑业务落地。

438 0
|
5月前
|
消息中间件 SQL API
|

今日练习

本课程作业旨在掌握Docker部署RabbitMQ、消息队列在医嘱系统中的应用,以及对接第三方短信API。通过实战完成消息发送与消费,并接入真实短信服务,提升中间件与外部接口集成能力。(238字)

621 1
|
5月前
|
存储 负载均衡 算法
|

负载均衡算法

本文介绍多种负载均衡算法:随机、加权随机、轮询、加权轮询、最小活跃数、源地址哈希及一致性哈希。适用于不同场景,如性能均等服务器用随机,性能差异大则用加权算法;动态负载选最小活跃数,固定IP请求宜用源地址哈希,节点变动频繁时推荐一致性哈希,保障请求稳定分配。

135 0
|
5月前
|
SQL 分布式计算 算法
|

别再一把梭哈了:聊聊文件格式里的压缩取舍——Snappy 和 Zstd 到底怎么选?

别再一把梭哈了:聊聊文件格式里的压缩取舍——Snappy 和 Zstd 到底怎么选?

574 4
|
5月前
|
机器学习/深度学习 数据采集 人工智能
|

构建AI智能体:七十二、交叉验证:从模型评估的基石到大模型时代的演进

交叉验证是机器学习中评估模型性能的核心方法,通过轮换数据划分实现稳健评估。文章系统解析了k折交叉验证的原理与实现,展示其在模型比较和超参数优化中的关键作用。随着大模型时代的到来,传统交叉验证面临计算成本挑战,但核心思想仍应用于下游任务。文章通过可视化案例完整呈现了从数据准备到最终评估的工作流程,强调交叉验证在有限数据场景下的不可替代性,同时指出需要根据任务规模灵活选择评估策略。理解交叉验证的原理与应用是AI从业者的必备能力。

620 16
|
5月前
|
SQL 存储 分布式计算
|

五、Hive表类型、分区及数据加载

在 Hive 中设计表,绝不仅是“建个结构那么简单”。选对内部表或外部表,决定了数据的归属和生命周期;设计合理的静态/动态分区策略,则直接关系到大数据场景下的查询效率和存储管理成本。本文深入讲解 Hive 表类型与分区机制,配合大量实战代码与练习题,带你从“写对语法”走向“设计合理”,让你的数仓查询快到飞起!

488 11
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|

深度ai学术-从全网文献搜索到免费文献AI解析

深度AI学术(scholar.aisciresgo.com)打通科研全流程:全网智能搜索、免费获取文献、AI深度解析与精准翻译,一站式解决“搜不到、下不了、读不完”难题,助力研究者高效创新,开启智能科研新范式。

733 1
来自: 智能搜索推荐  版块
|
5月前
|
Prometheus 运维 监控
|

别再裸奔搞监控了!一篇带你上手 Prometheus+Grafana 的实战指南

别再裸奔搞监控了!一篇带你上手 Prometheus+Grafana 的实战指南

1073 2
|
5月前
|
运维 持续交付 API
|

具身智能:零基础入门睿尔曼机械臂(四)—— 夹爪无响应?官方例程踩坑与排错实战

本文复盘睿尔曼机械臂夹爪“指令成功但无动作”的故障,揭示官方例程遗漏末端电压配置与通信协议初始化两大隐患。通过“软件—硬件—通信”三步排查,结合万用表测量与示教器配置,最终解决供电缺失与指令失效问题,为末端执行器部署提供可落地的实战方案。

510 6
|
5月前
|
SQL 分布式计算 架构师
|

数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?

数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?

578 2
|
5月前
|
C++
|

报错解决:Selenium报错“Message: session not created: probably user data directory is already in use” 等

本文详解Selenium操作Edge浏览器时常见的“版本不匹配”和“进程冲突”问题,分析报错根源,并提供手动替换驱动与webdriver-manager自动管理两种解决方案,助你高效稳定实现浏览器自动化。

828 6
|
6月前
|
弹性计算 运维 API
|

用错工具比没工具更可怕:Ansible vs Terraform 实战对比,用最接地气的方式讲清楚

用错工具比没工具更可怕:Ansible vs Terraform 实战对比,用最接地气的方式讲清楚

723 22
|
6月前
|
关系型数据库 MySQL PHP
|

0 基础建站?PageAdmin CMS 10 分钟搞定,源码免费拿!

PageAdmin CMS 为无编程基础用户提供高效建站方案。步骤包括:准备服务器、域名及源码;上传源码并配置数据库;通过安装向导完成基础设置;在后台创建栏目、填充内容;测试功能后上线。全程无需编程,简单操作即可搭建独立网站,支持后续维护与扩展。

726 1
|
6月前
|
人工智能 安全 算法
|

数据共享又怕泄露?聊聊隐私计算:让数据“可用不可见”的绝活儿

数据共享又怕泄露?聊聊隐私计算:让数据“可用不可见”的绝活儿

1068 15
|
8月前
|
数据采集 JSON 监控
|

从 Prompt 到 Parser:一次知乎采集的曲折经历

本文探讨了使用大模型和Playwright技术在知乎进行数据采集时遇到的挑战及其优化策略。初始方案因页面异步加载、DOM结构变化和限制策略而失败。为了提高数据采集的稳定性和可靠性,提出了增强渲染层、适配器层和回退监控机制的改进方案。通过这些改进,可以有效应对页面异步加载和DOM变化带来的问题,同时规避限制策略的影响,从而实现更高效、稳定的数据采集。

401 0
|
8月前
|
机器学习/深度学习 存储 资源调度
|

Transformer架构的简要解析

Transformer架构自2017年提出以来,彻底革新了人工智能领域,广泛应用于自然语言处理、语音识别等任务。其核心创新在于自注意力机制,通过计算序列中任意两个位置的相关性,打破了传统循环神经网络的序列依赖限制,实现了高效并行化与长距离依赖建模。该架构由编码器和解码器组成,结合多头注意力、位置编码、前馈网络等模块,大幅提升了模型表达能力与训练效率。从BERT到GPT系列,几乎所有现代大语言模型均基于Transformer构建,成为深度学习时代的关键技术突破之一。

1167 7
|
9月前
|
Java 测试技术 API
|

2025 年 Java 开发者必知的最新技术实操指南全览

本指南涵盖Java 21+核心实操,详解虚拟线程、Spring Boot 3.3+GraalVM、Jakarta EE 10+MicroProfile 6微服务开发,并提供现代Java开发最佳实践,助力开发者高效构建高性能应用。

1264 5
|
10月前
|
安全 Java 网络安全
|

Java 实现 SMTP 协议调用的详细示例及实战指南 SMTP Java 调用示例

本文介绍了如何使用Java调用SMTP协议发送邮件,涵盖SMTP基本概念、JavaMail API配置、代码实现及注意事项,适合Java开发者快速掌握邮件发送功能集成。

1291 0
|
10月前
|
存储 人工智能 自然语言处理
|

AI代理内存消耗过大?9种优化策略对比分析

在AI代理系统中,多代理协作虽能提升整体准确性,但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加,内存消耗呈指数级增长,主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术,涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估,分析了每种技术的适用场景与局限性,为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。

727 4
|
10月前
|
机器学习/深度学习 存储 分布式计算
|

ODPS驱动电商仓储革命:动态需求预测系统的落地实践

本方案基于ODPS构建“预测-仿真-决策”闭环系统,解决传统仓储中滞销积压与爆款缺货问题。通过动态特征工程、时空融合模型与库存仿真引擎,实现库存周转天数下降42%,缺货率下降65%,年损减少5000万以上,显著提升运营效率与GMV。

980 1
|
11月前
|
人工智能 监控 测试技术
|

云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测

在AI技术飞速发展的今天,大语言模型(LLM)、多模态模型等前沿技术正深刻改变行业格局。推理服务是大模型从“实验室突破”走向“产业级应用”的必要环节,需直面高并发流量洪峰、低延时响应诉求、异构硬件优化适配、成本精准控制等复杂挑战。 阿里云人工智能平台 PAI 致力于为用户提供全栈式、高可用的推理服务能力。在本系列技术专题中,我们将围绕分布式推理架构、Serverless 弹性资源全球调度、压测调优和服务可观测等关键技术方向,展现 PAI 平台在推理服务侧的产品能力,助力企业和开发者在 AI 时代抢占先机,让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!

704 2
来自: 人工智能平台PAI  版块
|
11月前
|
数据采集 机器学习/深度学习 Web App开发
|

Python爬虫如何应对贝壳网的IP封禁与人机验证?

Python爬虫如何应对贝壳网的IP封禁与人机验证?

1338 5
|
JSON 算法 API
|

一文掌握 1688 商品详情 API 接口:从入门到实战

1688是国内领先的综合电商批发平台,提供海量商品资源。其商品详情API助力开发者与企业获取商品的详细信息(如属性、价格、库存等),广泛应用于电商数据分析、比价系统及采购场景。API支持GET/POST请求,需传入通用参数(app_key、timestamp等)与业务参数(如product_id)。返回JSON格式数据,包含商品标题、价格、图片链接等详情,提升业务效率与决策精准度。

4567 6
|
存储 人工智能 搜索推荐
|

如何用大模型+RAG 给宠物做一个 AI 健康助手?——阿里云 AI 搜索开放平台

本文分享了如何利用阿里云 AI 搜索开放平台,基于 LLM+RAG 的系统框架,构建“宠物医院AI助手”的实践过程。

1247 14
来自: 智能搜索推荐  版块
|
机器学习/深度学习 数据可视化 机器人
|

比扩散策略更高效的生成模型:流匹配的理论基础与Pytorch代码实现

扩散模型和流匹配是生成高分辨率数据(如图像和机器人轨迹)的先进技术。扩散模型通过逐步去噪生成数据,其代表应用Stable Diffusion已扩展至机器人学领域形成“扩散策略”。流匹配作为更通用的方法,通过学习时间依赖的速度场将噪声转化为目标分布,适用于图像生成和机器人轨迹生成,且通常以较少资源实现更快生成。 本文深入解析流匹配在图像生成中的应用,核心思想是将图像视为随机变量的实现,并通过速度场将源分布转换为目标分布。文中提供了一维模型训练实例,展示了如何用神经网络学习速度场,以及使用最大均值差异(MMD)改进训练效果。与扩散模型相比,流匹配结构简单,资源需求低,适合多模态分布生成。

1333 13

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

1
今日
69523
内容
128
活动
439957
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务