|
5月前
|
机器学习/深度学习 数据采集 自然语言处理
|

基于深度学习+NLP豆瓣电影数据爬虫可视化推荐系统

本研究构建基于深度学习与NLP的豆瓣电影数据系统,融合LSTM、BERT与CNN技术,实现高效爬取、情感分析、个性化推荐与动态可视化,提升影视数据分析效率与推荐精准度,推动产业智能化升级。

493 6
|
6月前
|
Web App开发 编解码 定位技术
|

手机端网站建设:响应式设计主导下的工具选取与实施步骤

移动互联网时代,响应式设计已成手机端建站主流,无需单独搭建手机端。本文以 PageAdmin CMS 为例,阐述其原生响应式架构、轻量化等适配优势,详细拆解从前期规划、环境安装、响应式模板适配、内容优化,到测试上线与后期维护的全流程,该方案适配中小规模站点,能降低开发维护成本,保障多端用户体验一致性。

469 10
来自: 人工智能平台PAI  版块
|
6月前
|
机器学习/深度学习 算法 数据可视化
|

Python | 贝叶斯搜索参数优化的XGBoost+SHAP可解释性分析回归预测及可视化算法

本教程将推出Python实现的XGBoost贝叶斯调参+SHAP可解释性分析与可视化,涵盖数据应用、算法原理及SHAP理论,助力SCI论文提升模型可解释性,附完整代码与环境配置指南。

924 7
|
6月前
|
存储 运维 Serverless
|

Serverless 不是“无服务器”,而是“别再让服务器绑架你的创新”

Serverless 不是“无服务器”,而是“别再让服务器绑架你的创新”

248 11
|
6月前
|
存储 缓存 Cloud Native
|

EMR StarRocks Stella 内核正式发布,登顶 TPC 榜单全球第一

EMR Serverless StarRocks 重磅发布全新企业级版本内核 Stella (StarRocks Efficient and Lightening-fast Lakehouse),完全兼容开源 StarRocks,为用户提供企业级的产品功能、卓越的性能及稳定性保障。

601 1
|
7月前
|
存储 前端开发
|

【实战案例】火语言 RPA 采集小说站已完结书名(自动翻页判断),保存到Excel 全流程(附完整脚本)

自动采集起点中文网完本小说书名,支持翻页检测与数据存储。脚本逐页抓取小说名并保存至Excel,最多采集50页,智能判断翻页逻辑,确保数据完整,适用于批量获取完结书籍信息。

531 5
|
7月前
|
机器学习/深度学习 算法 前端开发
|

别再用均值填充了!MICE算法教你正确处理缺失数据

MICE是一种基于迭代链式方程的缺失值插补方法,通过构建后验分布并生成多个完整数据集,有效量化不确定性。相比简单填补,MICE利用变量间复杂关系,提升插补准确性,适用于多变量关联、缺失率高的场景。本文结合PMM与线性回归,详解其机制并对比效果,验证其在统计推断中的优势。

1739 11
|
7月前
|
JSON 安全 算法
|

从0到1掌握1688API:商品详情获取技巧与避坑指南

1688商品详情API通过商品ID获取商品标题、价格库存、图片视频、SKU等结构化数据,支持字段定制与批发价查询,适用于电商整合与竞品分析。采用RESTful+JSON,需AppKey/Secret签名认证,保障数据实时安全。

471 1
|
7月前
|
存储 人工智能 数据库
|

向量存储vs知识图谱:LLM记忆系统技术选型

本文探讨LLM长期记忆系统的构建难点与解决方案,对比向量检索与知识图谱架构优劣,分析Zep、Mem0、Letta等开源框架,并提供成本优化策略,助力开发者实现高效、可扩展的AI记忆系统。

853 3
|
8月前
|
JSON 监控 API
|

速卖通商品列表API秘籍!轻松获取商品列表数据

速卖通商品列表API支持关键词搜索、分类筛选、多语言返回及分页排序功能,适用于比价系统、库存监控、市场研究等场景。开发者可快速获取商品数据,构建自动化应用。

346 4
|
9月前
|
存储 人工智能 5G
|

6G来了,智能设备会“脱胎换骨”吗?

6G来了,智能设备会“脱胎换骨”吗?

615 4
|
9月前
|
机器学习/深度学习 存储 人工智能
|

RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南

本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨混合架构的应用策略。

732 10
|
9月前
|
自然语言处理 监控 算法
|

招聘别再靠拍脑袋,大数据教你用“数据眼”看人

招聘别再靠拍脑袋,大数据教你用“数据眼”看人

386 0
|
9月前
|
前端开发 Java API
|

利用 Spring WebFlux 技术打造高效非阻塞 API 的完整开发方案与实践技巧

本文介绍了如何使用Spring WebFlux构建高效、可扩展的非阻塞API,涵盖响应式编程核心概念、技术方案设计及具体实现示例,适用于高并发场景下的API开发。

690 0
|
9月前
|
Oracle Java 关系型数据库
|

Java 17 采用率增长 430%

1995年,Sun Microsystems发布Java语言,推动现代多媒体应用发展。凭借“一次编写,到处运行”的优势,Java迅速成为主流编程语言。New Relic最新发布的《2023年Java生态系统现状》报告显示,Java 11以超56%的使用率稳居榜首,Java 8仍占近33%。尽管Oracle每半年更新一次Java版本,但开发者更倾向使用长期支持(LTS)版本。Java 17的采用率在过去一年增长430%,潜力巨大。此外,Amazon已成为最受欢迎的JDK供应商,市场份额达31%。容器化应用也已成为主流,70%的Java应用来自容器。

796 0
|
9月前
|
数据采集 人工智能 分布式计算
|

训练效率提升100%!阿里云后训练全栈解决方案发布实录

阿里云大数据AI平台推出大模型后训练解决方案,通过全栈AI能力提供从算力到平台的一体化支撑,提升训练效率100%,适配多行业需求,打通大模型落地“最后一公里”。

698 0
|
10月前
|
数据采集 监控 数据挖掘
|

“抓了个寂寞”:一次实时信息采集的意外和修复

本文讲述了一次因舆情监控系统采集频率不足导致的热点遗漏事件。原有系统每10分钟抓取一次微博热搜榜,类似于“定时拍照”,容易错过快速变化的热点。为解决这一问题,作者提出“滑动窗口”思路,即每次抓取时回看最近一段时间的数据,结合代理池和去重机制,提升热点捕捉的完整性与实时性,避免遗漏关键舆情节点。

242 0
|
10月前
|
SQL 人工智能 自然语言处理
|

数据 + 模型 驱动 AI Native 应用发展

随着人工智能技术的飞速发展,从生成式人工智能(GenAI)到自主代理人工智能(Agentic AI)的演进,企业面临着构建 AI Native 应用的机遇与挑战。本文将深入探讨 AI 开发模式的转变、企业应用的挑战以及技术架构和开发工具的应用,旨在为读者提供一个全面的视角,以理解如何利用数据和模型驱动 AI Native 应用的发展。

459 0
|
10月前
|
编解码
|

【2025更新】视频压缩神器!视频体积瞬间缩小80%,可以指定大小压缩、批量压缩,超级良心免费使用!

Moo0视频压缩器是一款免费、高效的视频压缩工具,支持AVI、MP4等多种格式。可按文件大小、比例或屏幕尺寸智能压缩,兼顾画质与效率,操作简便,批量处理更省心,是2025年必备的视频压缩神器!

1174 2
|
11月前
|
人工智能 自然语言处理 监控
|

阿里云连续6年入选 Gartner®ABI 魔力象限报告,中国唯一!

近日,Gartner发布2025年《分析与商业智能平台魔力象限》报告,阿里云Quick BI第六年入选“挑战者”象限。报告肯定其在可视化、报表及自然语言查询(NLQ)方面的竞争力,并认可其融合AI与BI能力、推动数据分析民主化的创新成果。Quick BI已在零售、金融、制造等多个行业落地应用,助力企业实现高效数据驱动决策。

823 7
|
11月前
|
前端开发 Java 微服务
|

2025 版 Java 学习路线图之技术方案与实操指南详解

这是一份详尽的Java学习路线图,涵盖从入门到精通的全流程。基础阶段包括环境搭建、语法基础与面向对象编程;进阶阶段深入数据结构、算法、多线程及JVM原理;框架阶段学习Spring、MyBatis等工具;数据库阶段掌握SQL与NoSQL技术;前端阶段了解HTML、CSS及JavaScript框架;分布式与微服务阶段探讨容器化、服务注册与发现;最后通过项目实战提升性能优化与代码规范能力。资源地址:[https://pan.quark.cn/s/14fcf913bae6](https://pan.quark.cn/s/14fcf913bae6)。

836 7
|
12月前
|
数据采集 存储 NoSQL
|

Python爬虫Cookie管理最佳实践:存储、清理与轮换

Python爬虫Cookie管理最佳实践:存储、清理与轮换

630 3
|
12月前
|
SQL DataWorks 大数据
|

DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”

婚礼纪是杭州火烧云科技推出的结婚服务平台,覆盖婚宴酒店、婚纱摄影等全产业链,年服务超2000万对新人。为应对海量数据处理挑战,婚礼纪选择阿里云DataWorks作为一站式大数据开发治理平台,解决数据血缘不清、指标口径混乱等问题。通过湖仓一体架构与全链路数据治理,实现多源异构数据高效整合,支撑精准营销、交易风控等核心场景。DataWorks新版数据开发Data Studio大幅提升开发效率,Copilot智能助手优化SQL代码生成与测试,助力婚礼纪构建数据驱动的结婚产业服务中枢。

711 6
|
SQL 存储 NoSQL
|

Flink x Paimon 在抖音集团生活服务的落地实践

本文整理自抖音集团数据工程师陆魏与流式计算工程冯向宇在Flink Forward Asia 2024的分享,聚焦抖音生活服务业务中的实时数仓技术演变及Paimon湖仓实践。文章分为三部分:背景及现状、Paimon湖仓实践与技术优化。通过引入Paimon,解决了传统实时数仓开发效率低、资源浪费、稳定性差等问题,显著提升了开发运维效率、节省资源并增强了任务稳定性。同时,文中详细探讨了Paimon在维表实践、宽表建设、标签变更检测等场景的应用,并介绍了其核心技术优化与未来规划。

1221 10
来自: 实时计算 Flink  版块
|
机器学习/深度学习 网络架构
|

PINN应用案例:神经网络求解热扩散方程高质量近似解

本文探讨了物理信息神经网络(PINN)在求解一维热扩散方程中的应用,对比分析了多层感知器(MLP)、残差网络(ResNet)和Wang2020架构的性能。PINN通过构建损失函数整合偏微分方程残差、边界条件和初始条件,实现对物理系统的近似求解。实验结果表明,传统架构如MLP和ResNet虽能大致还原解析解,但在部分区域存在显著偏差;而Wang2020架构因专门设计以应对PINN训练挑战,表现更为优越,与解析解高度一致。研究还揭示了PINN训练中“平台期后突变”的优化特性,并提出通过构造满足约束条件的网络架构以简化多目标优化问题,为未来研究提供了新方向。

1206 3
|
机器学习/深度学习 测试技术
|

ChronosX: 可使用外生变量的时间序列预测基础模型

时间序列预测中,基础模型虽在单变量任务中表现出色,但引入协变量支持仍面临挑战。Chronos研究团队提出ChronosX架构,通过适配器层有效整合历史与未来协变量信息,适用于任何单变量模型。实验表明,ChronosX显著提升预测性能,尤其在复杂数据集上优势明显。消融研究进一步验证了协变量模块的重要性。尽管需要轻量训练,但其灵活性和通用性为时间序列建模提供了新思路,未来或可通过类似LLM提示机制实现更高效的协变量处理。

965 16
|
人工智能 自然语言处理 搜索推荐
|

AI 搜索开放平台重磅发布:Qwen3 模型上线啦

阿里云AI搜索开放平台重磅发布最新Qwen3模型,为企业和开发者提供全栈智能搜索解决方案。Qwen3作为最新一代大模型,在推理、多语言支持和Agent能力上表现卓越。用户可通过三步快速体验Qwen3服务,助力业务在AI时代抢占先机。

1434 13
来自: 智能搜索推荐  版块

云上玩转DeepSeek系列之六:DeepSeek云端加速版发布,具备超高推理性能

作为国内首个千亿级开源 MoE 模型,DeepSeek-R1 凭借其卓越的代码生成与复杂推理能力,已成为开发者构建智能应用的首选。然而,原始模型在产业落地中面临严峻挑战,部署 671B 满血版模型不仅硬件门槛要求很高,同时吞吐效率和响应延迟也受到了制约。PAI 正式推出了优化版 DeepSeek-R1 模型 DeepSeek-R1-PAI-optimized,将大模型推理效率推向了 Next Level。

644 11
来自: 人工智能平台PAI  版块
|
人工智能 自然语言处理 API
|

MCP与A2A协议比较:人工智能系统互联与协作的技术基础架构

本文深入解析了人工智能领域的两项关键基础设施协议:模型上下文协议(MCP)与代理对代理协议(A2A)。MCP由Anthropic开发,专注于标准化AI模型与外部工具和数据源的连接,降低系统集成复杂度;A2A由Google发布,旨在实现不同AI代理间的跨平台协作。两者虽有相似之处,但在设计目标与应用场景上互为补充。文章通过具体示例分析了两种协议的技术差异及适用场景,并探讨了其在企业工作流自动化、医疗信息系统和软件工程中的应用。最后,文章强调了整合MCP与A2A构建协同AI系统架构的重要性,为未来AI技术生态系统的演进提供了方向。

1812 62
|
人工智能 自然语言处理 算法
|

阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级

本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。

1320 3
来自: 智能搜索推荐  版块
|
数据采集 存储 JSON
|

用Python爬虫抓取数据并保存为JSON的完整指南

用Python爬虫抓取数据并保存为JSON的完整指南

835 3
|
监控 数据挖掘 开发工具
|

淘宝天猫商品详情数据接口采集攻略

本文详细介绍如何通过淘宝天猫商品详情数据接口采集商品信息。首先概述了常用接口(如taobao.item.get、tmall.item.get)的功能,可获取商品基础信息、描述及评价等。接着说明接入准备,包括注册认证、创建应用与申请权限,以及开发环境配置。最后提供采集流程指引,如通过商品链接或搜索接口获取ID,并以Python示例展示接口调用方法,助力开发者高效挖掘电商数据价值。

1269 1
|
人工智能 程序员 C++
|

通义灵码 AI 程序员-全平台AI程序员插件

人工智能正在深度融入开发流程,阿里云通义灵码AI程序员全面上线,支持VS Code与JetBrains IDEs,是国内首个真正落地的AI程序员工具。它不仅能生成代码、续写功能,还支持跨语言编程和图片生成代码。相较1.0版本,新增多项功能,模型更丰富,生成速度更快。快来体验未来开发的魅力!链接附上,欢迎探索。

799 7
|
存储 分布式计算 MaxCompute
|

Hologres实时湖仓能力入门实践

本文由武润雪(栩染)撰写,介绍Hologres 3.0版本作为一体化实时湖仓平台的升级特性。其核心能力包括湖仓存储一体、多模式计算一体、分析服务一体及Data+AI一体,极大提升数据开发效率。文章详细解析了两种湖仓架构:MaxCompute + Hologres实现离线实时一体化,以及Hologres + DLF + OSS构建开放湖仓架构,并深入探讨元数据抽象、权限互通等重点功能,同时提供具体使用说明与Demo演示。

815 8
来自: 实时数仓 Hologres  版块
|
量子技术 Python
|

探索绝对零度的极限:量子计算机的冷却技术

探索绝对零度的极限:量子计算机的冷却技术

601 9
|
搜索推荐 API 开发者
|

京东商品详情优惠券API接口全攻略

京东商品详情优惠券API接口为电商开发者和商家提供了精准查询、获取详细信息及实时监测优惠券状态的功能。通过商品ID,可筛选出特定商品的定向或店铺通用优惠券,获取面额、使用门槛、领取条件等详尽信息,并监测优惠券的领取情况。该接口支持多种筛选参数,满足个性化需求,助力电商业务拓展与创新。示例代码展示了如何使用Python调用此接口,实现优惠券信息的高效获取。

1149 23
|
算法 数据安全/隐私保护
|

基于Adaboost的数据分类算法matlab仿真

本程序基于Adaboost算法进行数据分类的Matlab仿真,对比线性与非线性分类效果。使用MATLAB2022A版本运行,展示完整无水印结果。AdaBoost通过迭代训练弱分类器并赋予错分样本更高权重,最终组合成强分类器,显著提升预测准确率。随着弱分类器数量增加,训练误差逐渐减小。核心代码实现详细,适合研究和教学使用。

446 4
|
机器学习/深度学习 缓存 自然语言处理
|

深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构

Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。

1592 6
|
JavaScript API 数据安全/隐私保护
|

淘宝店铺订单相关API接口详解

本文详细介绍了淘宝店铺订单相关的三个关键API接口:订单列表、订单详情和订单物流。通过这些接口,开发者可以获取订单信息、买家详情、商品清单、支付信息及物流轨迹,支持多种筛选条件和复杂参数传递。此外,文章还强调了接口权限申请、数据安全处理及调用频率限制等注意事项,帮助开发者高效集成这些接口,提升电商系统的功能和用户体验。供稿者:Taobaoapi2014。 (239字符)

948 0
|
机器学习/深度学习 人工智能 JSON
|

知识蒸馏方法探究:Google Distilling Step-by-Step 论文深度分析

大型语言模型(LLM)的发展迅速,从简单对话系统进化到能执行复杂任务的先进模型。然而,这些模型的规模和计算需求呈指数级增长,给学术界和工业界带来了挑战。为解决这一问题,知识蒸馏技术应运而生,旨在将大型模型的知识转移给更小、更易管理的学生模型。Google Research 提出的“Distilling Step-by-Step”方法不仅减小了模型规模,还通过提取推理过程使学生模型在某些任务上超越教师模型。该方法通过多任务学习框架,训练学生模型同时预测标签和生成推理过程,从而实现更高效、更智能的小型化模型。这为资源有限的研究者和开发者提供了新的解决方案,推动了AI技术的普及与应用。

818 19
|
存储 数据采集 数据库
|

Python爬虫实战:股票分时数据抓取与存储

Python爬虫实战:股票分时数据抓取与存储

1798 5
|
JSON API 数据安全/隐私保护
|

虾皮(shopee)商品详情接口(虾皮 API 系列)

Shopee 商品详情接口(item_get)用于获取商品的标题、价格、描述、库存和图片等详细信息。开发者需使用 Shopee 提供的 API 密钥进行认证,通过 GET 请求访问指定 URL。请求参数包括 partner_id、shopid、itemid、timestamp 和 sign。签名生成需按字母顺序排序参数,拼接后与 API 密钥进行 HMAC-SHA256 加密。响应为 JSON 格式,包含商品详细信息及错误提示。注意妥善保管 API 密钥,并遵守请求频率限制。

1397 2
|
供应链 数据挖掘 BI
|

1688 买家订单,订单物流,订单回传接口系列(1688 寻源通 API)

1688作为国内领先的批发采购平台,提供了买家订单、订单物流及订单回传三大API接口,助力企业实现订单管理、物流跟踪和信息反馈的自动化。通过这些接口,企业可以获取订单详情、物流状态,并将处理结果回传至平台,提升运营效率。Python示例代码展示了如何使用这些接口进行数据交互,适用于电商内部管理、物流跟踪及数据分析等场景。

1041 4
|
存储 数据采集 分布式计算
|

大数据是什么?用浅显的语言揭开神秘面纱

大数据是什么?用浅显的语言揭开神秘面纱

1259 11
|
机器学习/深度学习 人工智能 编译器
|

BladeDISC++:Dynamic Shape AI 编译器下的显存优化技术

本文介绍了阿里云 PAI 团队近期发布的 BladeDISC++项目,探讨在动态场景下如何优化深度学习训练任务的显存峰值,主要内容包括以下三个部分:Dynamic Shape 场景下显存优化的背景与挑战;BladeDISC++的创新解决方案;Llama2 模型的实验数据分析

780 4
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 运维 数据可视化
|

Python时间序列分析:使用TSFresh进行自动化特征提取

TSFresh 是一个专门用于时间序列数据特征自动提取的框架,支持分类、回归和异常检测等机器学习任务。它通过自动化特征工程流程,处理数百个统计特征(如均值、方差、自相关性等),并通过假设检验筛选显著特征,提升分析效率。TSFresh 支持单变量和多变量时间序列数据,能够与 scikit-learn 等库无缝集成,适用于大规模时间序列数据的特征提取与模型训练。其工作流程包括数据格式转换、特征提取和选择,并提供可视化工具帮助理解特征分布及与目标变量的关系。

1326 16
|
缓存 负载均衡 安全
|

Swift中的网络代理设置与数据传输

Swift中的网络代理设置与数据传输

478 4
来自: 智能搜索推荐  版块
|
监控 前端开发 关系型数据库
|

搭建直播网站技术层面准备全流程

搭建直播网站涉及技术选型、开发与部署。技术选型包括服务器端(Java/Go、MySQL/PostgreSQL、Redis、阿里云OSS等)、前端(React/Vue.js、React Native/Flutter)、流媒体技术(RTMP、HLS、WebRTC、H.264/AAC)和CDN加速。系统架构设计涵盖前端、后端、流媒体服务器及数据库,使用负载均衡器分发流量,包含用户认证、推拉流管理、实时通信等功能模块。开发流程包括环境搭建、API实现、WebSocket通信、页面开发及流媒体配置。部署阶段涉及服务器搭建、Docker容器化、CDN配置、日志监控及CI/CD自动化部署。

3709 13
|
运维 监控 安全
|

代理IP故障排查技巧汇总及实战经验分享

在信息化时代,互联网不可或缺。使用HTTP动态代理IP时,快速排查故障至关重要。主要步骤包括:1. 检查代理IP有效性(Ping测试、HTTP请求测试);2. 监控连接速度(延迟和带宽测试);3. 分析错误信息(HTTP状态码、日志);4. 检查代理设置(配置文件、协议支持);5. 使用调试工具(Wireshark、浏览器开发者工具);6. 咨询服务提供商;7. 检查网络环境(防火墙、ISP限制);8. 逐步排查并记录变化。这些技巧能有效找出并解决问题。

1216 10
来自: 大数据计算 MaxCompute  版块
|
数据可视化 算法 数据挖掘
|

Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析

蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法,广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据,通过模拟生成未来价格路径,分析投资风险与收益,包括VaR和CVaR计算,以辅助投资者制定合理决策。

1179 15

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

1
今日
69523
内容
128
活动
439957
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务