大数据与机器学习-博文-第45页-阿里云开发者社区

Deephub

|

9月前

|

数据采集安全数据挖掘

|

博文

Pandas数据合并：10种高效连接技巧与常见问题

在数据分析中，数据合并是常见且关键的步骤。本文针对合并来自多个来源的数据集时可能遇到的问题，如列丢失、重复记录等，提供系统解决方案。基于对超1000个复杂数据集的分析经验，总结了10种关键技术，涵盖Pandas库中`merge`和`join`函数的使用方法。内容包括基本合并、左连接、右连接、外连接、基于索引连接、多键合并、数据拼接、交叉连接、后缀管理和合并验证等场景。通过实际案例与技术原理解析，帮助用户高效准确地完成数据整合任务，提升数据分析效率。

882 13 13

阿里云大数据Al技术

|

10月前

|

人工智能自然语言处理运维

|

博文

Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署

Qwen3 是 Qwen 系列最新一代的大语言模型，提供了一系列密集（Dense）和混合专家（MOE）模型。目前，PAI 已经支持 Qwen3 全系列模型一键部署，用户可以通过 PAI-Model Gallery 快速开箱！

835 0 0

来自：人工智能平台PAI 版块

Echo_Wish

|

10月前

|

数据采集算法数据挖掘

|

博文

别再野蛮操作了！用Python优雅地搞定数据清洗

509 33 34

灵杰开发者

|

10月前

|

弹性计算运维算法

|

博文

阿里云 Elasticsearch Serverless 检索增强型 8.17 版来袭！

阿里云Elasticsearch Serverless 8.17版本，深度融合无服务器架构与分层扩展能力，面向信息检索、向量搜索、语义分析等通用场景，提供全托管服务，在最新特性扩展、自动扩缩性能、资源成本优化等维度均有显著提升。

513 15 15

来自：检索分析服务 Elasticsearch版版块

游客32nw66z7xeobk

|

10月前

|

SQL 人工智能数据挖掘

|

博文

quickbi使用总结以及问题反馈

本文总结了使用QuickBI高级版及电子表格的功能体验与改进建议。内容涵盖具体报表使用（如趋势分析表、多维趋势表）、函数及其他模块（如LOD函数、自助取数）、AI智能问数模块以及数据集使用的优缺点。指出趋势分析表在复合指标处理上的不足，多维趋势表对比周期限制，以及1万条明细数据限制对年同比的影响等问题。同时提出未来期望，希望建立结合企业知识库的大模型，优化数据分析与建议能力。

827 46 46

来自：数据可视化DataV 版块

贝锐

|

10月前

|

人工智能安全数据安全/隐私保护

|

博文

本地部署DeepSeek教程：一键远程访问，还能解决Ollama安全隐患

本教程详细介绍如何使用Ollama+Open WebUI本地部署DeepSeek模型，并借助贝锐花生壳内网穿透实现安全远程访问。首先，安装Ollama并下载DeepSeek模型，根据显存选择合适参数（如4G选1.5B）。接着，通过Docker部署Open WebUI以获得图形化交互界面。最后，利用贝锐花生壳简单三步完成远程访问设置，支持HTTPS加密传输，保障数据安全。整个过程无需云服务器，轻松打造专属AI助手。

1208 5 6

鲲志说

|

10月前

|

机器学习/深度学习人工智能编译器

|

博文

本地化部署DeepSeek-R1蒸馏大模型：基于飞桨PaddleNLP 3.0的实战指南

本文基于飞桨框架3.0，详细介绍了在Docker环境下部署DeepSeek-R1-Distill-Llama-8B蒸馏模型的全流程。飞桨3.0通过动静统一自动并行、训推一体设计等特性，显著优化大模型的推理性能与资源利用效率。实战中，借助INT8量化和自动化工具，模型在8卡A100上仅需60GB显存即可运行，推理耗时约2.8-3.2秒，吞吐率达10-12 tokens/s。本文为国产大模型的高效本地部署提供了工程参考，适配多场景需求。

557 2 2

实时数仓Hologres团队

|

11月前

|

数据采集人工智能分布式计算

|

博文

MCP+Hologres+LLM搭建数据分析Agent

本文探讨了LLM大模型在数据分析领域的挑战，并介绍了Hologres结合MCP协议和LLM搭建数据分析Agent的解决方案。传统LLM存在实时数据接入能力不足、上下文记忆短等问题，而Hologres通过高性能数据分析能力和湖仓一体支持，解决了这些痛点。MCP协议标准化了LLM与外部系统的连接，提升集成效率。文中详细描述了如何配置Hologres MCP Server与Claude Desktop集成，并通过TPC-H样例数据展示了分析流程和效果。最后总结指出，该方案显著提高了复杂分析任务的实时性和准确性，为智能决策提供支持。

1720 3 5

来自：实时数仓 Hologres 版块

pai_rec_coder

|

11月前

|

存储机器学习/深度学习缓存

|

博文

特征平台PAI-FeatureStore的功能列表

本内容介绍了阿里云PAI FeatureStore的功能与使用方法，涵盖离线和在线特征管理、实时特征视图、行为序列特征视图、FeatureStore SDK的多语言支持（如Go、Java、Python）、特征生产简化方案、FeatureDB存储特性（高性能、低成本、及时性）、训练样本导出以及自动化特征工程（如AutoFE）。同时提供了相关文档链接和技术细节，帮助用户高效构建和管理特征工程。适用于推荐系统、模型训练等场景。

354 2 2

来自：智能搜索推荐版块

wxchyy-39337

|

11月前

|

机器学习/深度学习物联网 PyTorch

|

博文

小白避坑指南：国内用Colossal-AI微调DeepSeek 1.5B的完整踩坑记录（附镜像加速方案）

本文详细记录了使用Colossal-Ai对DeepSeek-Qwen模型进行微调的过程，包括模型下载、环境部署、数据集处理及代码实现等环节。重点介绍了LoRA低秩适配方法和Colossal-Ai分布式训练框架的使用技巧，解决了模型封装后函数调用冲突、梯度检查点配置等问题。通过命令行参数灵活调整训练配置，最终在两块A100 GPU上完成训练，单卡显存占用约11GB，利用率达85%。文章总结了常见问题及解决方法，为后续研究提供参考。

887 15 15

来自：人工智能平台PAI 版块

Deephub

|

11月前

|

机器学习/深度学习测试技术网络架构

|

博文

FANformer：融合傅里叶分析网络的大语言模型基础架构

近期大语言模型（LLM）的基准测试结果显示，OpenAI的GPT-4.5在某些关键评测中表现不如规模较小的模型，如DeepSeek-V3。这引发了对现有LLM架构扩展性的思考。研究人员提出了FANformer架构，通过将傅里叶分析网络整合到Transformer的注意力机制中，显著提升了模型性能。实验表明，FANformer在处理周期性模式和数学推理任务上表现出色，仅用较少参数和训练数据即可超越传统Transformer。这一创新为解决LLM扩展性挑战提供了新方向。

323 5 5

张飞的猪

|

11月前

|

人工智能并行计算测试技术

|

博文

Claude 3.7登顶webdev榜首，国内怎么使用Claude 3.7

Claude 3.7 登顶 Webdev 榜首,Claude 3.7 Sonnet 以 1363.7 分的竞技场评分位列榜首，远超第二名。相比前代，它在数学与编码能力上提升显著，尤其在代理编码测试中准确率达 62.3%，工具交互测试中达 81.2% 的 SOTA 表现。支持 128k Token 输入，上下文处理能力提升 16 倍，并引入扩展思考模式，大幅提升复杂任务解决效率。 Claude 3.7 是 Anthropic 推出的新一代 LLM，具备卓越的推理和编程能力。国内用户可参考特定指南注册使用。

1250 14 14

灵杰开发者

|

11月前

|

存储 SQL Java

|

博文

Flink CDC + Hologres高性能数据同步优化实践

本文整理自阿里云高级技术专家胡一博老师在Flink Forward Asia 2024数据集成（二）专场的分享，主要内容包括：1. Hologres介绍：实时数据仓库，支持毫秒级写入和高QPS查询；2. 写入优化：通过改进缓冲队列、连接池和COPY模式提高吞吐量和降低延迟；3. 消费优化：优化离线场景和分区表的消费逻辑，提升性能和资源利用率；4. 未来展望：进一步简化用户操作，支持更多DDL操作及全增量消费。Hologres 3.0全新升级为一体化实时湖仓平台，提供多项新功能并降低使用成本。

798 1 1

来自：实时计算 Flink 版块

91HTTP代理

|

12月前

|

应用服务中间件定位技术网络安全

|

博文

住宅IP和运营商IP有什么区别？

随着数字化发展，网络安全与隐私保护日益重要，代理IP成为热门选择。住宅IP由ISP分配给家庭用户，通常是动态的，适合日常上网，费用较低，且具有较高隐私保护。运营商IP则分配给企业或数据中心，多为静态，适用于高稳定性和带宽需求的业务，安全性更高但成本也更高。两者在用途、特性和成本上存在显著差异，用户可根据需求选择。

368 1 1

来自：大数据计算 MaxCompute 版块

Echo_Wish

|

12月前

|

安全量子技术云计算

|

博文

揭秘量子纠缠与量子通信：未来信息技术的革命

640 5 5

软件算法开发

|

12月前

|

编解码算法数据安全/隐私保护

|

博文

一维信号的小波变换与重构算法matlab仿真

本程序使用MATLAB2022A实现一维信号的小波变换与重构，对正弦测试信号进行小波分解和重构，并计算重构信号与原信号的误差。核心步骤包括：绘制分解系数图像、上抽取与滤波重构、对比原始与重构信号及误差分析。小波变换通过多分辨率分析捕捉信号的局部特征，适用于非平稳信号处理，在信号去噪、压缩等领域有广泛应用。

562 4 4

探索云世界动手实践

|

12月前

|

监控定位技术 PHP

|

博文

使用PHP接入纯真IP库：实现IP地址地理位置查询

本文介绍了如何使用PHP接入纯真IP库（QQWry），实现IP地址的地理位置查询。纯真IP库是一个轻量级的IP数据库，数据格式简单，查询速度快，适合Web应用。首先，下载并放置`QQWry.dat`文件到项目目录。接着，通过编写PHP类解析该文件，实现IP查询功能。最后，提供了一个完整的案例演示，展示如何查询IP地址对应的国家和地区信息。该工具适用于用户地理位置分析、访问日志分析和风控系统等场景，具有轻量级、查询速度快、数据更新方便等优点。

767 0 0

阿里云大数据Al技术

|

12月前

|

存储人工智能数据库

|

博文

面向教育场景的大模型 RAG 检索增强解决方案

检索增强生成模型结合了信息检索与生成式人工智能的优点，从而在特定场景下提供更为精准和相关的答案。以人工智能平台 PAI 为例，为您介绍在云上使用一站式白盒化大模型应用开发平台 PAI-LangStudio 构建面向教育场景的大模型 RAG 检索增强解决方案，应用构建更简便，开发环境更直观。此外，PAI 平台同样发布了面向医疗、金融和法律领域的 RAG 解决方案。

617 7 7

来自：人工智能平台PAI 版块

阿里云大数据Al技术

|

12月前

|

人工智能自然语言处理搜索推荐

|

博文

全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型

Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型，具有 300 亿个参数，能够生成高达 204 帧的视频；Step-Audio 则是行业内首个产品级的开源语音交互模型，通过结合 130B 参数的大语言模型，语音识别模型与语音合成模型，实现了端到端的文本、语音对话生成，能和用户自然地进行高质量对话。PAI Model Gallery 已支持阶跃星辰最新发布的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型的一键部署，本文将详细介绍具体操作步骤。

1115 0 0

来自：人工智能平台PAI 版块

小白学大数据

|

12月前

|

数据采集 Web App开发 iOS开发

|

博文

使用 User-Agent 模拟浏览器行为的技巧

1495 4 4

Deephub

|

12月前

|

存储机器学习/深度学习 PyTorch

|

博文

PyTorch Profiler 性能优化示例：定位 TorchMetrics 收集瓶颈，提高 GPU 利用率

本文探讨了机器学习项目中指标收集对训练性能的影响，特别是如何通过简单实现引入不必要的CPU-GPU同步事件，导致训练时间增加约10%。使用TorchMetrics库和PyTorch Profiler工具，文章详细分析了性能瓶颈的根源，并提出了多项优化措施

596 1 1

Deephub

|

12月前

|

机器学习/深度学习存储缓存

|

博文

DeepSeek × 时间序列：DeepSeek-TS，基于状态空间增强MLA与GRPO的时序预测新框架

DeepSeek-TS 是一种创新的多产品时间序列预测框架，结合了 DeepSeek 中高效的多头潜在注意力（MLA）和群组相对策略优化（GRPO）技术。该框架通过扩展 MLA 提出 MLA-Mamba，允许潜在特征通过非线性激活的状态空间模型动态演变，提供自适应记忆以适应趋势变化。同时，通过 GRPO 引入智能决策过程，持续改进预测，有效响应销售模式的突变。实验结果显示，DeepSeek-TS 在建模复杂的产品间关系和适应非线性动态方面表现出色，显著优于经典的 ARMA 模型和标准的基于 GRU 的网络。

1429 9 9

奔跑的数据

|

12月前

|

数据采集 Web App开发 API

|

博文

FastAPI与Selenium：打造高效的Web数据抓取服务 —— 采集Pixabay中的图片及相关信息

本文介绍了如何使用FastAPI和Selenium搭建RESTful接口，访问免版权图片网站Pixabay并采集图片及其描述信息。通过配置代理IP、User-Agent和Cookie，提高爬虫的稳定性和防封禁能力。环境依赖包括FastAPI、Uvicorn和Selenium等库。代码示例展示了完整的实现过程，涵盖代理设置、浏览器模拟及数据提取，并提供了详细的中文注释。适用于需要高效、稳定的Web数据抓取服务的开发者。

722 15 15

游客tvgb6vci6chtq

|

缓存分布式计算资源调度

|

博文

Spark 与 MapReduce 的 Shuffle 的区别？

MapReduce 和 Spark 在 Shuffle 过程中有显著区别。MapReduce 采用两阶段模型，中间数据写入磁盘，I/O 开销大；而 Spark 使用基于内存的多阶段执行模型，支持操作合并和内存缓存，减少 I/O。Spark 的 RDD 转换优化减少了 Shuffle 次数，提升了性能。此外，Spark 通过 lineage 实现容错，资源管理更灵活，整体大数据处理效率更高。

738 6 7

来自：大数据计算 MaxCompute 版块

灵杰开发者

|

存储人工智能分布式计算

|

博文

湖仓实时化升级：Uniflow 构建流批一体实时湖仓

本文整理自阿里云产品经理李昊哲在Flink Forward Asia 2024流批一体专场的分享，涵盖实时湖仓发展趋势、基于Flink搭建流批一体实时湖仓及Materialized Table优化三方面。首先探讨了实时湖仓的发展趋势和背景，特别是阿里云在该领域的领导地位。接着介绍了Uniflow解决方案，通过Flink CDC、Paimon存储等技术实现低成本、高性能的流批一体处理。最后，重点讲解了Materialized Table如何简化用户操作，提升数据查询和补数体验，助力企业高效应对不同业务需求。

1065 18 21

来自：实时计算 Flink 版块

Echo_Wish

|

机器学习/深度学习人工智能自然语言处理

|

博文

人工智能与情感计算：AI如何理解人类情感

2506 20 20

技术内容小助手

|

人工智能数据可视化 API

|

博文

FastGPT 基于Higress 聚合 LLM 网关的最佳实践

本文介绍了Fast GPT的产品形态和设计理念，重点讨论了大模型的幻觉问题及其对应用落地的影响。Fast GPT通过结合工作流的强逻辑性和AI的理解能力，提升系统的稳定性和可靠性。文章还详细描述了Fast GPT的工作流节点、知识库管理及AI网关的功能，并展示了几个实际应用场景，如私人助手、图文生成和文档处理等。最后，探讨了如何通过引入云函数和Copilot简化代码编写，实现无代码编排的工作流解决方案，提升用户体验。

744 6 6

技术内容小助手

|

缓存人工智能算法

|

博文

深度揭秘复杂异构硬件推理优化

本文介绍了大语言模型在部署推理层面的性能优化工作，涵盖高性能算子、量化压缩、高效运行时及分布式调度四个方面。面对参数和上下文规模增长带来的显存、缓存与计算开销挑战，文中详细探讨了如何通过优化算子性能、低精度量化压缩、异步运行时框架设计以及多层次分布式架构来提升大模型推理效率。此外，还展示了BladeLLM引擎框架的实际应用效果，证明了这些技术在高并发场景下的显著性能提升。

778 7 7

Echo_Wish

|

机器学习/深度学习监控算法

|

博文

机器学习在图像识别中的应用：解锁视觉世界的钥匙

1624 95 96

winx_19970108018

|

存储 JSON API

|

博文

淘宝直播间弹幕API接口（taobao.item_video_barrage）

淘宝直播间弹幕 API（`taobao.item_video_barrage`）用于获取直播间的弹幕数据。通过指定直播间 ID 和模式参数（如 `start` 建立连接、`refresh` 获取弹幕），可以获取弹幕消息列表、直播间信息等。响应数据为 JSON 格式，包含状态码、直播间 ID、连接状态和弹幕详情。使用时需注意权限限制、接口稳定性和数据处理。

1138 7 7

winx_19970108018

|

JSON API 开发者

|

博文

淘宝买家秀数据接口（taobao.item_review_show）丨淘宝 API 实时接口指南

淘宝买家秀数据接口（taobao.item_review_show）可获取买家上传的图片、视频、评论等“买家秀”内容，为潜在买家提供真实参考，帮助商家优化产品和营销策略。使用前需注册开发者账号，构建请求URL并发送GET请求，解析响应数据。调用时需遵守平台规定，保护用户隐私，确保内容真实性。

655 4 4

Deephub

|

数据可视化算法数据挖掘

|

博文

Python量化投资实践：基于蒙特卡洛模拟的投资组合风险建模与分析

蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法，广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据，通过模拟生成未来价格路径，分析投资风险与收益，包括VaR和CVaR计算，以辅助投资者制定合理决策。

838 15 15

winx_19970108018

|

XML JSON 缓存

|

博文

阿里巴巴商品详情数据接口（alibaba.item_get) 丨阿里巴巴 API 实时接口指南

阿里巴巴商品详情数据接口（alibaba.item_get）允许商家通过API获取商品的详细信息，包括标题、描述、价格、销量、评价等。主要参数为商品ID（num_iid），支持多种返回数据格式，如json、xml等，便于开发者根据需求选择。使用前需注册并获得App Key与App Secret，注意遵守使用规范。

689 6 6

Deephub

|

算法搜索推荐数据可视化

|

博文

Beta分布与汤普森采样：智能决策系统概率采样的理论基础

在现代技术领域，算法决策优化成为核心竞争力的关键。Meta、Netflix和亚马逊等公司通过广告位置、缩略图及产品推荐的优化，显著提升了用户体验和商业效益。这些优化背后的共同点是采用了基于Beta分布的汤普森采样算法，有效解决了决策系统中探索与利用的平衡问题。通过从概率分布中随机采样来做出决策，汤普森采样不仅保证了对已知良好选项的充分利用，还维持了对潜在更优选项的探索，从而在实践中实现了高效且自适应的决策过程。

415 8 8

91HTTP代理

|

缓存安全网络安全

|

博文

静态代理IP访问失败的问题解释？

本文介绍了在浏览器中使用静态代理IP访问失败的多种可能原因，包括代理设置错误、代理服务器问题、站点策略限制、网络连接问题、浏览器设置问题、代理类型不支持及认证问题等，并提供了相应的解决建议。

626 1 1

来自：大数据计算 MaxCompute 版块

c的前世今生

|

存储机器学习/深度学习数据采集

|

博文

物联网 GE-PREDIX

GE-Predix 是通用电气（GE）推出的一个工业互联网平台，旨在通过连接机器、数据与人，实现工业资产的智能管理和优化。该平台支持从设备监控到预测性维护等多种应用，助力企业提升运营效率和创新能力。

1206 3 3

Deephub

|

机器学习/深度学习数据采集数据处理

|

博文

Scikit-learn Pipeline完全指南:高效构建机器学习工作流

Scikit-learn管道是构建高效、鲁棒、可复用的机器学习工作流程的利器。通过掌握管道的使用,我们可以轻松地完成从数据预处理到模型训练、评估和部署的全流程,极大地提高工作效率。

365 2 2

赵渝强老师

|

资源调度分布式计算调度

|

博文

【赵渝强老师】Yarn的资源调度策略

Yarn作为资源和任务调度平台，支持多个应用程序同时运行，如MapReduce、Spark和Flink等。Yarn的资源调度方式主要包括FIFO Scheduler（先来先服务）、Capacity Scheduler（容量调度）和Fair Scheduler（公平调度）。FIFO Scheduler按任务提交顺序调度；Capacity Scheduler通过队列管理资源，支持多租户共享；Fair Scheduler则根据任务权重动态分配资源，确保公平性。

878 8 8

赵渝强老师

|

SQL 数据采集分布式计算

|

博文

【赵渝强老师】基于大数据组件的平台架构

本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层：数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中，大数据平台层为核心，负责数据的存储和计算，支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型，应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。

1265 3 3

aliyun4381607004

|

分布式计算 Java 开发工具

|

博文

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景，随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码，发现使用的`nativeBooster.saveModel`方法不支持OSS路径，而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令，帮助用户顺利迁移模型存储路径。

758 1 1

Deephub

|

机器学习/深度学习数据采集算法

|

博文

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

**Liquid State Machine (LSM)** 是一种 **脉冲神经网络 (Spiking Neural Network, SNN)** ,在计算神经科学和机器学习领域中得到广泛应用,特别适用于处理 **时变或动态数据**。它是受大脑自然信息处理过程启发而提出的一种 **脉冲神经网络** 。

458 4 4

Deephub

|

数据采集机器学习/深度学习数据挖掘

|

博文

10种数据预处理中的数据泄露模式解析:识别与避免策略

在机器学习中，数据泄露是一个常见问题，指的是测试数据在数据准备阶段无意中混入训练数据，导致模型在测试集上的表现失真。本文详细探讨了数据预处理步骤中的数据泄露问题，包括缺失值填充、分类编码、数据缩放、离散化和重采样，并提供了具体的代码示例，展示了如何避免数据泄露，确保模型的测试结果可靠。

1055 2 3

suruili11

|

编译器 API 定位技术

|

博文

API和SDK的区别

API（应用程序编程接口）和SDK（软件开发工具包）的主要区别在于范围、内容、抽象程度及使用方式。API定义了软件组件间的交互规则，范围较窄，更抽象；而SDK提供了一整套开发工具，包括API、编译器、调试器等，范围广泛，具体且实用，有助于提高开发效率。

2524 0 0

郑小健

|

机器学习/深度学习自然语言处理数据挖掘

|

博文

从理论到实践：详解GraphRAG框架下的多模态内容理解与生成

【10月更文挑战第10天】随着多媒体内容的爆炸性增长，如何有效地理解和生成跨模态的数据（如图像、文本和视频）变得越来越重要。近年来，图神经网络（GNNs）因其在处理非结构化数据方面的强大能力而受到广泛关注。在此背景下，Graph Retrieval-Augmented Generation (GraphRAG) 框架作为一种新的方法，通过结合图检索和生成模型来提升多模态内容的理解与生成效果。本文将深入探讨GraphRAG的基本原理、核心组件以及实际应用，并通过代码示例展示其在多媒体内容处理中的潜力。

2007 0 0

c的前世今生

|

编译器 C语言

|

博文

变量的声明与定义区别

变量的声明是指预先告知编译器变量的名称和类型，但不分配内存；而定义则是声明的同时在内存中分配空间，可以初始化。简单来说，声明是告诉编译器“有这么一个东西”，定义是“创建并使用这个东西”。

535 11 11

想飞的雪糕

|

存储自然语言处理文字识别

|

博文

纯前端RAG：使用Transformers.js实现纯网页版RAG（一）

本文将分两部分教大家如何在网页中实现一个RAG系统，本文聚焦于深度搜索功能。通过浏览器端本地执行模型，可实现文本相似度计算和问答匹配，无需依赖服务器。RAG搜索基于高维向量空间，即使不完全匹配也能找到意义相近的结果。文中详细介绍了如何构建知识库、初始化配置、向量存储及相似度计算，并展示了实际应用效果。适用于列表搜索、功能导航、文档查询及表单填写等多种场景。

1671 0 0

Deephub

|

机器学习/深度学习 PyTorch 算法框架/工具

|

博文

图像数据增强库综述：10个强大图像增强工具对比与分析

在深度学习和计算机视觉领域，数据增强是提升模型性能和泛化能力的关键技术。本文全面介绍了10个广泛使用的图像数据增强库，分析其特点和适用场景，帮助研究人员和开发者选择最适合需求的工具。这些库包括高性能的GPU加速解决方案（如Nvidia DALI）、灵活多功能的Albumentations和Imgaug，以及专注于特定框架的Kornia和Torchvision Transforms。通过详细比较各库的功能、特点和适用场景，本文为不同需求的用户提供丰富的选择，助力深度学习项目取得更好的效果。选择合适的数据增强库需考虑性能需求、任务类型、框架兼容性及易用性等因素。

2091 10 10

果宝爱

|

存储传感器数据采集

|

博文

大数据

大数据是指数据量庞大（Volume）、增长迅速（Velocity）、类型多样（Variety）、价值密度低（Value）但潜力巨大的数据集。其来源包括互联网、物联网及企业内部数据。处理技术涵盖采集、预处理、存储、分析与可视化。应用领域涉及商业智能、金融、医疗、交通及公共服务等，助力决策优化与创新。

982 8 8

Deephub

|

机器学习/深度学习数据采集算法

|

博文

数据稀缺条件下的时间序列微分：符号回归(Symbolic Regression)方法介绍与Python示例

有多种方法可以处理时间序列数据中的噪声。本文将介绍一种在我们的研究项目中表现良好的方法,特别适用于时间序列概况中数据点较少的情况。

538 1 1

灵杰开发者

|

存储数据采集 OLAP

|

博文

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

饿了么的实时数仓经历了多个阶段的演进。初期通过实时ETL、报表应用、联动及监控构建基础架构，随后形成了涵盖数据采集、加工和服务的整体数据架构。1.0版本通过日志和Binlog采集数据，但在研发效率和数据一致性方面存在问题。2.0版本通过Dataphin构建流批一体化系统，提升了数据一致性和研发效率，但仍面临新业务适应性等问题。最终，饿了么选择Paimon和StarRocks作为实时湖仓方案，显著降低了存储成本并提高了系统稳定性。未来，将进一步优化带宽瓶颈、小文件问题及权限控制，实现更多场景的应用。

1390 8 8

来自：实时计算 Flink 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

Pandas数据合并：10种高效连接技巧与常见问题

Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署

﻿别再野蛮操作了！用Python优雅地搞定数据清洗

阿里云 Elasticsearch Serverless 检索增强型 8.17 版来袭！

quickbi使用总结以及问题反馈

本地部署DeepSeek教程：一键远程访问，还能解决Ollama安全隐患

本地化部署DeepSeek-R1蒸馏大模型：基于飞桨PaddleNLP 3.0的实战指南

MCP+Hologres+LLM搭建数据分析Agent

特征平台PAI-FeatureStore的功能列表

小白避坑指南：国内用Colossal-AI微调DeepSeek 1.5B的完整踩坑记录（附镜像加速方案）

FANformer：融合傅里叶分析网络的大语言模型基础架构

Claude 3.7登顶webdev榜首，国内怎么使用Claude 3.7

Flink CDC + Hologres高性能数据同步优化实践

住宅IP和运营商IP有什么区别？

揭秘量子纠缠与量子通信：未来信息技术的革命

一维信号的小波变换与重构算法matlab仿真

使用PHP接入纯真IP库：实现IP地址地理位置查询

面向教育场景的大模型 RAG 检索增强解决方案

全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型

使用 User-Agent 模拟浏览器行为的技巧

PyTorch Profiler 性能优化示例：定位 TorchMetrics 收集瓶颈，提高 GPU 利用率

DeepSeek × 时间序列 ：DeepSeek-TS，基于状态空间增强MLA与GRPO的时序预测新框架

FastAPI与Selenium：打造高效的Web数据抓取服务 —— 采集Pixabay中的图片及相关信息

Spark 与 MapReduce 的 Shuffle 的区别？

湖仓实时化升级 ：Uniflow 构建流批一体实时湖仓

人工智能与情感计算：AI如何理解人类情感

FastGPT 基于Higress 聚合 LLM 网关的最佳实践

深度揭秘复杂异构硬件推理优化

机器学习在图像识别中的应用：解锁视觉世界的钥匙

淘宝直播间弹幕API接口（taobao.item_video_barrage）

淘宝买家秀数据接口（taobao.item_review_show）丨淘宝 API 实时接口指南

Python量化投资实践：基于蒙特卡洛模拟的投资组合风险建模与分析

阿里巴巴商品详情数据接口（alibaba.item_get) 丨阿里巴巴 API 实时接口指南

Beta分布与汤普森采样：智能决策系统概率采样的理论基础

静态代理IP访问失败的问题解释？

物联网 GE-PREDIX

Scikit-learn Pipeline完全指南:高效构建机器学习工作流

【赵渝强老师】Yarn的资源调度策略

【赵渝强老师】基于大数据组件的平台架构

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

10种数据预处理中的数据泄露模式解析:识别与避免策略

API和SDK的区别

从理论到实践：详解GraphRAG框架下的多模态内容理解与生成

变量的声明与定义区别

纯前端RAG：使用Transformers.js实现纯网页版RAG（一）

图像数据增强库综述：10个强大图像增强工具对比与分析

大数据

数据稀缺条件下的时间序列微分：符号回归(Symbolic Regression)方法介绍与Python示例

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

大数据与机器学习

活跃用户

相关产品

别再野蛮操作了！用Python优雅地搞定数据清洗

DeepSeek × 时间序列：DeepSeek-TS，基于状态空间增强MLA与GRPO的时序预测新框架

湖仓实时化升级：Uniflow 构建流批一体实时湖仓