|
27天前
|
JSON 缓存 供应链
|

1688图片搜索API秘籍!轻松获取相似商品数据

1688图片搜索API基于图像识别技术,支持通过上传商品图片搜索同款或相似商品,适用于电商选品、供应链管理等场景。提供多种搜索模式与结果过滤条件,支持Python等开发语言,提升采购效率。

120 0
|
28天前
|
JSON 数据挖掘 API
|

1688商品列表API秘籍!轻松获取商品列表数据

1688商品列表API(alibaba.product.list.get)可批量获取商品信息,支持分页、筛选与排序,适用于商品管理与数据分析。本文提供Python调用示例,助您快速接入接口,实现商品数据高效处理。

79 0
|
2月前
|
数据采集 存储 大数据
|

大数据之路:阿里巴巴大数据实践——日志采集与数据同步

本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。

186 1
|
6月前
|
机器学习/深度学习 JavaScript PyTorch
|

9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体

生成对抗网络(GAN)的训练效果高度依赖于损失函数的选择。本文介绍了经典GAN损失函数理论,并用PyTorch实现多种变体,包括原始GAN、LS-GAN、WGAN及WGAN-GP等。通过分析其原理与优劣,如LS-GAN提升训练稳定性、WGAN-GP改善图像质量,展示了不同场景下损失函数的设计思路。代码实现覆盖生成器与判别器的核心逻辑,为实际应用提供了重要参考。未来可探索组合优化与自适应设计以提升性能。

397 7
|
6月前
|
JSON 数据管理 Java
|

淘宝买家订单列表、订单详情、订单物流 API 接口全攻略

淘宝订单相关API接口是电商自动化的核心工具,提供订单数据管理和物流追踪功能。开发者可通过HTTP协议调用,支持Python、Java等语言,响应JSON格式数据。主要功能包括:订单列表查询、订单详情获取和物流轨迹追踪。申请流程:注册账号(c0b.cc/R4rbK2),创建应用并生成App Key,申请所需接口权限如taobao.trades.sold.get、taobao.trade.fullinfo.get等。

1103 7
|
6月前
|
机器学习/深度学习 缓存 自然语言处理
|

深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构

Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。

752 6
|
7月前
|
Java API 数据处理
|

Java实战:使用HttpClient实现图片下载与本地保存

Java实战:使用HttpClient实现图片下载与本地保存

448 1
|
7月前
|
机器学习/深度学习 自然语言处理 算法
|

Transformer 学习笔记 | Decoder

本文记录了笔者学习Transformer的过程,重点介绍了填充(padding)和掩码(masking)机制。掩码确保解码器只依赖于之前的位置,避免信息泄露,保持因果关系及训练与推理的一致性。通过线性层和softmax函数生成输出概率,并使用梯度下降和反向传播进行训练。评估指标包括BLEU、ROUGE、METEOR和困惑度等。欢迎指正。

533 2
|
7月前
|
数据采集 Web App开发 iOS开发
|

使用 User-Agent 模拟浏览器行为的技巧

使用 User-Agent 模拟浏览器行为的技巧

865 4
|
7月前
|
SQL 消息中间件 Kafka
|

Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计

本文介绍了阿里云实时数仓Hologres负责人姜伟华在Flink Forward Asia 2024上的分享,涵盖实时数仓的发展历程、从实时数仓到实时湖仓的演进,以及总结。文章通过三代实时数仓架构的演变,详细解析了Lambda架构、Kafka实时数仓分层+OLAP、Hologres实时数仓分层复用等方案,并探讨了未来从实时数仓到实时湖仓的演进方向。最后,结合实际案例和Demo展示了Hologres + Flink + Paimon在实时湖仓中的应用,帮助用户根据业务需求选择合适的方案。

1154 20
来自: 实时计算 Flink  版块
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

告别熬夜写代码!VSCode+Cline扩展插件+DeepSeek-V3大模型,让你的编程水平瞬间超越99.9%的人!

逆天改变!VSCode+Cline+DeepSeek-V3,编程界的新王者就是你!

1843 35
|
8月前
|
存储 算法 区块链
|

区块链:版权保护的新利器

区块链:版权保护的新利器

536 21
|
8月前
|
存储 SQL 数据挖掘
|

深入理解 Flink 中的 State

Flink 的 State(状态)是其四大核心之一,为流处理和批处理任务提供强大支持。本文深入探讨 Flink 中的状态管理,涵盖 State 在 HDFS 中的存储格式、存在形式(如 ValueState、ListState 等)、使用方法、过期时间 TTL 和清除策略,并介绍 Table API 和 SQL 模块中的状态管理。通过实际案例,帮助读者理解如何在电商订单处理、实时日志统计等场景中有效利用状态管理功能。

679 16
来自: 实时计算 Flink  版块
|
8月前
|
存储 人工智能 芯片
|

面向AI的服务器计算互连的创新探索

面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。

709 3
|
9月前
|
存储 关系型数据库 BI
|

实时计算UniFlow:Flink+Paimon构建流批一体实时湖仓

实时计算架构中,传统湖仓架构在数据流量管控和应用场景支持上表现良好,但在实际运营中常忽略细节,导致新问题。为解决这些问题,提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式(如Paimon)和Flink CDC工具,简化开发流程,降低成本,并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table,实现了声明式ETL,优化了调度和执行模式,使用户能灵活调整新鲜度与成本。最终,UniFlow不仅提高了开发和运维效率,还提供了更实时的数据支持,满足业务决策需求。

532 7
|
9月前
|
存储 SQL 大数据
|

从数据存储到分析:构建高效开源数据湖仓解决方案

今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。

621 7
来自: 实时计算 Flink  版块
|
10月前
|
机器学习/深度学习 Serverless 定位技术
|

深入理解多重共线性:基本原理、影响、检验与修正策略

本文将深入探讨多重共线性的本质,阐述其重要性,并提供有效处理多重共线性的方法,同时避免数据科学家常犯的陷阱。

454 3
|
11月前
|
存储 人工智能 自然语言处理
|

Github上的十大RAG(信息检索增强生成)框架

信息检索增强生成(RAG)是一种结合了检索系统和生成模型优势的技术,能够显著提升大型语言模型的性能。RAG通过从外部知识库中检索相关信息,增强模型的输入,从而生成更加准确、符合上下文、实时更新的响应。GitHub上涌现出多个开源RAG框架,如Haystack、RAGFlow、txtai等,每个框架都有独特的功能和特性,适用于不同的应用场景。这些框架不仅提高了模型的准确性和可靠性,还增强了过程的透明度和可解释性。

1230 2
|
11月前
|
存储 人工智能 前端开发
|

前端大模型应用笔记(三):Vue3+Antdv+transformers+本地模型实现浏览器端侧增强搜索

本文介绍了一个纯前端实现的增强列表搜索应用,通过使用Transformer模型,实现了更智能的搜索功能,如使用“番茄”可以搜索到“西红柿”。项目基于Vue3和Ant Design Vue,使用了Xenova的bge-base-zh-v1.5模型。文章详细介绍了从环境搭建、数据准备到具体实现的全过程,并展示了实际效果和待改进点。

833 14
来自: 智能搜索推荐  版块
|
11月前
|
机器学习/深度学习 自然语言处理 数据挖掘
|

从理论到实践:详解GraphRAG框架下的多模态内容理解与生成

【10月更文挑战第10天】随着多媒体内容的爆炸性增长,如何有效地理解和生成跨模态的数据(如图像、文本和视频)变得越来越重要。近年来,图神经网络(GNNs)因其在处理非结构化数据方面的强大能力而受到广泛关注。在此背景下,Graph Retrieval-Augmented Generation (GraphRAG) 框架作为一种新的方法,通过结合图检索和生成模型来提升多模态内容的理解与生成效果。本文将深入探讨GraphRAG的基本原理、核心组件以及实际应用,并通过代码示例展示其在多媒体内容处理中的潜力。

1506 0
|
机器学习/深度学习 存储 算法
|

强化学习实战:基于 PyTorch 的环境搭建与算法实现

【8月更文第29天】强化学习是机器学习的一个重要分支,它让智能体通过与环境交互来学习策略,以最大化长期奖励。本文将介绍如何使用PyTorch实现两种经典的强化学习算法——Deep Q-Network (DQN) 和 Actor-Critic Algorithm with Asynchronous Advantage (A3C)。我们将从环境搭建开始,逐步实现算法的核心部分,并给出完整的代码示例。

1184 1
|
数据采集
|

爬虫开发中AttributeError的快速解决方法

在网络爬虫中,`AttributeError`源于访问不存在的属性,如拼写错误、对象类型不符、未初始化属性或网页结构变动。定位时检查代码、使用打印语句或调试器查看对象状态,定期验证HTML结构。解决策略包括异常捕捉、代码更新及使用代理IP防封禁。示例代码演示了亿牛云代理结合多线程技术,高效抓取网页数据,同时处理潜在`AttributeError`,确保程序稳定运行。

322 0

指数平滑法详解与Python代码示例

指数平滑法详解与Python代码示例

395 1
|
Java 关系型数据库 数据库
|

实时计算 Flink版操作报错合集之拉取全量数据时,如何解决Checkpoint失败并且报错为 "java.lang.OutOfMemoryError: Java heap space"

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

483 3
来自: 实时计算 Flink  版块
|
机器学习/深度学习 数据采集 算法
|

Python实现Prophet时间序列数据建模与异常值检测(Prophet算法)项目实战

Python实现Prophet时间序列数据建模与异常值检测(Prophet算法)项目实战

966 2
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 数据采集 算法
|

Python实现GBDT(梯度提升树)回归模型(GradientBoostingRegressor算法)项目实战

Python实现GBDT(梯度提升树)回归模型(GradientBoostingRegressor算法)项目实战

431 6
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 自然语言处理 数据可视化
|

文本挖掘与可视化:生成个性化词云的Python实践【7个案例】

词云是文本数据可视化的工具,显示单词频率,直观、美观,适用于快速展示文本关键信息。 - 用途包括关键词展示、数据探索、报告演示、情感分析和教育。 - 使用`wordcloud`和`matplotlib`库生成词云,`wordcloud`负责生成,`matplotlib`负责显示。 - 示例代码展示了从简单词云到基于蒙版、颜色和关键词权重的复杂词云生成。 - 案例覆盖了中文分词(使用`jieba`库)、自定义颜色和关键词权重的词云。 - 代码示例包括读取文本、分词、设置词云参数、显示和保存图像。

1474 1
|
机器学习/深度学习 Python
|

sigmoid函数

本文探讨了高等数学中的sigmoid函数,它在神经网络中的应用,特别是在二分类问题的输出层。sigmoid函数公式为 $\frac{1}{1 + e^{-x}}$,其导数为 $sigmoid(x)\cdot(1-sigmoid(x))$。文章还展示了sigmoid函数的图像,并提供了一个使用Python绘制函数及其导数的代码示例。

748 2
|
算法 物联网 数据库
|

阿里云 OpenSearch RAG 应用实践

本文介绍了阿里云OpenSearch在过去一年中在RAG方面的应用和探索。

28445 3
来自: 智能搜索推荐  版块
|
Python
|

新手向 Python:VsCode环境下Manim配置

该文介绍了如何准备和配置开发环境以使用Manim,主要包括两个步骤:一是准备工作,需要下载并安装VsCode和Anaconda,其中Anaconda需添加到系统PATH环境变量,并通过清华镜像源配置;二是配置环境,VsCode中安装中文插件和Python扩展,激活并配置虚拟环境。最后,安装ffmpeg和manim,通过VsCode运行测试代码验证配置成功。

1214 1
|
分布式计算 安全 Hadoop
|

Hadoop 集群一直处于安全模式,强制退出后出现数据丢失警告。解决方法

本文介绍了Hadoop集群安全模式的相关命令和问题解决。当集群处于安全模式时,可使用`hdfs dfsadmin -safemode get`检查状态,`enter`进入,`leave`或`forceExit`离开。若因数据块不一致导致安全模式持续,可通过强制退出,然后删除丢失数据块的文件以恢复正常。如果遇到权限问题,可以使用`chmod`授权或关闭HDFS权限验证(不推荐),配置修改后需重启集群生效。

1485 0
|
SQL 存储 关系型数据库
|

Hive 和 HDFS、MySQL 之间的关系

Hive是Hadoop上的数据仓库工具,用HiveQL进行大数据查询;HDFS是分布式文件系统,用于存储大规模数据,常与Hive结合,提供数据存储和高可靠性。MySQL是RDBMS,适用于结构化数据管理,在大数据环境里可存储Hive的元数据,提升查询效率和元数据管理。三者协同处理数据管理和分析任务。

585 0
|
监控 Shell 开发工具
|

Debian安装与基本使用:详细指南及常见问题解析

【4月更文挑战第13天】本文档介绍了Debian的安装步骤、基本使用、问题解析及进阶技巧。首先,安装Debian涉及下载ISO镜像,制作启动介质,设置BIOS,然后进行安装过程,包括选择语言、分区、网络配置、软件包选择和用户账户设置。安装完成后,学会基本操作,如命令行使用、软件管理(apt)、系统更新和维护。遇到问题时,解决无线网络、分辨率、输入法和依赖问题。进阶技巧包括自定义Shell环境、使用虚拟化技术(Docker、LXC/LXD)、系统监控与性能调优,以及Git和自动化脚本的高级应用。通过学习这些技巧,可提升在Debian系统上的工作效率。

1816 0
|
机器学习/深度学习 算法 Python
|

使用Python实现随机森林算法

使用Python实现随机森林算法

562 0
|
SQL 消息中间件 关系型数据库
|

ClickHouse(04)如何搭建ClickHouse集群

ClickHouse集群的搭建和部署和单机的部署是类似的,主要在于配置的不一致,如果需要了解ClickHouse单机的安装设部署,可以看看这篇文章,[ClickHouse(03)ClickHouse怎么安装和部署](https://zhuanlan.zhihu.com/p/532431053)。

1257 1
|
机器学习/深度学习 数据采集 算法
|

Python基础算法解析:支持向量机(SVM)

Python基础算法解析:支持向量机(SVM)

317 0
|
搜索推荐 大数据 数据库
|

【Havenask实践篇】搭建文本检索服务

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文举例数据库检索加速的一个简单场景,使用Havenask对数据库的文本字段建立倒排索引,通过倒排检索列提高检索性能,缩短检索耗时。

114467 51
来自: 智能搜索推荐  版块
|
算法
|

MATLAB | 插值算法 | 二维interp2插值法 | 附数据和出图代码 | 直接上手

MATLAB | 插值算法 | 二维interp2插值法 | 附数据和出图代码 | 直接上手

1253 0
|
机器学习/深度学习 PyTorch 算法框架/工具
|

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。

1102 9
|
监控 搜索推荐 数据挖掘
|

淘宝关键词设置:技巧与实战指南

淘宝关键词设置:技巧与实战指南

1599 1
|
机器学习/深度学习 算法 计算机视觉
|

多目标跟踪 | 评测指标

多目标跟踪器的性能需要某些指标来进行度量,目前使用比较广泛的评测指标主要有 Bernardin 等人定义的 CLEAR MOT 指标、Ristani 等人定义的 ID scores 指标以及最新的 Luiten 等人定义的HOTA 指标。

2513 2
|
机器学习/深度学习 数据可视化 PyTorch
|

【Deep Learning 5】FNN前馈神经网络

🍊本文详细介绍了FNN的原理,并给出了具体的推导过程🍊使用Pytorch搭建了FNN模型,并对糖尿病数据集开展分类任务实战。

1836 0
|
城市大脑 算法 数据可视化
|

数字孪生核心技术揭秘(六):传统三维gis与数字孪生的区别

当前对“数字孪生城市”没有一个严格界定的标准,本质上“数字孪生城市”是在传统三维GIS应用的基础上演化而来;随着技术创新和行业需求的发展,两者的差异也越来越大;本文梳理了两者的异同,同时比较了两者的适用场景。

5030 1
来自: 数据可视化DataV  版块
|
流计算 API Apache
|

Apache Flink 零基础入门(一):基础概念解析

本文是根据 Apache Flink 基础篇系列直播整理而成,由 Apache Flink PMC 戴资力与阿里巴巴高级产品专家陈守元共同分享。Apache Flink 系列入门教程每周更新一期,持续推送。

12336 1
来自: 实时计算 Flink  版块
|
20天前
|
机器学习/深度学习 存储 JSON
|

PyCharm 创建了第一个项目

在 PyCharm 中创建项目时,合理的目录结构有助于代码、依赖和资源的高效管理。本文详细解析了 PyCharm 的默认目录结构,如 `.idea/`(配置文件)、`venv/`(虚拟环境)、`src/`(源代码)、`tests/`(测试代码)、`data/`(数据文件)等,并提供了文件创建建议和最佳实践。同时介绍了核心代码、脚本文件、测试文件的存放位置,以及 PyCharm 的常用操作技巧,帮助开发者构建清晰、可维护的项目结构。

100 2
|
1月前
|
Windows
|

Windows无法连接到打印机,请检查打印机名并重试 - 配置Windows 共享打印机出错;

WIN7共享打印机无法被WIN11连接,出现错误代码0x0000011b或0x00000709,可能是系统版本不兼容所致。本文提供多个轻量级修复工具,无需安装,双击即用,专为解决此类小问题设计,操作简单,适合普通用户快速修复打印机连接异常。

384 0
|
2月前
|
消息中间件 人工智能 资源调度
|

云上AI推理平台全掌握 (5):大模型异步推理服务

针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。

240 0
来自: 人工智能平台PAI  版块
|
2月前
|
传感器 算法 安全
|

机器人路径规划和避障算法matlab仿真,分别对比贪婪搜索,最安全距离,RPM以及RRT四种算法

本程序基于MATLAB 2022A实现机器人路径规划与避障仿真,对比贪婪搜索、最安全距离、RPM和RRT四种算法。通过地图模拟环境,输出各算法的路径规划结果,展示其在避障性能与路径优化方面的差异。代码包含核心路径搜索逻辑,并附有测试运行图示,适用于机器人路径规划研究与教学演示。

285 64
|
3月前
|
传感器 人工智能 安全
|

运营商三要素API的实战指南:实现 “人 - 证 - 号” 三位一体核验

在数字身份欺诈频发的背景下,传统单点验证已无法满足高安全需求。探数API推出的“运营商三要素核验API”,通过姓名、身份证号、手机号的三重交叉验证,构建起“铁三角”防线,广泛适用于金融、政务、电商等领域。该API支持一致性验证及基础信息返回(可选),具备高准确性与防伪性,远超单一或双因素验证方式。其调用流程简单,提供Python示例代码及异常处理建议,助力打造更安全的数字身份体系,成为连接多领域的关键桥梁。未来,多因子融合的身份认证将成为趋势,而三要素核验API正是当前可信数字身份的重要基石。

298 2
|
3月前
|
人工智能 程序员 PHP
|

Cursor AI来袭!编程从此不再繁琐,一键生成代码,效率提升千倍

AI攻破最后防线!连架构设计都能自动生成,中级程序员集体破防

502 10

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67039
内容
127
活动
439205
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务