|
10月前
|
JSON API 数据格式
|

1688 满足跨境业务需求而提供的一组 API 接口

1688跨境属性接口系列是1688开放平台为满足跨境业务需求提供的API接口,核心接口1688.item_get用于查询商品的跨境属性,帮助开发者和商家获取关键信息,更好地开展跨境贸易。公共参数包括key、secret等,支持多种返回格式,默认json。Python示例代码展示了如何调用该接口获取海关编码、税率等信息。使用步骤包括注册、构建请求、发送请求和处理响应。

419 0
|
11月前
|
消息中间件 JSON 数据库
|

探索Flink动态CEP:杭州银行的实战案例

本文由杭州银行大数据工程师唐占峰、欧阳武林撰写,介绍Flink动态CEP的定义、应用场景、技术实现及使用方式。Flink动态CEP是基于Flink的复杂事件处理库,支持在不重启服务的情况下动态更新规则,适应快速变化的业务需求。文章详细阐述了其在反洗钱、反欺诈和实时营销等金融领域的应用,并展示了某金融机构的实际应用案例。通过动态CEP,用户可以实时调整规则,提高系统的灵活性和响应速度,降低维护成本。文中还提供了具体的代码示例和技术细节,帮助读者理解和使用Flink动态CEP。

1213 2
来自: 实时计算 Flink  版块
|
12月前
|
人工智能 JSON 算法
|

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。

1445 30
来自: 人工智能平台PAI  版块
|
人工智能
|

掌握写歌词的技巧和方法,轻松踏上创作之路,妙笔生词AI智能写歌词软件

写歌词是充满魅力与挑战的创作活动。掌握灵感捕捉、主题明确、结构合理和语言生动等关键技巧至关重要。《妙笔生词智能写歌词软件》提供 AI 智能写词、押韵优化、歌词分析等功能,助你轻松创作出优秀的歌词作品,实现音乐梦想。

672 0
|
机器学习/深度学习 存储 算法
|

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

在本文中,我们将探讨一种方法来解决这个问题,称为Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘,使神经网络在获得新技能的同时保留先前学习任务的知识。

1008 1
|
机器学习/深度学习 数据采集 算法
|

Python实现支持向量机SVM回归模型(SVR算法)项目实战

Python实现支持向量机SVM回归模型(SVR算法)项目实战

963 4
来自: 人工智能平台PAI  版块
|
SQL 分布式计算 Java
|

Spark 为什么比 Hive 快

Spark与Hive在数据处理上有显著区别。Spark以其内存计算和线程级并行提供更快的速度,但稳定性受内存限制。相比之下,Hive虽较慢,因使用MapReduce,其稳定性更高,对内存需求较小。在Shuffle方式上,Spark的内存 Shuffle 比Hive的磁盘 Shuffle 更高效。综上,Spark在处理速度和Shuffle上占优,Hive则在稳定性和资源管理上更胜一筹。

872 0
|
Cloud Native Apache 流计算
|

福利「Flink Forward Asia 2023 」PPT 阅读合集!

福利「Flink Forward Asia 2023 」PPT 阅读合集!

3783 1
来自: 实时计算 Flink  版块
|
Python
|

相关系数 r 和决定系数 R2 的那些事

有人说相关系数(correlation coefficient, r)和决定系数(coefficient of determination, R2,读作R-Squared)都是评价两个变量相关性的指标,且相关系数的平方就是决定系数?这种说法对不对呢?请听下文分解!

2415 0
|
机器学习/深度学习 人工智能 编解码
|

阿里 DSW 试用心得——用 PAI-DSW 修复老照片

通过试用阿里 DSW 了解了命令行和 SD WebUI 两种方式进行老照片修复的相关知识

1295 1
来自: 人工智能平台PAI  版块
|
人工智能 算法 Ubuntu
|

【朱颜不曾改,芳菲万户香。AIGC人物图片创作---InsCode Stable Diffusion 美图活动一期】

【朱颜不曾改,芳菲万户香。AIGC人物图片创作---InsCode Stable Diffusion 美图活动一期】

952 2
|
机器学习/深度学习 存储 人工智能
|

模型推理加速系列 | 03:Pytorch模型量化实践并以ResNet18模型量化为例(附代码)

本文主要简要介绍Pytorch模型量化相关,并以ResNet18模型为例进行量化实践。

3369 0
|
存储 分布式计算 搜索推荐
|

OpenSearch图搜图、文搜图向量检索最佳实践

本文介绍如何通过OpenSearch【向量检索版】帮助企业在没有向量数据的情况下快速搭建图像搜索服务,解决图片向量化、向量搜索等检索难题,实现以图搜图、以文搜图等多种图像检索能力。并通过数据压缩功能,降低存储空间,降低业务成本,为企业提供效果、性能双保障。

3683 3
来自: 智能搜索推荐  版块
|
机器学习/深度学习 存储 消息中间件
|

FeatHub:流批一体的实时特征工程平台

本次分享中,将介绍 FeatHub,一个由阿里云自研并开源的实时特征平台。我们将介绍 FeatHub 的架构设计,已经完成的工作,以及近期的发展计划。

5104 0
来自: 实时计算 Flink  版块
|
SQL 存储 大数据
|

10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新

10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新

6559 2
来自: 实时数仓 Hologres  版块
|
机器学习/深度学习 存储 消息中间件
|

推荐系统基本概念和架构

阿里巴巴技术专家傲海为大家带来推荐系统基本概念和架构的介绍。内容包括什么是推荐系统和企业级推荐系统架构两部分。

7466 0
来自: 人工智能平台PAI  版块
|
流计算 NoSQL Redis
|

基于Flink和规则引擎的实时风控解决方案

对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。 这要求风控系统一定要有实时性。

13747 2
来自: 实时计算 Flink  版块
|
关系型数据库 Java Apache
|

Apache Flink 漫谈系列(09) - JOIN 算子

聊什么 在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的,那么再深思一下传统数据库为啥需要有JOIN算子呢?在实现原理上面Apache Flink内部实现和传统.

12090 0
来自: 实时计算 Flink  版块
|
1天前
|
人工智能 测试技术 Python
|

AI也有“智商”吗?我们到底该用什么标准来评估它?

AI也有“智商”吗?我们到底该用什么标准来评估它?

33 8
|
2天前
|
人工智能 弹性计算 运维
|

EMR AI助手开启公测:用AI重塑大数据运维,更简单、更智能

EMR AI 助手开启公测,通过合理利用 EMR AI 助手的各项功能,可以快速查询资源信息、唤起相关操作、诊断组件异常、获取技术支持等,能帮您提升运维效率和操作体验。

33 0
|
27天前
|
人工智能 Cloud Native 搜索推荐
|

【2025云栖大会】阿里云AI搜索年度发布:开启Agent时代,重构搜索新范式

2025云栖大会阿里云AI搜索专场上,发布了年度AI搜索技术与产品升级成果,推出Agentic Search架构创新与云原生引擎技术突破,实现从“信息匹配”到“智能问题解决”的跨越,支持多模态检索、百亿向量处理,助力企业降本增效,推动搜索迈向主动服务新时代。

223 22
|
1月前
|
数据采集 运维 监控
|

爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南

本文系统解析爬虫与自动化核心技术,涵盖HTTP请求、数据解析、分布式架构及反爬策略,结合Scrapy、Selenium等框架实战,助力构建高效、稳定、合规的数据采集系统。

347 0
|
1月前
|
JavaScript 前端开发 安全
|

Vue 3 + TypeScript 现代前端开发最佳实践(2025版指南)

每日激励:“如果没有天赋,那就一直重复”。我是蒋星熠Jaxonic,一名执着于代码宇宙的星际旅人。用Vue 3与TypeScript构建高效、可维护的前端系统,分享Composition API、状态管理、性能优化等实战经验,助力技术进阶。

274 1
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
|

香烟品牌识别和规格识别设计思路

基于YOLOv8实现香烟品牌与规格(条装/单盒装)识别,采用“品牌+规格”组合为60类的复合类别方案,结合充足标注数据(每类300-500张)、数据增强与反例优化,进行端到端联合训练,提升模型在复杂场景下的检测与分类精度。

427 6
|
2月前
|
机器学习/深度学习 负载均衡 网络架构
|

Mixture of Experts架构的简要解析

Mixture of Experts(MoE)架构起源于1991年,其核心思想是通过多个专门化的“专家”网络处理输入的不同部分,并由门控网络动态组合输出。这种架构实现了稀疏激活,仅激活部分专家,从而在模型规模与计算成本之间取得平衡。MoE的关键在于门控机制的设计,如线性门控、噪声Top-K门控等,确保模型能根据输入特征自适应选择专家。

286 8
|
4月前
|
数据采集 人工智能 大数据
|

10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案

阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。

354 0
|
4月前
|
SQL 人工智能 数据可视化
|

开源AI BI可视化工具-WrenAI

Wren AI 是一款开源的 SQL AI 代理,支持数据、产品及业务团队通过聊天、直观界面和与 Excel、Google Sheets 的集成获取洞察。它结合大型语言模型(LLM)与检索增强生成(RAG)技术,助力用户高效处理复杂数据分析任务。

829 5
|
5月前
|
SQL 存储 消息中间件
|

Trino权威指南

Trino(原Presto SQL)是一款开源分布式SQL查询引擎,专为大数据联邦查询设计。它支持秒级查询PB级数据,可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用,适合交互式分析与BI场景。Trino采用无共享架构,通过列式内存格式和动态代码生成优化性能,并提供丰富的连接器实现计算存储分离,最大化下推优化以提升效率。

897 3
|
5月前
|
机器学习/深度学习 数据可视化 算法
|

数据分布不明确?5个方法识别数据分布,快速找到数据的真实规律

本文深入探讨了数据科学中分布识别的重要性及其实践方法。作为数据分析的基础环节,分布识别影响后续模型性能与分析可靠性。文章从直方图的可视化入手,介绍如何通过Python代码实现分布特征的初步观察,并系统化地讲解参数估计、统计检验及distfit库的应用。同时,针对离散数据、非参数方法和Bootstrap验证等专题展开讨论,强调业务逻辑与统计结果结合的重要性。最后指出,正确识别分布有助于异常检测、数据生成及预测分析等领域,为决策提供可靠依据。作者倡导在实践中平衡模型复杂度与实用性,重视对数据本质的理解。

401 3
|
6月前
|
数据采集 Web App开发 JavaScript
|

Python爬虫如何获取JavaScript动态渲染后的网页内容?

Python爬虫如何获取JavaScript动态渲染后的网页内容?

562 6
|
8月前
|
人工智能 自然语言处理 Cloud Native
|

快速使用Milvus MCP Server,0代码搭建智能搜索Agent

阿里云向量检索服务Milvus版是一款云原生向量检索引擎。目前Milvus提供了milvus-mcp-server来对接各种AI Agent,支持包括:更新向量数据、创建索引、混合检索(向量+全文)、多向量列检索等多种能力。本文介绍了如何使用Milvus-mcp-server来搭建智能搜索Agent,并分别使用Cline和Cursor进行部署展示。

997 6
|
8月前
|
数据采集 存储 SQL
|

从零开始搭建大数据平台:屌丝逆袭指南

从零开始搭建大数据平台:屌丝逆袭指南

789 1
|
9月前
|
机器学习/深度学习 自然语言处理 算法
|

Transformer 学习笔记 | Decoder

本文记录了笔者学习Transformer的过程,重点介绍了填充(padding)和掩码(masking)机制。掩码确保解码器只依赖于之前的位置,避免信息泄露,保持因果关系及训练与推理的一致性。通过线性层和softmax函数生成输出概率,并使用梯度下降和反向传播进行训练。评估指标包括BLEU、ROUGE、METEOR和困惑度等。欢迎指正。

765 2
|
9月前
|
存储 机器学习/深度学习 数据挖掘
|

数据湖与数据仓库:初学者的指南

数据湖与数据仓库:初学者的指南

605 4
|
9月前
|
安全 区块链 数据安全/隐私保护
|

区块链技术在跨境支付中的应用:打破传统,畅行全球支付新时代

区块链技术在跨境支付中的应用:打破传统,畅行全球支付新时代

1248 12
|
10月前
|
存储 搜索推荐 大数据
|

数据大爆炸:解析大数据的起源及其对未来的启示

数据大爆炸:解析大数据的起源及其对未来的启示

499 15
|
10月前
|
存储 人工智能 安全
|

面向法律场景的大模型 RAG 检索增强解决方案

检索增强生成模型结合了信息检索与生成式人工智能的优点,从而在特定场景下提供更为精准和相关的答案。以人工智能平台 PAI 为例,为您介绍在云上使用一站式白盒化大模型应用开发平台 PAI-LangStudio 构建面向法律场景的大模型 RAG 检索增强解决方案,应用构建更简便,开发环境更直观。此外,PAI 平台同样发布了面向医疗、金融和教育领域的 RAG 解决方案。

1691 10
来自: 人工智能平台PAI  版块
|
编译器 API 定位技术
|

API和SDK的区别

API 和 SDK 的区别在于:API 是一组定义了软件组件之间交互规范的接口,用于实现不同软件组件之间的通信;而 SDK 是一个全面的工具集合,包含 API、编译器、调试器、文档等,用于特定平台的应用程序开发。SDK 范围更广,内容更丰富,更具体和具象化,适合复杂的开发需求;API 则更加抽象,侧重于功能的定义和调用方式。

1005 2
|
数据采集 自然语言处理 算法
|

优化与扩展:高级GraphRAG模型调优策略及跨领域应用案例分析

【10月更文挑战第11天】

1002 1
|
数据采集 文字识别 数据安全/隐私保护
|

轻松抓取:用 requests 库处理企业招聘信息中的联系方式

本文详细介绍如何利用Python的`requests`库结合代理IP技术,突破Boss直聘的登录验证与反爬虫机制,抓取企业招聘信息中的联系方式。文章首先阐述了Boss直聘数据抓取面临的挑战,随后介绍了代理IP轮换、登录会话保持及请求头伪装等关键技术。通过一个完整的示例代码,展示了从配置代理、模拟登录到解析HTML获取联系方式的具体步骤。此方法不仅适用于Boss直聘,还可扩展至其他需登录权限的网站抓取任务。

1173 0
|
消息中间件 Prometheus 监控
|

RabbitMQ性能调优指南

【8月更文第28天】RabbitMQ 是一个非常流行的消息队列中间件,它支持多种消息协议,并且可以轻松集成到各种系统中。随着应用的扩展,确保 RabbitMQ 在高负载环境下能够高效稳定地运行变得至关重要。本文将深入探讨如何通过配置、监控以及最佳实践来优化 RabbitMQ 的性能。

2123 1
|
机器学习/深度学习 PyTorch TensorFlow
|

ONNX 与量化:提高模型效率

【8月更文第27天】随着人工智能技术的广泛应用,模型部署变得越来越重要。为了在资源受限的设备上运行复杂的机器学习模型,模型量化技术成为了一种有效的手段。Open Neural Network Exchange (ONNX) 作为一种开放格式,支持在不同框架之间交换训练好的模型,同时也支持模型量化。本文将探讨如何结合 ONNX 和模型量化技术来提高模型的效率,减少模型大小并加快推理速度。

2213 2
|
数据采集 监控 大数据
|

不限量住宅IP代理指南2024版

住宅IP代理是一种特别的代理形式,它通过互联网服务提供商(ISP)池获取真实住宅用户的IP地址。在此背景下,住宅IP通常与特定的物理位置绑定,从而在网络上看起来像是真实用户。该服务为企业及个人执行数据密集型活动时提供了可靠的支持

827 1
|
机器学习/深度学习 数据采集 运维
|

Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

1308 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 人工智能 安全
|

「随笔」开源大模型与闭源大模型,你更看好哪一方?

开源与闭源AI模型各有利弊。开源促进创新、透明度和学习,但可能有安全风险和质量不一;闭源则保护IP、提供定制服务,但可能限制创新和透明度。混合策略,如基础开源加高级服务闭源,成为平衡点。选择取决于创新、产权、透明度和商业目标。

693 0
|
机器学习/深度学习 自然语言处理 数据可视化
|

文本挖掘与可视化:生成个性化词云的Python实践【7个案例】

词云是文本数据可视化的工具,显示单词频率,直观、美观,适用于快速展示文本关键信息。 - 用途包括关键词展示、数据探索、报告演示、情感分析和教育。 - 使用`wordcloud`和`matplotlib`库生成词云,`wordcloud`负责生成,`matplotlib`负责显示。 - 示例代码展示了从简单词云到基于蒙版、颜色和关键词权重的复杂词云生成。 - 案例覆盖了中文分词(使用`jieba`库)、自定义颜色和关键词权重的词云。 - 代码示例包括读取文本、分词、设置词云参数、显示和保存图像。

1772 1
|
机器学习/深度学习 存储 编解码
|

Tiny Time Mixers (TTM)轻量级时间序列基础模型:无需注意力机制,并且在零样本预测方面表现出色

IBM研究人员提出Tiny Time Mixers (TTM),这是一个轻量级、基于mlp的TS模型,参数量小于1M,在M4数据集上表现优于大型SOTA模型,且具备优秀的零样本预测能力。TTM无注意力机制,利用TSMixer进行多级建模,自适应补丁和频率前缀调整等创新特性提升性能。预训练和微调阶段各有独特设计,预训练仅用单变量序列,微调时学习多变量依赖。TTM在某些任务中证明了小模型的优越性,且模型已开源。

737 1
|
SQL DataWorks 监控
|

DataWorks产品使用合集之如何创建一个函数并使用JAR包里面的方法

DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

317 3
|
SQL HIVE
|

【Hive SQL】字符串操作函数你真的会用吗?

本文介绍了SQL中判断字符串是否包含子串的几种方法。`IN`函数判断元素是否完全等于给定元素组中的某项,而非包含关系。`INSTR`和`LOCATE`函数返回子串在字符串中首次出现的位置,用于检测是否存在子串。`SUBSTR`则用于提取字符串的子串。`LIKE`用于模糊匹配,常与通配符配合使用。注意`IN`并非用于判断子串包含。

1214 3
|
数据采集 Web App开发 JavaScript
|

爬虫技术升级:如何结合DrissionPage和Auth代理插件实现数据采集

本文介绍了在Python中使用DrissionPage库和Auth代理Chrome插件抓取163新闻网站数据的方法。针对许多爬虫框架不支持代理认证的问题,文章提出了通过代码生成包含认证信息的Chrome插件来配置代理。示例代码展示了如何创建插件并利用DrissionPage进行网页自动化,成功访问需要代理的网站并打印页面标题。该方法有效解决了代理认证难题,提高了爬虫的效率和安全性,适用于各种需要代理认证的网页数据采集。

1077 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67388
内容
127
活动
439367
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 日志服务
  • 检索分析服务 Elasticsearch版