|
存储 SQL 大数据
|

用实时计算释放当下企业大数据潜能

本文整理自阿里云高级产品解决方案架构师王启华(敖北)老师在 Flink Forward Asia 2023 中闭门会的分享。

883 8
来自: 实时计算 Flink  版块
|
机器学习/深度学习 PyTorch 算法框架/工具
|

数据平衡与采样:使用 DataLoader 解决类别不平衡问题

【8月更文第29天】在机器学习项目中,类别不平衡问题非常常见,特别是在二分类或多分类任务中。当数据集中某个类别的样本远少于其他类别时,模型可能会偏向于预测样本数较多的类别,导致少数类别的预测性能较差。为了解决这个问题,可以采用不同的策略来平衡数据集,包括过采样(oversampling)、欠采样(undersampling)以及合成样本生成等方法。本文将介绍如何利用 PyTorch 的 `DataLoader` 来处理类别不平衡问题,并给出具体的代码示例。

3172 2
|
机器学习/深度学习 并行计算 PyTorch
|

PyTorch与DistributedDataParallel:分布式训练入门指南

【8月更文第27天】随着深度学习模型变得越来越复杂,单一GPU已经无法满足训练大规模模型的需求。分布式训练成为了加速模型训练的关键技术之一。PyTorch 提供了多种工具来支持分布式训练,其中 DistributedDataParallel (DDP) 是一个非常受欢迎且易用的选择。本文将详细介绍如何使用 PyTorch 的 DDP 模块来进行分布式训练,并通过一个简单的示例来演示其使用方法。

2455 2
|
数据采集 Web App开发 测试技术
|

使用Selenium调试Edge浏览器的常见问题与解决方案

在互联网数据采集领域,Selenium常用于自动化网页爬取。针对使用Edge浏览器时遇到的启动远程调试失败、访问受限及代理IP设置等问题,本文提供了解决方案。通过特定命令启动Edge的远程调试模式,并利用Python脚本配合Selenium库,可实现代理IP、User-Agent的设定及Cookie管理等高级功能,有效提升爬虫稳定性和隐蔽性。遵循步骤配置后,即可顺畅执行自动化测试任务。

3261 1
|
数据采集 监控 大数据
|

不限量住宅IP代理指南2024版

住宅IP代理是一种特别的代理形式,它通过互联网服务提供商(ISP)池获取真实住宅用户的IP地址。在此背景下,住宅IP通常与特定的物理位置绑定,从而在网络上看起来像是真实用户。该服务为企业及个人执行数据密集型活动时提供了可靠的支持

1326 1
|
机器学习/深度学习 人工智能 自然语言处理
|

AI基础科普:揭开人工智能的神秘面纱

人工智能(Artificial Intelligence, AI)已经成为现代科技的热门话题,影响着我们的生活方方面面。从语音助手到自动驾驶汽车,AI正在以惊人的速度改变着世界。然而,对于许多人来说,AI仍然是一个模糊的概念。本文将通过通俗易懂的语言和丰富的图文,全面介绍AI的基础知识,帮助读者更好地理解这个激动人心的领域。

1603 0
|
缓存 JavaScript API
|

NodeJS代理配置指南:详细步骤和代码示例

**Node.js 代理配置:解决HTTP请求转发与CORS挑战** 在现代开发环境中,Node.js以其高效和灵活性深受青睐,但正确配置代理以处理跨域请求和API调用仍是复杂任务。本文提供全面指南,从基础到高级设置,教授如何在Node.js中使用代理,覆盖httpOptions、npm代理及第三方库的运用,以增强API调用灵活性。

1575 23
|
供应链 Python
|

供需匹配(Demand-Supply Matching)的详细解释与Python代码示例

供需匹配(Demand-Supply Matching)的详细解释与Python代码示例

3037 2
|
关系型数据库 Java 数据库
|

实时计算 Flink版操作报错合集之flinksql采PG数据库时报错,该如何解决

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

801 1
来自: 实时计算 Flink  版块
|
机器学习/深度学习 数据可视化 测试技术
|

统计学入门:时间序列分析基础知识详解

本文探讨了时间序列分析的核心概念,包括自协方差、自相关和平稳性。通过Python实现和图形化展示了这些概念,以增进理解。时间序列涉及观察随时间变化的数据,如心率或温度。自协方差和自相关衡量数据点之间的关系,滞后表示时间间隔。弱平稳性意味着均值、方差和协方差不随时间变化。文章介绍了自回归(AR)、移动平均(MA)、ARMA和ARIMA模型,用于描述不同类型的序列行为。统计检验如ADF和Durbin-Watson用于检测平稳性和残差自相关。ARIMA模型特别适用于非平稳数据,通过差分实现平稳化。文章还提供了代码示例和可视化来辅助学习。

954 4
|
数据采集 机器学习/深度学习 算法
|

Python实现LightGBM分类模型(LGBMClassifier算法)项目实战

Python实现LightGBM分类模型(LGBMClassifier算法)项目实战

1398 1
来自: 人工智能平台PAI  版块
|
存储 运维 关系型数据库
|

探索 Apache Paimon 在阿里智能引擎的应用场景

本文整理自Apache Yarn && Flink Contributor,阿里巴巴智能引擎事业部技术专家王伟骏(鸿历)老师在 5月16日 Streaming Lakehouse Meetup · Online 上的分享。

26410 34
来自: 实时计算 Flink  版块
|
调度 C++ 开发者
|

C++一分钟之-认识协程(coroutine)

【6月更文挑战第30天】C++20引入的协程提供了一种轻量级的控制流抽象,便于异步编程,减少了对回调和状态机的依赖。协程包括使用`co_await`、`co_return`、`co_yield`的函数,以及协程柄和awaiter来控制执行。它们适合异步IO、生成器和轻量级任务调度。常见问题包括与线程混淆、不当使用`co_await`和资源泄漏。例如,斐波那契生成器协程展示了如何生成序列。正确理解和使用协程能简化异步代码,但需注意生命周期管理。

780 4
|
人工智能 弹性计算 运维
|

操作系统智能助手OS Copilot 产品体验评测

**OS Copilot 体验摘要** - AI爱好者评价其部署简单,一键快捷,无使用障碍,适合作为智能助手。 - 初次使用者表示聊天功能最吸引人,但无法立即评出对工作帮助的程度。 - 愿意推荐给他人,且有参与开源开发及模型训练的兴趣。 **功能反馈** - 用户尝试了全部功能,特别喜欢聊天交互。 - 与通义千问等多款产品对比,OS Copilot的速度较快。 - 希望增加功能:集成云端Notebook,自动代码生成和错误修正,支持所有操作系统。 - 潜在应用:与阿里云服务如魔搭、ECS结合,打造智能开发和工作流程。

377 1
|
机器学习/深度学习 自然语言处理 数据可视化
|

文本挖掘与可视化:生成个性化词云的Python实践【7个案例】

词云是文本数据可视化的工具,显示单词频率,直观、美观,适用于快速展示文本关键信息。 - 用途包括关键词展示、数据探索、报告演示、情感分析和教育。 - 使用`wordcloud`和`matplotlib`库生成词云,`wordcloud`负责生成,`matplotlib`负责显示。 - 示例代码展示了从简单词云到基于蒙版、颜色和关键词权重的复杂词云生成。 - 案例覆盖了中文分词(使用`jieba`库)、自定义颜色和关键词权重的词云。 - 代码示例包括读取文本、分词、设置词云参数、显示和保存图像。

2522 1
|
监控 大数据 Java
|

使用Apache Flink进行大数据实时流处理

Apache Flink是开源流处理框架,擅长低延迟、高吞吐量实时数据流处理。本文深入解析Flink的核心概念、架构(包括客户端、作业管理器、任务管理器和数据源/接收器)和事件时间、窗口、状态管理等特性。通过实战代码展示Flink在词频统计中的应用,讨论其实战挑战与优化。Flink作为大数据处理的关键组件,将持续影响实时处理领域。

2562 5
|
Oracle 关系型数据库 Java
|

实时计算 Flink版操作报错之读取Oracle数据库时遇到找不到驱动,是什么原因

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

732 1
来自: 实时计算 Flink  版块
|
机器学习/深度学习 自然语言处理 搜索推荐
|

探索文本向量化的新高峰:合合信息acge_text_embedding 模型原创

文本向量化方法包括词袋模型、TF-IDF、词嵌入和预训练模型(如BERT、GPT)。词嵌入如Word2Vec、GloVe和FastText捕捉单词语义,预训练模型则保留上下文信息。C-MTEB是中文文本嵌入评估平台,测试模型在检索、相似性、分类等任务的性能。合合信息的acge_text_embedding模型在C-MTEB中表现优秀,适用于情感分析、文本生成等任务,具有高分类聚类准确性、资源效率和场景适应性。技术突破涉及数据集优化、模型训练策略和持续学习,提供Demo展示如何使用acge模型计算句子相似度。acge_text_embedding是提升文本处理效率和智能化的有力工具。

1904 2
|
分布式计算 DataWorks 关系型数据库
|

DataWorks操作报错合集之在 DataWorks 中使用了归并节点,并且归并节点的逻辑不成立,如何解决

DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

301 2
|
Go
|

Golang深入浅出之-Go语言函数基础:定义、调用与多返回值

【4月更文挑战第21天】Go语言函数是代码组织的基本单元,用于封装可重用逻辑。本文介绍了函数定义(包括基本形式、命名、参数列表和多返回值)、调用以及匿名函数与闭包。在函数定义时,注意参数命名和注释,避免参数顺序混淆。在调用时,要检查并处理多返回值中的错误。理解闭包原理,小心处理外部变量引用,以提升代码质量和可维护性。通过实践和示例,能更好地掌握Go语言函数。

525 1
|
存储 大数据 API
|

大数据隐私保护策略:加密、脱敏与访问控制实践

【4月更文挑战第9天】本文探讨了大数据隐私保护的三大策略:数据加密、数据脱敏和访问控制。数据加密通过加密技术保护静态和传输中的数据,密钥管理确保密钥安全;数据脱敏通过替换、遮蔽和泛化方法降低敏感信息的敏感度;访问控制则通过用户身份验证和权限设置限制数据访问。示例代码展示了数据库、文件系统和API访问控制的实施方式,强调了在实际应用中需结合业务场景和平台特性定制部署。

4333 0
|
数据处理 数据库 流计算
|

FlinkCDC的性能如何

FlinkCDC的性能如何

480 1
|
人工智能 算法 开发工具
|

通义千问1.5(Qwen1.5)大语言模型在PAI-QuickStart的微调与部署实践

Qwen1.5(通义千问1.5)是阿里云最近推出的开源大型语言模型系列。作为“通义千问”1.0系列的进阶版,该模型推出了多个规模,从0.5B到72B,满足不同的计算需求。此外,该系列模型还包括了Base和Chat等多个版本的开源模型,为全球的开发者社区提供了空前的便捷性。阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对Qwen1.5模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现Qwen1.5系列模型的微调和快速部署。

179413 9
来自: 人工智能平台PAI  版块
|
Windows
|

Coze开源软件Windows客户端-coze_desk

Coze开源软件Windows客户端-coze_desk

2485 0
来自: 人工智能平台PAI  版块
|
SQL API 数据处理
|

新一代实时数据集成框架 Flink CDC 3.0 —— 核心技术架构解析

本文整理自阿里云开源大数据平台吕宴全关于新一代实时数据集成框架 Flink CDC 3.0 的核心技术架构解析。

1916 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 人工智能 自然语言处理
|

四张图片道清AI大模型的发展史(1943-2023)

现在最火的莫过于GPT了,也就是大规模语言模型(LLM)。“LLM” 是 “Large Language Model”(大语言模型)的简称,通常用来指代具有巨大规模参数和复杂架构的自然语言处理模型,例如像 GPT-3(Generative Pre-trained Transformer 3)这样的模型。这些模型在处理文本和语言任务方面表现出色,但其庞大的参数量和计算需求使得它们被称为大模型。当然也有一些自动生成图片的模型,但是影响力就不如GPT这么大了。

5591 0
|
机器学习/深度学习 算法
|

【MATLAB】 多元变分模态分解MVMD信号分解算法

【MATLAB】 多元变分模态分解MVMD信号分解算法

1829 0
|
机器学习/深度学习 网络协议 Docker
|

基于docker搭建conda深度学习环境(支持GPU加速)

在Ubuntu系统,创建一个docker,然后搭建conda深度学习环境,这样可以用conda或pip安装相关的依赖库了。

4302 0
|
存储 监控 数据可视化
|

2023年19款最佳3D打印软件

3D打印软件程序是高质量打印,设计和监控的关键 - 没有软件,3D打印机只是没有方向的机器。3D 打印机软件采用各种不同的形式:用于设计 3D 模型的 3D 软件建模工具、用于切片 STL 文件以进行打印的 3D 切片器,以及用于修复模型中错误的专业软件。 为了让您更轻松,我们将每种类型的3D打印机软件分成几个部分。在每个部分中,我们都有免费的3D打印软件选项,以及高级付费选项。

2678 0
|
机器学习/深度学习 Unix Docker
|

开发专题 | 2:如何在 docker 容器内部运行 docker命令

有些场景在容器内部需要调用 `docker` 命令。为此,本文梳理2种可以在容器内部执行`docker`命令的方法。

2743 0
|
SQL 消息中间件 存储
|

尘锋信息基于 Apache Paimon 的流批一体湖仓实践

尘锋信息基于 Apache Paimon 构建流批一体湖仓

14067 1
来自: 人工智能平台PAI  版块
|
SQL 关系型数据库 MySQL
|

Flink CDC 系列 - 实现 MySQL 数据实时写入 Apache Doris

Flink CDC 结合 Doris Flink Connector 实现 MySQL 数据实时入 Apache Doris。

4879 1
来自: 实时计算 Flink  版块
|
存储 JSON 自然语言处理
|

Dynamic mapping — Elastic Stack 实战手册

Elasticsearch 本着让用户使用更方便快捷的原则,针对这个问题做了很多工作,使定义数据的方式更加抽象灵活,多个雷同的字段可使用 1 个配置完成。

1638 0
|
SQL 机器学习/深度学习 消息中间件
|

十大行业经典案例!Apache Flink 的 40 个最佳实践

如今,Apache Flink 行业应用几何?在降本增效的需求驱动下,企业如何实现数据与算力价值最大化?本文整理了 Flink 社区近一年的社区案例,并按照行业进行分类,供大家参考!

18320 1
来自: 实时计算 Flink  版块
|
JSON 自然语言处理 固态存储
|

大神都这么做,让 Kibana 搜索语法 query string 也能轻松上手

kibana 的搜索框默认选择了 query string 的搜索语法,虽然简洁却不简单,本文来帮大家如何轻松上手;

18276 1
|
2小时前
|
机器学习/深度学习 JSON 自然语言处理
|

PAI-Rec 特征工程全解析:统计特征、实时特征、序列特征与 FG 特征算子

PAI-Rec是阿里云智能推荐的特征工程解决方案,支持离线统计、实时及序列特征自动衍生,并通过Feature Generator(17种内置算子)保障离线/在线特征一致性,大幅降低开发与维护成本。

19 0
来自: 智能搜索推荐  版块
|
15天前
|
SQL 机器学习/深度学习 自然语言处理
|

为什么企业做智能问数,不能只靠宽表、预制指标和 SQL

本文剖析企业智能问数落地难的根源:非性能或模型之限,而在业务语义缺失——对象定义不清、关系模糊、口径不一。指出SQL、宽表、预制指标各有所长却难解复杂动态问题;提出“本体论+ABC方法”(Acquire对象→Build指标→Compute计算),以显式建模业务语义,提升可理解性、可维护性与长期演进能力。

129 3
|
21天前
|
XML JSON 监控
|

淘宝宝贝详情数据一键获取,item_getAPI接口讲解

taobao.item.get是淘宝开放平台核心API,通过商品ID(num_iid)一键获取结构化详情,涵盖基础信息、SKU、属性、营销及详情页内容,广泛用于反向海淘、ERP同步、比价工具与自建商城。

181 2
|
24天前
|
机器学习/深度学习 人工智能 PyTorch
|

写 PyTorch 总像在写脚本?试试 PyTorch Lightning,把模型训练变成“工程化项目”

写 PyTorch 总像在写脚本?试试 PyTorch Lightning,把模型训练变成“工程化项目”

238 14
|
27天前
|
机器学习/深度学习 人工智能 算法
|

SEP-YOLO:当频域分析遇上YOLO,透明物体实例分割迎来新突破,ISCAS 2026

本文提出SEP-YOLO框架,首创频域细节增强模块(可学习复数权重强化高频边界)、多尺度空间细化流(内容感知对齐+门控细化),并为Trans10K提供首个高质量实例标注。在Trans10K/GVD上mAP50超SOTA 3%+,兼顾精度与实时性。

177 5
|
2月前
|
安全 网络协议 网络安全
|

Socks5代理隐私保护攻略:高效、安全,一步到位

在数字时代,Socks5代理成隐私防护利器:作为会话层中介,隐藏真实IP、兼容TCP/UDP、不篡改数据,并支持认证。高效使用需选优质节点、合理配置协议、搭配加密工具防DNS泄漏,合规使用方能构筑“隐形防护盾”。

278 1
|
2月前
|
算法 数据挖掘 测试技术
|

大模型应用:向量数据库智能化索引优化:基于数据特征的最优算法自适应选择.32

本文介绍向量数据库的智能化索引优化方案:通过自动分析向量数据的维度、规模、分布与稀疏性四大特征,结合专家规则与轻量模型,动态匹配最优索引算法(如HNSW、IVF-PQ等),并经基准测试验证召回率、QPS与延迟,实现“分析—匹配—验证—部署”闭环,显著降低人工调参成本。

279 3
|
2月前
|
监控 安全 网络安全
|

8080 和 3128 端口的核心区别及使用场景

HTTP代理常用端口8080与3128各有侧重:8080多用于管理监控(如Web配置界面),易记但可能被防火墙拦截;3128为标准端口,稳定性高,主供客户端正常请求转发。端口可自定义,需据安全与性能需求合理选用。

211 9
|
3月前
|
机器学习/深度学习 算法 安全
|

大模型微调参数设置:你调的不是效果,是不确定性

本文揭示大模型微调中参数的本质:它们并非提升性能的“旋钮”,而是分配不确定性的“阀门”。learning rate 决定行为漂移半径,batch size 影响共识强度,epoch 加速偏差固化,正则项约束激进程度。参数间存在风险耦合,调参实为风险管理——目标不是最优指标,而是可控的系统行为。

212 10
|
3月前
|
安全 算法 C++
|

PPO 真正的应用场景,和你想的可能不一样

PPO并非“万能增强器”,而是精准解决模型“行为偏好错位”的工具:当模型“会但总选错”(如安全拒答生硬、风格不稳、高风险下过度自信)时,PPO通过人类偏好反馈重塑其选择倾向;若问题本质是“不会”,则PPO无效甚至有害。用对场景,事半功倍。

179 1
|
3月前
|
人工智能 JSON 物联网
|

大模型微调完全指南:原理、实践与平台选择,让AI真正为你所用

微调是让通用大模型成为垂直领域“专家”的关键路径:通过小规模、高质量数据定向优化模型参数,实现专业适配。相比提示词工程的临时性,微调能内化知识、提升准确性与风格一致性。LoRA等高效微调技术大幅降低门槛,百条数据+单卡即可完成,兼顾效果与成本。(239字)

347 6
|
3月前
|
存储 JSON 自然语言处理
|

十一年实战沉淀:淘宝商品评论数据深度解析与落地技巧

深耕淘宝评论分析11年,亲历数据结构迭代与解析挑战。本文详解评论数据核心字段、解析难点及破局技巧,分享实战验证的标准化流程,涵盖字符处理、动态规则、高效存储等关键环节,助力精准情感分析与用户洞察。

408 1
|
3月前
|
安全 网络安全 数据安全/隐私保护
|

用好代理 IP:加密付费拒绝免费陷阱

代理IP兼具隐私保护与安全风险,合规使用可防追踪、保障跨境业务,但非正规服务易致信息泄露、账号风控,甚至被用于违法活动。用户应选择加密付费代理,避开免费陷阱,遵守法规,强化安全防护,让技术真正服务于合法需求。

254 4
|
3月前
|
消息中间件 分布式计算 监控
|

数据一边跑,隐私不能裸奔:聊聊流处理里的差分隐私怎么玩

数据一边跑,隐私不能裸奔:聊聊流处理里的差分隐私怎么玩

176 6
|
3月前
|
人工智能 缓存 算法
|

【AI大模型面试宝典九】- 推理部署篇

【AI大模型面试宝典】聚焦推理加速核心技术:KV-Cache优化、连续批处理、投机解码、模型并行等,结合vLLM实战与面试高频题解析,帮你系统掌握得分要点,高效斩获offer!点赞关注,持续更新中~

325 0
来自: 人工智能平台PAI  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

4
今日
69318
内容
128
活动
439805
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务