|
SQL XML JSON
|

Hive函数全解——思维导图 + 七种函数类型

Hive函数全解——思维导图 + 七种函数类型

527 2
|
算法 Python
|

LightGBM高级教程:自动调参与超参数优化

LightGBM高级教程:自动调参与超参数优化【2月更文挑战第5天】

1888 2
|
存储 人工智能 自然语言处理
|

选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试

OpenAI最近发布了他们的新一代嵌入模型*embedding v3*,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddings -3-large。

1037 0
|
消息中间件 SQL JSON
|

Flink报错问题之报类型转换错误如何解决

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。

477 1
来自: 实时计算 Flink  版块
|
关系型数据库 网络安全 对象存储
|

Flink报错问题之Flink报错java.io.EOFException: SSL peer shut down incorrectly如何解决

Flink报错通常是指在使用Apache Flink进行实时数据处理时遇到的错误和异常情况;本合集致力于收集Flink运行中的报错信息和解决策略,以便开发者及时排查和修复问题,优化Flink作业的稳定性。

1525 1
来自: 实时计算 Flink  版块
|
运维 数据可视化 测试技术
|

Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试

2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月,已经有了一个用于时间序列预测的开源基础模型:laglllama。

641 2
|
数据采集 机器学习/深度学习 Python
|

掌握XGBoost:特征工程与数据预处理

掌握XGBoost:特征工程与数据预处理

1023 3
|
机器学习/深度学习 算法 异构计算
|

使用mergekit 合并大型语言模型

模型合并是近年来兴起的一种新技术。它允许将多个模型合并成一个模型。这样做不仅可以保持质量,还可以获得额外的好处。

762 1
|
SQL 关系型数据库 数据库
|

Flink CDC产品常见问题之SQLserver cdc 开启 cdc表没有记录如何解决

Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。

1243 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 SQL 算法
|

如何在因果推断中更好地利用数据?

本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断,一个是利用历史对照数据来显式缓解混淆偏差,另一个是多源数据融合下的因果推断。

563 1
|
存储 消息中间件 搜索推荐
|

【前沿技术】 阿里开源搜索引擎Havenask的消息系统

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的消息系统--Swift,它是一个设计用于处理大规模的数据流和实时消息传递的高性能、可靠的消息系统。

61190 3
来自: 智能搜索推荐  版块
|
机器学习/深度学习 Python
|

NumPy 中级教程——随机数生成

NumPy 中级教程——随机数生成

358 1
|
机器学习/深度学习 安全
|

一文读懂分类模型评估指标

模型评估是深度学习和机器学习中非常重要的一部分,用于衡量模型的性能和效果。本文将逐步分解混淆矩阵,准确性,精度,召回率和F1分数。

993 1
|
开发工具 git Windows
|

IDEA常用插件之私有注解Private Notes

IDEA常用插件之私有注解Private Notes

606 0

IDEA常用插件之注解插件

IDEA常用插件之注解插件

1040 0
|
人工智能 前端开发 物联网
|

使用 PAI X EasyPhoto 生成 AI 写真

AIGC生成专属双旦美图,节日氛围拉满基于 EasyPhoto X 人工智能平台 PAI,完成圣诞/新年主题个人AIGC写真生成。

80764 7
来自: 人工智能平台PAI  版块
|
并行计算 PyTorch 算法框架/工具
|

NumPy 高级教程——GPU 加速

NumPy 高级教程——GPU 加速【1月更文挑战第4篇】

1377 1
|
算法 计算机视觉
|

【MATLAB】 ICEEMDAN信号分解+FFT傅里叶频谱变换组合算法

【MATLAB】 ICEEMDAN信号分解+FFT傅里叶频谱变换组合算法

1677 0
|
PyTorch 算法框架/工具 计算机视觉
|

目标检测模型NanoDet(超轻量,速度很快)介绍和PyTorch版本实践

YOLO、SSD、Fast R-CNN等模型在目标检测方面速度较快和精度较高,但是这些模型比较大,不太适合移植到移动端或嵌入式设备;轻量级模型 NanoDet-m,对单阶段检测模型三大模块(Head、Neck、Backbone)进行轻量化,目标加检测速度很快;模型文件大小仅几兆(小于4M)。

862 0
|
传感器 数据采集 编解码
|

3D目标检测数据集 DAIR-V2X-V

本文分享国内场景3D目标检测,公开数据集 DAIR-V2X-V(也称为DAIR-V2X车端)。DAIR-V2X车端3D检测数据集是一个大规模车端多模态数据集,包括: 22325帧 图像数据 22325帧 点云数据 2D&3D标注 基于该数据集,可以进行车端3D目标检测任务研究,例如单目3D检测、点云3D检测和多模态3D检测。

1140 0
|
存储 人工智能 调度
|

GPT-4 Turbo 发布 | 大模型训练的新时代:超算互联网的调度与调优

算力对训练模型的重要性日益凸显。随着大模型训练的流行,全球显卡和算力正在快速增长。算力后周期市场也在迅速崛起。其中“后”更多是指后服务市场,涵盖从显卡服务器到货IDC之后,形成稳定算力到输出稳定商业推理结果全过程。该过程主要涉及云化、调优、调度、部署、落地和数据管理等环节。

1213 0
|
机器学习/深度学习 算法 决策智能
|

凸优化介绍

凸优化介绍。更多文章请关注我的微信公众号:Python学习杂记

651 0
|
虚拟化 数据中心 异构计算
|

GPU 虚拟化技术MIG简介和安装使用教程

使用多实例GPU (MIG/Multi-Instance GPU)可以将强大的显卡分成更小的部分,每个部分都有自己的工作,这样单张显卡可以同时运行不同的任务。本文将对其进行简单介绍并且提供安装和使用的示例。

1246 0
|
机器学习/深度学习 人工智能 算法
|

智能语音技术的相关技术(一)

智能语音技术的相关技术(一)

517 0
|
数据采集 Python
|

python 爬虫 佛山区域,爬取餐厅的商户联系人公开号码,实例脚本

python 爬虫 佛山区域,爬取餐厅的商户联系人公开号码,实例脚本

387 0

变分法入门介绍

读完这篇博文你可以了解变分的基本概念,以及使用变分法求解最简泛函的极值。本文没有严密的数学证明,只是感性地对变分法做一个初步了解。

580 0
|
机器学习/深度学习 人工智能 Java
|

五种重要的 AI 编程语言

编码是任何构建 AI 产品的人必备技能。它使您能够将机器学习想法变为现实。学习编码既有趣又充满力量,但也需要时间和精力。你想做的最后一件事就是开始学习一门语言,只是在几周或几个月后才意识到你想要的工作实际上需要一门不同的语言。

1698 0
|
机器学习/深度学习 人工智能 监控
|

人工智能在金融风险管理中的应用

人工智能在金融风险管理中的应用已经取得了显著的进展,并在提高风险管理效率和准确性方面发挥了重要作用。通过信用评估、欺诈检测、投资组合管理等应用,人工智能为金融行业带来了新的机遇和挑战。然而,我们也要认识到人工智能在风险管理中可能面临的隐私、解释性和偏差等问题。未来,随着技术的发展,人工智能将在金融领域持续发挥重要作用,为金融行业创造更加安全和稳健的环境。

1488 1
|
机器学习/深度学习 人工智能 搜索推荐
|

智能代理:改变人机交互的方式

智能代理作为一种新的人机交互方式,正在改变着人们与计算机系统之间的互动方式。从个人助手、聊天机器人到游戏智能,智能代理在多个领域展示了其强大的应用潜力。然而,智能代理也面临着语义理解、个性化定制和隐私等挑战。随着人工智能技术的不断发展,智能代理有望成为未来人机交互的重要方式之一。

1013 1
|
机器学习/深度学习 自然语言处理 算法
|

【ACL 2023】面向轻量化文图检索的Dual-Encoder模型蒸馏算法ConaCLIP

ConaCLIP针对轻量化的图文检索任务进行设计,是一种通过全连接的知识交互图学习方式将知识从dual-encoder大模型中蒸馏到dual-encoder小模型的算法。

1013 0
来自: 人工智能平台PAI  版块
|
域名解析 存储 安全
|

ES证书过期替换方案

在生产环境中,Elasticsearch 集群的证书可能会因为过期而导致集群无法正常工作。为了避免这种情况的发生,我们需要及时更新证书,并保证更新证书的过程中保持 Elasticsearch 集群的高可用性和数据安全性。

2820 1
|
机器学习/深度学习 数据挖掘 数据处理
|

海量数据实时分析引擎 Apache Flink

当系统出现大量或者重大的错误却不被人感知,将会对业务产生影响,从而导致资产损失。当竞争对手实施了新战术,却无法及时感知,跟不上竞争对手的节奏,总是追着对方尾巴走。当要做决策的时候,海量的业务数据增长却无法实时看到聚合结果,决策总是凭借过往经验或者过时的数据分析之上。

1337 1
来自: 实时计算 Flink  版块
|
存储 人工智能 并行计算
|

喜马拉雅基于DeepRec构建AI平台实践

快速落地大模型训练和推理能力,带来业务指标和后续算法优化空间的显著提升。喜马拉雅AI云,是面向公司人员提供的一套从数据、特征、模型到服务的全流程一站式算法工具平台。

986 0
来自: 人工智能平台PAI  版块
|
存储 SQL 分布式计算
|

Flink Table Store 独立孵化启动 ,Apache Paimon 诞生

2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。

15210 0
来自: 人工智能平台PAI  版块
|
存储 缓存 监控
|

电商 SaaS 全渠道实时数据中台最佳实践

聚水潭数据专家张成玉,聚水潭高级数据工程师应圣楚,在 FFA 2022 行业案例专场的分享。

1235 1
来自: 实时计算 Flink  版块
|
机器学习/深度学习 人工智能 分布式计算
|

机器学习平台PAI简测:PAI提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务

机器学习平台PAI(Platform of Artificial Intelligence)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

2953 0
来自: 人工智能平台PAI  版块
|
存储 SQL 弹性计算
|

实时数仓Hologres新一代弹性计算组实例技术揭秘

实时数仓Hologres新一代弹性计算组实例技术揭秘

2895 57
来自: 实时数仓 Hologres  版块
|
搜索推荐 算法 数据处理
|

智能推荐AIRec上线“流量调控”功能,助力电商平台甩货

智能推荐AIRec最新上线“流量调控”功能,支持人工干预推荐系统流量的分发,针对商品滞销、库存积压等业务问题,可通过流量调控解决甩货诉求,助力电商快速实现“库存清零”。

1596 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 编解码 算法
|

使用EasyCV Mask2Former轻松实现图像分割

EasyCV可以轻松预测图像的分割谱以及训练定制化的分割模型。本文主要介绍如何使用EasyCV实现实例分割、全景分割和语义分割,及相关算法思想。

1045 0
来自: 人工智能平台PAI  版块
|
存储 分布式计算 资源调度
|

Spark on k8s 在阿里云 EMR 的优化实践

本文整理自阿里云技术专家范佚伦在7月17日阿里云数据湖技术专场交流会的分享。

2041 0
|
自然语言处理 算法 数据挖掘
|

【DSW Gallery】在DSW中如何玩转Hugging Face

Hugging Face是一个流行的预训练模型库,包括NLP、CV、Audio等模型,在国内外广为流传。本文介绍如何在DSW中使用Hugging Face Python SDK完成基本的任务,包括使用pipeline对象做预测,以及用Model对象实现FineTune。特别的,我们选取中英文翻译预训练模型来演示,让大家有更加直观的印象。

2263 0
来自: 人工智能平台PAI  版块
|
数据采集 人工智能 编解码
|

MAE 自监督算法介绍和基于 EasyCV 的复现

自监督学习(Self-Supervised Learning)能利用大量无标注的数据进行表征学习,然后在特定下游任务上对参数进行微调。通过这样的方式,能够在较少有标注数据上取得优于有监督学习方法的精度。近年来,自监督学习受到了越来越多的关注,如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在CV领域涌现了如SwAV、MOCO、DINO、MoBY等一系列工作。MAE是kaiming继MOCO之后在自监督学习领域的又一力作。首先,本文会对MAE进行解读,然后基于EasyCV库的精度复现过程及其中遇到的一些问题作出解答。

1736 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 存储 弹性计算
|

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

介绍如何使用Databricks和MLflow搭建机器学习生命周期管理平台,实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。

1716 0
|
关系型数据库 MySQL 数据库
|

Flink CDC 2.2 正式发布,新增四种数据源,支持动态加表,提供增量快照框架

Flink CDC 2.2 正式发布,文末有一则消息或许你会感兴趣~

9638 0
来自: 实时计算 Flink  版块
|
消息中间件 资源调度 Kubernetes
|

深入解析 Flink 细粒度资源管理

阿里巴巴高级开发工程师郭旸泽 (天凌) 在 FFA 2021 的演讲

3885 3
来自: 实时计算 Flink  版块
|
存储 Kubernetes 容灾
|

技术揭秘:从双11看实时数仓Hologres高可用设计与实践

本文将会从阿里巴巴双11场景出发,分析实时数仓面临的高可用挑战以及针对性设计。

4999 3
来自: 实时数仓 Hologres  版块
|
API 索引
|

es实战-分片分配失败解决方案

分片无法分配情况的一些解决办法

2926 0
|
存储 JSON 自然语言处理
|

Dynamic mapping — Elastic Stack 实战手册

Elasticsearch 本着让用户使用更方便快捷的原则,针对这个问题做了很多工作,使定义数据的方式更加抽象灵活,多个雷同的字段可使用 1 个配置完成。

1361 0
|
SQL 消息中间件 缓存
|

Flink SQL 实战:双流 join 场景应用

大家都知道在使用 SQL 进行数据分析的过程中,join 是经常要使用的操作。在离线场景中,join 的数据集是有边界的,可以缓存数据有边界的数据集进行查询,有Nested Loop/Hash Join/Sort Merge Join 等多表 join;而在实时场景中,join 两侧的数据都是无边界的数据流,所以缓存数据集对长时间 job 来说,存储和查询压力很大。如何从容应对各种流式场景?

10989 2
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67744
内容
128
活动
439512
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务