大数据与机器学习-博文-第49页-阿里云开发者社区

花开富贵111

|

5月前

|

消息中间件 Oracle 关系型数据库

|

博文

实时计算 Flink版操作报错合集之连接RabbitMQ时遇到Could not find any factory for identifier 'rabbitmq' that implements 'org.apache.flink.table.factories.DynamicTableFactory'错误，该怎么办

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

540 0 0

来自：实时计算 Flink 版块

兀码

|

5月前

|

分布式计算大数据数据处理

|

博文

经典大数据处理框架与通用架构对比

【6月更文挑战第15天】本文介绍Apache Beam是谷歌开源的统一数据处理框架，提供可移植API，支持批处理和流处理。与其他架构相比，Lambda和Kappa分别专注于实时和流处理，而Beam在两者之间提供平衡，具备高实时性和数据一致性，但复杂性较高。选择架构应基于业务需求和场景。

397 3 3

兀码

|

5月前

|

分布式计算大数据数据处理

|

博文

【6月更文挑战第15天】本文介绍企业如何在数据洪流中保持竞争力需借助可扩展平台和数据策略。数据管道整合多元数据源，便于分析和流转。Kappa架构专注于实时处理（如通过Kafka、Spark Streaming），适合实时响应场景；Lambda架构结合批处理与实时处理（如Spark、Hadoop与Flink），平衡实时性和批处理，易于开发和维护。Apache Beam提供统一模型，适用于流处理和批处理，提升代码复用和效率。这两种架构满足现代应用对数据一致、性能和灵活性的需求。

410 3 3

Deephub

|

5月前

|

存储人工智能安全

|

博文

使用‘消除’技术绕过LLM的安全机制，不用训练就可以创建自己的nsfw模型

本文探讨了一种名为“abliteration”的技术，该技术能够在不重新训练大型语言模型（LLM）的情况下移除其内置的安全审查机制。通常，LLM在接收到潜在有害输入时会拒绝执行，但这一安全特性牺牲了模型的灵活性。通过对模型残差流的分析，研究人员发现可以识别并消除导致拒绝行为的特定方向，从而允许模型响应所有类型的提示。

429 1 1

长梦

|

5月前

|

Java 开发者

|

博文

Java一分钟之-Groovy与Java混合编程

【6月更文挑战第13天】本文探讨了Groovy与Java的混合编程，强调了Groovy在JVM上的动态特性及其与Java的高兼容性。文章指出，尽管二者可无缝共存，但仍存在类型不匹配、闭包与匿名内部类差异及语法糖导致的问题。为避免这些问题，建议在Groovy中显式指定类型、理解闭包与匿名类的区别，并制定统一编码规范。通过实例展示了Java调用Groovy脚本和Groovy调用Java类的方法，强调理解两种语言特性的重要性，以实现更高效、维护性更强的系统。

182 3 3

郑小健

|

5月前

|

缓存监控 NoSQL

|

博文

Redis在减轻数据库压力中的关键角色

**摘要：** 本文介绍了Redis如何减轻数据库压力。Redis作为高性能内存数据库，利用其缓存热点数据、异步处理、分布式锁和数据聚合功能降低数据库负载。实践中，应合理设置缓存策略，优化数据结构和查询，监控告警并进行扩容容灾，以确保系统性能和稳定性。

193 4 4

夹心789

|

5月前

|

SQL DataWorks 安全

|

博文

DataWorks产品使用合集之如何进行私有化部署

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

125 1 1

来自：大数据开发治理DataWorks 版块

李麒麟

|

5月前

|

并行计算 Shell 异构计算

|

博文

win10安装RStudio报错

在Windows 10上安装RStudio 2023.12.0-369后，启动时遇到GPU过程启动失败错误（error_code=18）。系统显示NVIDIA GeForce RTX 4070显卡及CUDA Version 12.4。为解决问题，尝试以`--no-sandbox`参数启动RStudio：`"C:\Program Files\RStudio\rstudio.exe" --no-sandbox`，应用此方法后问题得到解决。

90 0 0

guoweish

|

5月前

|

SQL 数据可视化 atlas

|

博文

用DataV Atlas探索杭州美食

DataV 可视分析地图 Atlas 作为一款面向时空地理数据的可视分析工具，支持海量时空数据的快显渲染和实时分析，能够通过 SQL 分析方式对用户的海量时空数据进行实时渲染和多维分析，帮助用户快速构建自己的地理分析地图，挖掘时空数据价值。下面通过一份杭州的美食娱乐兴趣点数据在 DataV Atlas 产品上为大家探索一下所谓的美食荒漠城市到底有没有美食？

51561 10 11

来自：数据可视化DataV 版块

liuyunshengsir

|

5月前

|

Java

|

博文

Java 如歌判断文件路径是不是一个软连接

在 Java 中，要判断一个文件路径是否是一个软链接（符号链接），可以使用 `Files.isSymbolicLink` 方法。以下是一个示例，演示如何判断文件路径是否是一个软链接： ```java import java.io.IOException; import java.nio.file.Files; import java.nio.file.Path; import java.nio.file.Paths; public class IsSymbolicLinkExample { public static void main(String[] args) {

130 1 1

实时数仓Hologres团队

|

5月前

|

Serverless SQL 容灾

|

博文

实时数仓Hologres V2.2发布，Serverless Computing降本20%

58341 65 68

来自：实时数仓 Hologres 版块

源码星辰

|

6月前

|

存储消息中间件运维

|

博文

单体应用与微服务的优缺点

单体应用（monolith application）就是将应用程序的所有功能都打包成一个独立的单元，可以是 JAR、WAR、EAR 或其它归档格式。

173 0 1

长梦

|

6月前

|

安全 Java 调度

|

博文

Java一分钟之-Java图形绘制：Graphics2D与Shape

本文介绍了Java中的`Graphics2D`和`Shape`接口，用于实现强大的图形绘制功能。`Graphics2D`提供丰富的绘图操作，而`Shape`接口包含各种几何形状并支持碰撞检测。常见问题包括忘记调用`super.paintComponent(g)`、误解坐标系统、忽略`Graphics2D`设置和多线程处理不当。避免这些问题的关键在于正确清理画布、理解坐标系统、设置图形属性以及在事件调度线程中更新GUI。通过实践和学习，可以提升Java图形绘制技能。

148 1 1

kng32f3vbngrm

|

6月前

|

分布式计算 Java Hadoop

|

博文

NameNode 处理线程配置（心跳并发）

NameNode线程池处理客户端和数据节点请求，如读写文件及心跳、块报告。通过调整`dfs.namenode.handler.count`（默认10，示例设为21）在`hdfs-site.xml`中可控制并发处理能力。线程数过多或过少都可能影响性能，需平衡资源使用并进行基准测试以确定最佳值。合理线程数可通过公式`int(math.log(N) * 20)`计算，N为服务器数量。例如，3台服务器的计算结果为21。

163 4 4

kng32f3vbngrm

|

6月前

|

存储大数据对象存储

|

博文

ClickHouse 如何实现数据一致性

本文探讨了在 ClickHouse 中实现数据一致性的方法，主要关注 `ReplacingMergeTree` 引擎。该引擎允许更新已有数据，通过定期合并操作删除重复并保持最终一致性。然而，由于合并时间不可预测，单纯依赖此引擎无法确保实时一致性。为解决此问题，文章提出了四种策略：1）手动触发合并，但不建议频繁使用；2）使用 `FINAL` 查询，但在查询时合并数据，效率较低；3）通过标记和 `GroupBy` 查询实现一致性；4）在允许一定偏差的情况下，直接使用 `ReplacingMergeTree` 保持最终一致性。在实践中，推荐结合标记列和 `GroupBy` 以保证数据一致性。

232 0 0

Deephub

|

6月前

|

编解码边缘计算自然语言处理

|

博文

2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题

五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括：1) Dual3D提出双模式推理策略，实现高效文本到3D图像生成；2) CAT3D利用多视图扩散模型创建3D场景，仅需少量图像；3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer，可用于多模态对话和图像生成；4) 通过潜在扩散模型从EEG数据重建自然主义音乐，展示复杂音频重建潜力。此外，还有关于视觉语言模型和图像编辑的创新工作，如BlobGEN用于合成具有控制性的图像。

236 3 3

三分钟热度的鱼

|

6月前

|

消息中间件 Oracle 关系型数据库

|

博文

实时计算 Flink版产品使用合集之从SQLServer到SQLServer进行数据迁移时，遇到反压，该如何处理

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

149 0 0

来自：实时计算 Flink 版块

奔跑的数据

|

6月前

|

数据采集 Web App开发 JavaScript

|

博文

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

343 1 1

来自：实时计算 Flink 版块

森林木枫彬-49940

|

6月前

|

博文

427 2 2

真的很搞笑

|

6月前

|

SQL 存储数据处理

|

博文

实时计算 Flink版产品使用合集之flink-connector-mysql-cdc 和 flink-sql-connector-mysql-cdc有什么区别

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

363 1 1

来自：实时计算 Flink 版块

真的很搞笑

|

6月前

|

SQL 缓存 Java

|

博文

实时计算 Flink版产品使用合集之flink-connector-mysql-cdc 和 flink-connector-sqlserver-cdc 这两个CDC连接器只能选择其中一个使用吗

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

165 0 0

来自：实时计算 Flink 版块

李麒麟

|

6月前

|

TensorFlow 算法框架/工具 C++

|

博文

在有GPU的windows上安装TensorFlow

101 0 0

三分钟热度的鱼

|

6月前

|

存储分布式计算大数据

|

博文

MaxCompute操作报错合集之大数据计算MaxCompute将数据存储为字符串后，在查询时发现数据变成了乱码而不是16进制，如何解决

MaxCompute是阿里云提供的大规模离线数据处理服务，用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时，可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。

138 0 0

来自：大数据计算 MaxCompute 版块

Byyyi

|

6月前

|

Python

|

博文

解决Pycharm安装后无法导入库的问题

解决Pycharm导入库问题：进入Settings，选择Project的`Python Interpreter`，点击Add Interpreter。删除`.venv`文件夹内容，然后关闭并重启Pycharm以初始化新环境，现在可以正常导入库了。

188 1 1

Deephub

|

6月前

|

机器学习/深度学习 JSON 自然语言处理

|

博文

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

通过LLM2Vec，我们可以使用LLM作为文本嵌入模型。但是简单地从llm中提取的嵌入模型往往表现不如常规嵌入模型。

225 5 5

灵杰开发者

|

6月前

|

SQL 存储分布式计算

|

博文

阿里巴巴瓴羊基于 Flink 实时计算的优化和实践

本⽂整理⾃阿里云智能集团技术专家王柳焮⽼师在 Flink Forward Asia 2023 中平台建设专场的分享。

610 2 3

来自：实时计算 Flink 版块

游客k7u5f26cbfrga

|

6月前

|

数据安全/隐私保护 Python

|

博文

python代码加密以及注意事项分享

假设你已经有了一个 Python 程序 `main.py`。确保它在你的环境中可以正常运行。

140 0 0

Hacoj

|

6月前

|

机器学习/深度学习

|

博文

西瓜书机器学习AUC与ℓ-rank（loss）的联系理解以及证明（通俗易懂）

194 0 0

Deephub

|

6月前

|

算法数据可视化数据挖掘

|

博文

Barnes-Hut t-SNE:大规模数据的高效降维算法

Barnes-Hut t-SNE是一种针对大规模数据集的高效降维算法，它是t-SNE的变体，用于高维数据可视化。t-SNE通过保持概率分布相似性将数据从高维降至2D或3D。Barnes-Hut算法采用天体物理中的方法，将时间复杂度从O(N²)降低到O(NlogN)，通过构建空间索引树和近似远距离交互来加速计算。在scikit-learn中可用，代码示例展示了如何使用该算法进行聚类可视化，成功分离出不同簇并获得高轮廓分数，证明其在大數據集上的有效性。

129 1 1

阿里云开发者

|

6月前

|

SQL 分布式计算资源调度

|

博文

一文解析 ODPS SQL 任务优化方法原理

本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发，分析日常数据研发过程中各种优化方法背后的原理，覆盖了部分调优方法的分析，从知道怎么优化，到为什么这样优化，以及还能怎样优化。

104085 1 1

来自：大数据计算 MaxCompute 版块

长梦

|

6月前

|

SQL 运维监控

|

博文

面经：Presto/Trino高性能SQL查询引擎解析

【4月更文挑战第10天】本文深入探讨了大数据查询引擎Trino（现称Trino）的核心特性与应用场景，适合面试准备。重点包括：Trino的分布式架构（Coordinator与Worker节点）、连接器与数据源交互、查询优化（CBO、动态过滤）及性能调优、容错与运维实践。通过实例代码展示如何解释查询计划、创建自定义连接器以及查看查询的I/O预期。理解这些知识点将有助于在面试中脱颖而出，并在实际工作中高效处理数据分析任务。

489 12 12

Echo_Wish

|

6月前

|

算法数据可视化数据挖掘

|

博文

使用Python实现高斯混合模型聚类算法

126 3 3

Echo_Wish

|

6月前

|

存储供应链 Oracle

|

博文

探究ERP系统的云端部署与SaaS模式

554 0 0

Deephub

|

6月前

|

算法异构计算

|

博文

推测解码：在不降低准确性的情况下将LLM推理速度提高2 - 3倍

在本篇文章我们将详细讨论推测解码，这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现，并看看它与原始transformer 实现相比到底能快多少。

219 10 10

Echo_Wish

|

6月前

|

机器学习/深度学习算法 Python

|

博文

使用Python实现随机森林算法

208 0 0

Echo_Wish

|

6月前

|

数据采集监控数据可视化

|

博文

深入探究ERP系统的业务智能与报表分析模块

168 1 1

张飞的猪

|

6月前

|

分布式计算大数据 Hadoop

|

博文

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

从事数仓工作，在工作学习过程也看了很多数据仓库方面的数据，此处整理了数仓中经典的，或者值得阅读的书籍，推荐给大家一下，希望能帮助到大家。建议收藏起来，后续有新的书籍清单会更新到这里。

592 2 3

来自：大数据计算 MaxCompute 版块

三分钟热度的鱼

|

6月前

|

Oracle 关系型数据库 MySQL

|

博文

Flink CDC产品常见问题之使用cdc-Oracle连接器报错如何解决

Flink CDC（Change Data Capture）是一个基于Apache Flink的实时数据变更捕获库，用于实现数据库的实时同步和变更流的处理；在本汇总中，我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答，目的是辅助用户更好地理解和应用这一技术，优化实时数据处理流程。

267 0 0

来自：实时计算 Flink 版块

你鞋带开了~

|

6月前

|

消息中间件关系型数据库 Kafka

|

博文

Flink CDC产品常见问题之 Oraclecdc JdbcIncrementalSource 捕获不到数据如何解决

Flink CDC（Change Data Capture）是一个基于Apache Flink的实时数据变更捕获库，用于实现数据库的实时同步和变更流的处理；在本汇总中，我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答，目的是辅助用户更好地理解和应用这一技术，优化实时数据处理流程。

343 2 2

来自：实时计算 Flink 版块

xijie.xu

|

6月前

|

搜索推荐大数据数据库

|

博文

【Havenask实践篇】搭建文本检索服务

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎，深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文举例数据库检索加速的一个简单场景，使用Havenask对数据库的文本字段建立倒排索引，通过倒排检索列提高检索性能，缩短检索耗时。

114099 51 59

来自：智能搜索推荐版块

灵杰开发者

|

6月前

|

SQL 分布式计算 HIVE

|

博文

基于 Kyuubi 实现分布式 Flink SQL 网关

本文整理自网易互娱资深开发工程师、Apache Kyuubi Committer 林小铂的《基于 Kyuubi 实现分布式 Flink SQL 网关》分享。

104751 64 69

来自：实时计算 Flink 版块

蓝易云

|

6月前

|

存储监控 NoSQL

|

博文

Redis是如何保证高可用的？

通过这些机制，Redis可以在主节点故障或其他异常情况下保持高可用性，确保数据的可靠性和可用性。不过，为了实现高可用性，需要仔细规划和配置Redis集群，并确保监控和故障恢复机制的可靠性。

185 6 6

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

实时计算 Flink版操作报错合集之连接RabbitMQ时遇到Could not find any factory for identifier 'rabbitmq' that implements 'org.apache.flink.table.factories.DynamicTableFactory'错误，该怎么办

经典大数据处理框架与通用架构对比

浅谈几个经典大数据处理框架

使用‘消除’技术绕过LLM的安全机制，不用训练就可以创建自己的nsfw模型

Java一分钟之-Groovy与Java混合编程

Redis在减轻数据库压力中的关键角色

DataWorks产品使用合集之如何进行私有化部署

win10安装RStudio报错

用DataV Atlas探索杭州美食

Java 如歌判断文件路径是不是一个软连接

实时数仓Hologres V2.2发布，Serverless Computing降本20%

单体应用与微服务的优缺点

Java一分钟之-Java图形绘制：Graphics2D与Shape

NameNode 处理线程配置（心跳并发）

ClickHouse 如何实现数据一致性

2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题

实时计算 Flink版产品使用合集之从SQLServer到SQLServer进行数据迁移时，遇到反压，该如何处理

爬虫技术升级：如何结合DrissionPage和Auth代理插件实现数据采集

实时计算 Flink版操作报错之遇到错误导致cdc同步失败，多次重启也不行，只能重新启动任务从最新的消费，是什么情况

实时计算 Flink版操作报错之在执行任务时遇到了一个IO错误，具体表现为无法从本地主机（localhost）下载文件，该怎么解决

实时计算 Flink版操作报错之使用SQL 将 PostgreSQL 的 date 类型字段转换为 TIMESTAMP 类型时遇到报错，该如何处理

PR曲线、ROC曲线、AUC能干个啥

实时计算 Flink版操作报错合集之flink jdbc写入数据时，长时间没写入后报错，是什么原因导致的

实时计算 Flink版产品使用合集之Flink on YARN 下，任务代码中通过 JobListener 监听任务状态，onJobSubmitted 和 onJobExecuted 同时触发如何解决

实时计算 Flink版产品使用合集之在抓取 MySQL binlog 数据时，datetime 字段会被自动转换为时间戳形式如何解决

实时计算 Flink版产品使用合集之多个任务合并一个宽表该怎么操作

使用Python实现深度学习模型：变分自编码器（VAE）

实时计算 Flink版产品使用合集之flink-connector-mysql-cdc 和 flink-sql-connector-mysql-cdc有什么区别

实时计算 Flink版产品使用合集之flink-connector-mysql-cdc 和 flink-connector-sqlserver-cdc 这两个CDC连接器只能选择其中一个使用吗

在有GPU的windows上安装TensorFlow

MaxCompute操作报错合集之大数据计算MaxCompute将数据存储为字符串后，在查询时发现数据变成了乱码而不是16进制，如何解决

解决Pycharm安装后无法导入库的问题

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

阿里巴巴瓴羊基于 Flink 实时计算的优化和实践

python代码加密以及注意事项分享

西瓜书机器学习AUC与ℓ-rank（loss）的联系理解以及证明（通俗易懂）

Barnes-Hut t-SNE:大规模数据的高效降维算法

一文解析 ODPS SQL 任务优化方法原理

面经：Presto/Trino高性能SQL查询引擎解析

使用Python实现高斯混合模型聚类算法

探究ERP系统的云端部署与SaaS模式

推测解码：在不降低准确性的情况下将LLM推理速度提高2 - 3倍

使用Python实现随机森林算法

深入探究ERP系统的业务智能与报表分析模块

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

Flink CDC产品常见问题之使用cdc-Oracle连接器报错如何解决

Flink CDC产品常见问题之 Oraclecdc JdbcIncrementalSource 捕获不到数据如何解决

【Havenask实践篇】搭建文本检索服务

基于 Kyuubi 实现分布式 Flink SQL 网关

Redis是如何保证高可用的？

大数据与机器学习

活跃用户

相关产品