呆呆宝_个人页

呆呆宝

文章

152

问答

892

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2024年07月

07.04 13:43:44

回答了问题 2024-07-04 13:43:44

数据并行是什么?它如何影响训练过程？

赞0 踩0 评论0
07.04 13:43:39

回答了问题 2024-07-04 13:43:39

流水线并行是如何工作的？

赞0 踩0 评论0
07.04 13:43:34

回答了问题 2024-07-04 13:43:34

什么是张量并行?它有什么特点？

赞0 踩0 评论0
07.04 13:42:53

回答了问题 2024-07-04 13:42:53

有哪些成熟的分布式训练框架可以解决模型装载和并行的问题？

赞0 踩0 评论0
07.04 13:42:49

回答了问题 2024-07-04 13:42:49

175B模型在训练时大概需要多少显存？

赞0 踩0 评论0
07.04 13:42:44

回答了问题 2024-07-04 13:42:44

在大模型训练中，互联网络为什么重要？

赞5 踩0 评论0
07.04 13:40:35

回答了问题 2024-07-04 13:40:35

什么是模型并行技术?它在大模型训练中起什么作用？

赞0 踩0 评论0
07.04 13:40:30

回答了问题 2024-07-04 13:40:30

大模型训练过程中会遇到哪些现实问题？

赞3 踩0 评论0
07.04 13:40:24

回答了问题 2024-07-04 13:40:24

在大模型训练中，AI硬件主要指什么？

赞3 踩0 评论0
07.04 13:40:18

回答了问题 2024-07-04 13:40:18

大模型训练的技术栈主要由哪些部分构成？AI训练的软件和算法主要包括哪些要素？

赞1 踩0 评论0
07.04 13:40:11

回答了问题 2024-07-04 13:40:11

为什么AI计算的硬件规格会不断变化和提升？

赞3 踩0 评论0
07.04 13:40:05

回答了问题 2024-07-04 13:40:05

NVIDIA的GPU架构从Ampere到Blackwell有哪些显著的变化？

赞3 踩0 评论0
07.04 13:39:27

回答了问题 2024-07-04 13:39:27

通讯墙在AIGC中是什么挑战？

赞4 踩0 评论0
07.04 13:38:53

回答了问题 2024-07-04 13:38:53

什么是内存墙?它是如何影响AIGC的？

赞1 踩0 评论0
07.04 13:38:47

回答了问题 2024-07-04 13:38:47

什么是功耗墙?为什么它成为AIGC对云基础设施的挑战？

赞3 踩0 评论0
07.04 13:38:40

回答了问题 2024-07-04 13:38:40

在AIGC场景下，训练和推理的成本如何？

赞2 踩0 评论0
07.04 13:38:35

回答了问题 2024-07-04 13:38:35

训练一个GPT-3模型大概需要多少计算量和算力？

赞1 踩0 评论0
07.04 13:38:30

回答了问题 2024-07-04 13:38:30

使用阿里云ECS DeepGPU后，LLM微调训练场景和Stable Diffusion推理场景的性

赞2 踩0 评论0
07.04 13:38:24

回答了问题 2024-07-04 13:38:24

阿里云如何帮助用户更好地释放云上性能以助力AIGC应用创新？

赞5 踩0 评论0
07.04 13:38:18

回答了问题 2024-07-04 13:38:18

大模型的发展给计算体系结构带来了哪些挑战？

赞3 踩0 评论0
07.04 13:37:25

回答了问题 2024-07-04 13:37:25

如何在index.html中实现H3网格的颜色映射？

赞4 踩0 评论0
07.04 13:37:21

回答了问题 2024-07-04 13:37:21

index.html文件的作用是什么，它使用了哪些外部资源？

赞5 踩0 评论0
07.04 13:37:16

回答了问题 2024-07-04 13:37:16

Python脚本中@app.route作用是什么？

赞1 踩0 评论0
07.04 13:32:22

回答了问题 2024-07-04 13:32:22

可视化前端Python脚本的主要功能是什么？

赞4 踩0 评论0
07.04 13:32:16

回答了问题 2024-07-04 13:32:16

Ganos H3相比其他开源产品有哪些技术优势？

赞1 踩0 评论0
07.04 13:32:11

回答了问题 2024-07-04 13:32:11

Ganos如何支持H3网格的可视化？

赞0 踩0 评论0
07.04 13:32:05

回答了问题 2024-07-04 13:32:05

如何查询与特定空间位置距离小于一定值的网格点？

赞5 踩0 评论0
07.04 13:31:59

回答了问题 2024-07-04 13:31:59

如何进行网格聚合统计？

赞3 踩0 评论0
07.04 13:31:54

回答了问题 2024-07-04 13:31:54

如何使用ST_H3FromLatLng函数进行打码？

赞2 踩0 评论0
07.04 13:31:49

回答了问题 2024-07-04 13:31:49

Ganos H3提供了哪些编码方式？

赞1 踩0 评论0
07.04 13:31:44

回答了问题 2024-07-04 13:31:44

如何将外表数据导入到本地表中？

赞3 踩0 评论0
07.04 13:31:38

回答了问题 2024-07-04 13:31:38

如何将OSS上的CSV数据映射到数据库中并查询？

赞0 踩0 评论0
07.04 13:29:11

回答了问题 2024-07-04 13:29:11

如何创建Ganos FDW扩展并管理CSV文件？

赞3 踩0 评论0
07.04 13:29:00

回答了问题 2024-07-04 13:29:00

FOIL文件是什么格式 ? 如何上传到OSS？

赞0 踩0 评论0
07.04 13:28:54

回答了问题 2024-07-04 13:28:54

如何创建一个带有H3编码字段的数据表？

赞2 踩0 评论0
07.04 13:28:49

回答了问题 2024-07-04 13:28:49

在使用Ganos H3之前需要做什么准备工作？

赞0 踩0 评论0
07.04 13:28:44

回答了问题 2024-07-04 13:28:44

什么是地理网格的退化功能 ? 它有什么作用？

赞2 踩0 评论0
07.04 13:28:39

回答了问题 2024-07-04 13:28:39

Ganos H3地理网格支持哪些功能？

赞1 踩0 评论0
07.04 13:28:33

回答了问题 2024-07-04 13:28:33

有没有具体的案例说明如何使用Ganos H3地理网格处理数据？

赞0 踩0 评论0
07.04 13:28:28

回答了问题 2024-07-04 13:28:28

如何使用Ganos H3地理网格进行空间点数据的处理？

赞3 踩0 评论0
07.04 13:28:23

回答了问题 2024-07-04 13:28:23

Ganos H3地理网格可以应用在哪些业务场景中？

赞0 踩0 评论0
07.04 13:28:17

回答了问题 2024-07-04 13:28:17

Ganos H3地理网格是什么 ? 它有什么特点？

赞2 踩0 评论0
07.04 13:28:01

回答了问题 2024-07-04 13:28:01

什么是Ganos？

赞3 踩0 评论0
07.04 13:27:55

回答了问题 2024-07-04 13:27:55

如何找到适合团队的最佳实践模式？

赞1 踩0 评论0
07.04 13:27:50

回答了问题 2024-07-04 13:27:50

什么是“最佳实践模式”？

赞3 踩0 评论0
07.04 13:27:46

回答了问题 2024-07-04 13:27:46

如何判断一个产品需求是否已经完成？

赞2 踩0 评论0
07.04 13:27:37

回答了问题 2024-07-04 13:27:37

代码合并后会发生什么？

赞2 踩0 评论0
07.04 13:27:32

回答了问题 2024-07-04 13:27:32

如何在云效平台上进行代码的持续验证？

赞1 踩0 评论0
07.04 13:27:26

回答了问题 2024-07-04 13:27:26

为什么要拆解变更请求？

赞7 踩0 评论0
07.04 13:27:21

回答了问题 2024-07-04 13:27:21

生产部署阶段的流水线有哪些特别之处？

赞4 踩0 评论0

...

发表了文章 2024-08-15

仓储设计实现问题之采用仓储实体转移模式可以被视为非阻塞悲观锁如何解决
发表了文章 2024-08-15

仓储设计实现问题之这种仓储下的聚合实体看起来更加像资源Resource如何解决
发表了文章 2024-08-15

仓储设计实现问题之仓储应该是一个集合实例，并且无法对仓储进行重复的放置如何解决
发表了文章 2024-08-15

仓储设计实现问题之提出仓储的建模时要从问题空间角度看待如何解决
发表了文章 2024-08-15

仓储设计实现问题之仓储生成聚合实体的唯一标识如何解决
发表了文章 2024-08-15

仓储设计实现问题之仓储设计时考虑放置实体的问题如何解决
发表了文章 2024-08-15

仓储设计实现问题之聚合实体在DDD中定义如何解决
发表了文章 2024-08-15

流计算引擎数据问题之Apache Kafka Streams 没有采用低水印方案如何解决
发表了文章 2024-08-15

流计算引擎数据问题之MillWheel 和 Flink 实现数据流的同步处理如何解决
发表了文章 2024-08-15

流计算引擎数据问题之Apache Flink 的完整性推理方案设计如何解决
发表了文章 2024-08-15

流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
发表了文章 2024-08-15

流计算引擎数据问题之完整性信号Signal计算如何解决
发表了文章 2024-08-15

流计算引擎数据问题之低水印（Low Watermark）方案工作如何解决
发表了文章 2024-08-15

流计算引擎数据问题之MillWheel/Cloud DataFlow 实现完整性推理如何解决
发表了文章 2024-08-15

流计算引擎数据问题之传播模块工作如何解决
发表了文章 2024-08-15

流计算引擎数据问题之保证流计算的正确性如何解决
发表了文章 2024-08-15

阿里云块存储问题之在编码和提交代码时确保代码提交的原子性如何解决
发表了文章 2024-08-15

阿里云块存储问题之poison发布阻塞机制实现如何解决
发表了文章 2024-08-15

阿里云块存储问题之处理信用分低的测试用例（即不稳定Case）如何解决
发表了文章 2024-08-15

阿里云块存储问题之块存储选择了主干开发模式，发布模式有哪些种类如何解决

正在加载, 请稍后...

滑动查看更多

回答了问题 2024-07-30

Checkpoint 文件中是如何包含对 exclusive 文件和 shared 文件的引用的？

Checkpoint 文件中通过 metadata 文件包含了对 exclusive 文件和 shared 文件的引用。metadata 文件记录了恢复一个 Checkpoint 所需的所有文件的路径和相关信息，从而能够定位到这些文件。

赞2 踩0 评论0
回答了问题 2024-07-30

为什么 Checkpoint 不是 self-contained 的？

Checkpoint 不是 self-contained 的，因为在一些情况下，一个 Checkpoint 的 metadata 文件可能会引用其他作业实例的 Checkpoint 的 shared 文件。这通常发生在同一个作业代码多次部署并相互恢复 Checkpoint 的情况下，形成了一个长长的引用链。

赞1 踩0 评论0
回答了问题 2024-07-30

Checkpoint 难以被清理的原因是什么？

Checkpoint 难以被清理的原因在于，清理时需要确保 Checkpoint 中的文件不再被其他 Checkpoint 引用。由于存在跨作业实例的引用，作业管理平台需要维护 Checkpoint 中文件的引用计数，这增加了平台管理的复杂度。

赞1 踩0 评论0
回答了问题 2024-07-30

跨存储系统的 Checkpoint 副本为什么会不可用？

跨存储系统的 Checkpoint 副本不可用的原因是，当 Checkpoint 从一个存储系统复制到另一个存储系统时，由于跨 job 实例引用的文件在新存储系统上并不存在，导致复制过去的 Checkpoint 不可用。

赞1 踩0 评论0
回答了问题 2024-07-30

如何避免跨存储系统 Checkpoint 副本不可用的问题？

要避免跨存储系统 Checkpoint 副本不可用的问题，可以将所有被直接和间接引用的文件都复制到新的存储系统上。但这会极大增加副本制作的复杂度。

赞6 踩0 评论0
回答了问题 2024-07-30

RocksDBStateBackend 的增量 Checkpoint 是如何制作的？

RocksDBStateBackend 制作增量 Checkpoint 时，会先将数据刷盘，然后将 DB 实例中所有文件上传到指定的 Checkpoint storage 中（如 HDFS）。对于增量 Checkpoint，只需上传新增的文件和 metadata 文件，已存在的 shared 文件只需在 metadata 中记录引用，无需重复上传。

赞1 踩0 评论0
回答了问题 2024-07-30

RocksDB 数据文件（SST 文件）的特点是什么？

RocksDB 的数据文件（SST 文件）一旦产生就不会再被修改，只会随着数据的不断写入和 compaction 而不断地产生和删除。这些 SST 文件包含了数据内容、索引等，是 RocksDB 持久化数据的关键部分。

赞5 踩0 评论0
回答了问题 2024-07-30

为什么在制作 Checkpoint 时，有些 SST 文件会被放到 shared 目录下？

在制作 Checkpoint 时，如果 DB 实例中的某些 SST 文件在后续的增量 Checkpoint 中可能会被直接使用，这些文件就会被放到 shared 目录下，以避免重复上传，节省存储空间和传输时间。

赞1 踩0 评论0
回答了问题 2024-07-30

Checkpoint 序号为什么不连续？

Checkpoint 序号不连续（如从 Checkpoint3 直接到 Checkpoint5）的原因可能是期间插入了 Savepoint，而 Savepoint 会占用 Checkpoint 序号。Savepoint 通常用于更持久化的状态保存，其制作和恢复过程与普通的 Checkpoint 有所不同。

赞1 踩0 评论0
回答了问题 2024-07-30

制作 Checkpoint5 时如何知道 02.sst 和 03.sst 已经上传过了？

制作 Checkpoint5 时，通过 previous-sst-list 来记录上次成功的 Checkpoint 中所有 SST 文件信息，从而知道 02.sst 和 03.sst 已经上传过了。这个列表帮助实现增量 Checkpoint 的制作。

赞0 踩0 评论0
回答了问题 2024-07-30

为什么新启动作业的Checkpoint可能会引用它所restore的Checkpoint中的文件？

新启动作业的 Checkpoint 可能会引用它所 restore 的 Checkpoint 中的文件，因为即使作业重启，也会尝试基于之前恢复的 Checkpoint 进行增量制作，如果恢复的是跨作业实例的 Checkpoint，就会导致文件引用跨作业。

赞0 踩0 评论0
回答了问题 2024-07-30

如何避免新启动作业的 Checkpoint 跨作业文件引用的问题？

在恢复 previous-sst-list 之前，判断 restore Checkpoint 所属的作业是否是当前作业。如果不是，则不恢复 previous-sst-list，这样作业启动后的第一个 Checkpoint 就会上传所有文件，之后的 Checkpoint 再基于前面的 Checkpoint 进行增量制作，从而避免跨作业文件引用。

赞4 踩0 评论0
回答了问题 2024-07-30

Checkpoint metadata 中如何获取到作业 ID？

Checkpoint metadata 中本身不包含作业 ID，但可以通过修改 IncrementalRemoteKeyedStateHandle 的实现，增加一个 jobID 字段，并在制作 Checkpoint 时将 ID 字段序列化到 meta 文件中。这样在 restore 时就可以通过解析 meta 文件来获取 Checkpoint 所属的作业 ID。

赞3 踩0 评论0
回答了问题 2024-07-30

Checkpoint metadata 中文件路径的问题是什么？如何解决？

Checkpoint metadata 中记录的文件路径是绝对路径，当 Checkpoint 被复制到其他目录时，这些引用会失效。解决方法是将绝对路径换成相对路径，根据 Checkpoint 的 exclusive 目录和文件的相对路径计算出文件的具体位置，从而实现 Checkpoint 的 relocatable。

赞1 踩0 评论0
回答了问题 2024-07-30

为什么使用 distcp 跨机房复制 Checkpoint 不是一个好的选择？

使用 distcp 跨机房复制 Checkpoint 不是一个好的选择，因为 distcp 会为每个复制任务启动一个重的 mapreduce 作业，而 Checkpoint 比 Savepoint 频繁得多，且复制过程中作业可能还在运行，文件可能被删除，导致复杂性和潜在问题增加。

赞1 踩0 评论0
回答了问题 2024-07-30

最终选择什么方式来实现 Checkpoint 跨机房副本制作？

最终选择编写一个 Checkpoint Replicate Service，该服务连接多个 HDFS 集群，专门用于 Checkpoint 的副本制作。这种方式更加灵活和高效，适合频繁且动态的 Checkpoint 跨机房复制需求。

赞3 踩0 评论0
回答了问题 2024-07-30

为什么直接在 Flink 引擎中双写到两个 HDFS 集群不是一个好的选择？

直接在 Flink 引擎中双写到两个 HDFS 集群会增加引擎的不稳定因素，可能影响到作业运行的稳定性和效率，因此这种方式不适合用来应对小概率的机房故障。

赞0 踩0 评论0
回答了问题 2024-07-30

Checkpoint coordinator 触发 distcp 的方式存在什么问题，为什么被放弃？

Checkpoint coordinator 触发 distcp 的方式虽然可以避免 distcp 复制过程中文件变动的问题，但由于 distcp 效率较低，可能导致 Checkpoint 制作流程阻塞，影响作业性能，因此这种方式被放弃。

赞5 踩0 评论0
回答了问题 2024-07-30

Checkpoint Replicate Service 是如何实现跨 HDFS 集群的副本制作的？

Checkpoint Replicate Service 通过在每个节点上持有多个 HDFS client，分别连接源 HDFS 集群和目标 HDFS 集群，读取源集群的文件并通过目标集群的 client 写入，实现跨集群的副本制作。

赞1 踩0 评论0
回答了问题 2024-07-30

如何根据已存在的 Checkpoint 副本进行增量的副本制作？

进行增量的副本制作时，首先解析出新 Checkpoint 和旧 Checkpoint 的文件列表，通过集合运算找出新增的文件（只存在于新 Checkpoint 中的文件）和需要删除的文件（只存在于旧 Checkpoint 中的文件），然后只复制新增的文件到目标集群，并删除目标集群中旧的文件。

赞1 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

呆呆宝_个人页

个人介绍

擅长的技术

仓储设计实现问题之采用仓储实体转移模式可以被视为非阻塞悲观锁如何解决

仓储设计实现问题之这种仓储下的聚合实体看起来更加像资源Resource如何解决

仓储设计实现问题之仓储应该是一个集合实例，并且无法对仓储进行重复的放置如何解决

仓储设计实现问题之提出仓储的建模时要从问题空间角度看待如何解决

仓储设计实现问题之仓储生成聚合实体的唯一标识如何解决

仓储设计实现问题之仓储设计时考虑放置实体的问题如何解决

仓储设计实现问题之聚合实体在DDD中定义如何解决

流计算引擎数据问题之Apache Kafka Streams 没有采用低水印方案如何解决

流计算引擎数据问题之MillWheel 和 Flink 实现数据流的同步处理如何解决

流计算引擎数据问题之Apache Flink 的完整性推理方案设计如何解决

流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决

流计算引擎数据问题之完整性信号Signal计算如何解决

流计算引擎数据问题之低水印（Low Watermark）方案工作如何解决

流计算引擎数据问题之MillWheel/Cloud DataFlow 实现完整性推理如何解决

流计算引擎数据问题之传播模块工作如何解决

流计算引擎数据问题之保证流计算的正确性如何解决

阿里云块存储问题之在编码和提交代码时确保代码提交的原子性如何解决

阿里云块存储问题之poison发布阻塞机制实现如何解决

阿里云块存储问题之处理信用分低的测试用例（即不稳定Case）如何解决

阿里云块存储问题之块存储选择了主干开发模式，发布模式有哪些种类如何解决

Checkpoint 文件中是如何包含对 exclusive 文件和 shared 文件的引用的？

为什么 Checkpoint 不是 self-contained 的？

Checkpoint 难以被清理的原因是什么？

跨存储系统的 Checkpoint 副本为什么会不可用？

如何避免跨存储系统 Checkpoint 副本不可用的问题？

RocksDBStateBackend 的增量 Checkpoint 是如何制作的？

RocksDB 数据文件（SST 文件）的特点是什么？

为什么在制作 Checkpoint 时，有些 SST 文件会被放到 shared 目录下？

Checkpoint 序号为什么不连续？

制作 Checkpoint5 时如何知道 02.sst 和 03.sst 已经上传过了？

为什么新启动作业的Checkpoint可能会引用它所restore的Checkpoint中的文件？

如何避免新启动作业的 Checkpoint 跨作业文件引用的问题？

Checkpoint metadata 中如何获取到作业 ID？

Checkpoint metadata 中文件路径的问题是什么？如何解决？

为什么使用 distcp 跨机房复制 Checkpoint 不是一个好的选择？

最终选择什么方式来实现 Checkpoint 跨机房副本制作？

为什么直接在 Flink 引擎中双写到两个 HDFS 集群不是一个好的选择？

Checkpoint coordinator 触发 distcp 的方式存在什么问题，为什么被放弃？

Checkpoint Replicate Service 是如何实现跨 HDFS 集群的副本制作的？

如何根据已存在的 Checkpoint 副本进行增量的副本制作？