开发者社区> 问答> 正文

将大量数据从SQL Server传输和转换为Azure SQL Server的最佳方法。Azure数据工厂,HDInsight等

社区小助手 2018-12-19 17:20:18 610

我想将客户现场服务器Client上安装的SQL Server数据库中的20 GB SQL数据传输到我们的Azure SQL Server Source,在具有200 DTU性能的S4上,每月320美元。在进行初始设置时,我们设置了一个Azure数据工厂,它通过多个表副本复制20 GB,例如,客户端表A的内容到源表A,客户端表B的内容到源表B等。然后我们运行很多提取器存储过程,通过将这些源表连接在一起,将源表中的数据插入到Stage表中,例如,源A连接到源B.之后是增量副本,但初始设置确实需要永久。

目前S4上的复制时间约为12小时,提取时间为4小时。以每小时2400美元的价格将性能等级提高到1600瑞士法郎的S9将减少时间为6小时,提取时间为2小时,但这带来了更高的成本。

我想知道是否有其他Azure方法。与将Azure SQL数据库扩展到S9及更高版本相比,使用Hadoop或Spark设置HDInsight群集是否更有效?31天每月2400美元的S9是每小时3.28美元。D14 v2实例的记忆优化节点的Azure HDInsight群集每小时1.496美元,因此它比S9便宜。但是,它在性能方面有何比较。复制过程会更快还是提取过程会更快?

SQL 存储 分布式计算 Hadoop 数据库 Spark
分享到
取消 提交回答
全部回答(2)
  • 这个写的不错,学习知识了。

    0 0
  • 社区小助手
    2019-07-17 23:23:05

    Azure数据工厂复制活动提供了一流的安全,可靠和高性能的数据加载解决方案。它使您能够在各种云和本地数据存储中每天复制数十TB的数据。复制活动提供了高度优化的数据加载体验,易于配置和设置。
    如果您希望使用Azure数据工厂复制活动更快地传输数据,Azure提供了三种方法来实现更高的吞吐量:

    数据集成单元。数据集成单元(DIU)(以前称为云数据移动单元或DMU)是表示数据工厂中单个单元的功率(CPU,内存和网络资源分配的组合)的度量。您可以使用更多数据集成单元(DIU)来实现更高的吞吐量。您需要根据复制操作的总时间收费。您为数据移动计费的总持续时间是DIU的持续时间总和。

    并行复制。我们可以使用parallelCopies属性来指示您希望Copy Activity使用的并行性。对于每个Copy Activity运行,Data Factory确定用于将数据从源数据存储复制到目标数据存储的并行副本数。

    分阶段的副本。将数据从源数据存储复制到接收器数据存储时,可以选择将Blob存储用作临时存储存储。

    您可以采用这些方法使用“复制活动”调整数据工厂服务的性能。

    0 0
添加回答
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题
推荐课程