在机器学习PAI里可以接入clickhouse作为数据源吗？

展开

收起

三分钟热度的鱼 2023-05-14 20:06:25 219 版权

3 条回答

写回答

取消提交回答

wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com
可以的。

阿里云机器学习PAI支持通过MaxCompute或DataWorks接入ClickHouse作为数据源，具体步骤如下：
1. 登录阿里云机器学习控制台，创建一个MaxCompute项目或者DataWorks工作流。
2. 在MaxCompute或者DataWorks中创建一个ClickHouse数据源，并配置相应的连接信息。
3. 在PAI中创建一个数据源，并将该数据源绑定到MaxCompute或DataWorks中的ClickHouse数据源上。
4. 在PAI的数据开发工作区中，您就可以使用ClickHouse作为数据源，进行数据处理和机器学习的任务。
在使用ClickHouse作为数据源时，需要确保ClickHouse与PAI之间的网络连接是通畅的，并且需要注意ClickHouse的数据安全和隐私保护。
2023-05-23 13:54:23

赞同展开评论
祁符建

热爱开发

可以的。在机器学习平台PAI中，您可以使用ClickHouse作为数据源。PAI支持通过JDBC连接ClickHouse数据库。

具体步骤如下：

在 PAI 控制台上创建一个新的数据源。

选择"JDBC"作为数据源类型，并填写ClickHouse数据库的连接信息，包括IP地址、端口号、数据库名称、用户名和密码等。

在任务脚本中使用Java JDBC API连接到ClickHouse数据库，并执行SQL查询语句。

以下是Python代码示例：

import jaydebeapi

连接ClickHouse数据库

conn = jaydebeapi.connect( 'ru.yandex.clickhouse.ClickHouseDriver', ['jdbc:clickhouse://:<ClickHouse 端口>/<ClickHouse 数据库名称>', '<ClickHouse 用户名>', '<ClickHouse 密码>'], '<ClickHouse JDBC 驱动路径>', )

执行SQL查询语句

cursor = conn.cursor() cursor.execute('SELECT * FROM <表名>') result = cursor.fetchall()

关闭连接

cursor.close() conn.close() 注意：在运行任务之前，请确保已将 ClickHouse JDBC 驱动程序添加到任务依赖项中，并正确配置驱动程序的路径。

2023-05-15 15:23:51

赞同展开评论
圆不溜秋的小猫猫

这个好像没支持，现在离线是本地文件，hdfs, oss, MaxCompute，实时的话开源的有kafka，阿里云上的datahub这些，clickhouse好像还不支持，你是离线场景吗？此回答整理自钉群：“【EasyRec】推荐算法交流群”

2023-05-14 20:28:49

赞同展开评论

在机器学习PAI里可以接入clickhouse作为数据源吗？

连接ClickHouse数据库

执行SQL查询语句

关闭连接

人工智能平台PAI

相关文章

热门讨论

热门文章