今天在从生产环境中做一个数据抽取,为了提高效率,加了并行。发现了一些小的细节。
首先,抽取数据时,对于并行度的指定我是设定200M为一个单位,如果表有1G,那么就需要启5个并行,结果有一个表有40G,按照这个单位,需要200个并行。
但是在实际中,ddl的执行并行度,数据库不一定会买账,首先从数据库实例层面有一些参数限定。
这下面的配置中,这个库最多只能使用64个并行。
SQL> show parameter parall
NAME TYPE VALUE
------------------------------------ ----------- ------------------------------
fast_start_parallel_rollback string LOW
parallel_adaptive_multi_user boolean FALSE
parallel_automatic_tuning boolean FALSE
parallel_degree_limit string CPU
parallel_degree_policy string MANUAL
parallel_execution_message_size integer 65536
parallel_force_local boolean FALSE
parallel_instance_group string
parallel_io_cap_enabled boolean FALSE
parallel_max_servers integer 64
为了保险起见,我指定了抽取数据时的那个ddl的并行度为30,但是实际运行的时候只启用了8个。
USERNAME TOTAL_CNT ACTIVE INACTIVE KILLED SNIPED JDBC Thin Client
--------------- ---------- ---------- ---------- ---------- ---------- ---------------- -------------- -----------
TMP_MIG 9 9 0 0 0 0
但是可以注意到一个细节,实际中只启用了8个并行,但是在数据库里的对应的session却有9个。
来看看session的情况,第一个session是通过sqlplus连进来的,剩下的都是和并行绑定的session.
SID SERIAL# USERNAME MACHINE PROGRAM
---------- ---------- ------------------------------ ---------------------------------------------------------------- ------------------------------------------------
4163 36087 TMP_MIG prod_db sqlplus@prod_db (TNS V1-V3)
4383 17193 TMP_MIG prod_db oracle@prod_db (P048)
4568 13403 TMP_MIG prod_db oracle@prod_db (P049)
4750 15373 TMP_MIG prod_db oracle@prod_db (P050)
4956 8551 TMP_MIG prod_db oracle@prod_db (P052)
5107 11535 TMP_MIG prod_db oracle@prod_db (P051)
5329 12139 TMP_MIG prod_db oracle@prod_db (P053)
5492 21119 TMP_MIG prod_db oracle@prod_db (P054)
5698 14709 TMP_MIG prod_db oracle@prod_db (P055)
如果启用后的有些并行session处理的快,会马上释放对应的session,session就会处于inactive状态。
在数据抽取执行了一会以后,来查看session的情况,发现有7个session处于Inactive状态了。
USERNAME TOTAL_CNT ACTIVE INACTIVE KILLED SNIPED JDBC Thin Client
--------------- ---------- ---------- ---------- ---------- ---------- ---------------- -------------- -----------
TMP_MIG 9 2 7 0 0 0
当然了,可以看到oracle的并行似乎是采用了多个session(多个session对应指定的parallel)来处理数据。
其实我更关心parallel的这些session都做些什么。来尝试一下看看它们正在执行的sql,倒底是什么,尝试了多个session,都没有找到,看来oracle是不想让我们知道这些细节了。
SQL> select prev_sql_id sql_id from v$session where sid=4383;
SQL_ID
-------------
SQL> c/4383/5698
1* select prev_sql_id sql_id from v$session where sid=5698
SQL> /
SQL_ID
-------------
在稍候的工作继续观察,看能不能得到一些惊喜。
首先,抽取数据时,对于并行度的指定我是设定200M为一个单位,如果表有1G,那么就需要启5个并行,结果有一个表有40G,按照这个单位,需要200个并行。
但是在实际中,ddl的执行并行度,数据库不一定会买账,首先从数据库实例层面有一些参数限定。
这下面的配置中,这个库最多只能使用64个并行。
SQL> show parameter parall
NAME TYPE VALUE
------------------------------------ ----------- ------------------------------
fast_start_parallel_rollback string LOW
parallel_adaptive_multi_user boolean FALSE
parallel_automatic_tuning boolean FALSE
parallel_degree_limit string CPU
parallel_degree_policy string MANUAL
parallel_execution_message_size integer 65536
parallel_force_local boolean FALSE
parallel_instance_group string
parallel_io_cap_enabled boolean FALSE
parallel_max_servers integer 64
为了保险起见,我指定了抽取数据时的那个ddl的并行度为30,但是实际运行的时候只启用了8个。
USERNAME TOTAL_CNT ACTIVE INACTIVE KILLED SNIPED JDBC Thin Client
--------------- ---------- ---------- ---------- ---------- ---------- ---------------- -------------- -----------
TMP_MIG 9 9 0 0 0 0
但是可以注意到一个细节,实际中只启用了8个并行,但是在数据库里的对应的session却有9个。
来看看session的情况,第一个session是通过sqlplus连进来的,剩下的都是和并行绑定的session.
SID SERIAL# USERNAME MACHINE PROGRAM
---------- ---------- ------------------------------ ---------------------------------------------------------------- ------------------------------------------------
4163 36087 TMP_MIG prod_db sqlplus@prod_db (TNS V1-V3)
4383 17193 TMP_MIG prod_db oracle@prod_db (P048)
4568 13403 TMP_MIG prod_db oracle@prod_db (P049)
4750 15373 TMP_MIG prod_db oracle@prod_db (P050)
4956 8551 TMP_MIG prod_db oracle@prod_db (P052)
5107 11535 TMP_MIG prod_db oracle@prod_db (P051)
5329 12139 TMP_MIG prod_db oracle@prod_db (P053)
5492 21119 TMP_MIG prod_db oracle@prod_db (P054)
5698 14709 TMP_MIG prod_db oracle@prod_db (P055)
如果启用后的有些并行session处理的快,会马上释放对应的session,session就会处于inactive状态。
在数据抽取执行了一会以后,来查看session的情况,发现有7个session处于Inactive状态了。
USERNAME TOTAL_CNT ACTIVE INACTIVE KILLED SNIPED JDBC Thin Client
--------------- ---------- ---------- ---------- ---------- ---------- ---------------- -------------- -----------
TMP_MIG 9 2 7 0 0 0
当然了,可以看到oracle的并行似乎是采用了多个session(多个session对应指定的parallel)来处理数据。
其实我更关心parallel的这些session都做些什么。来尝试一下看看它们正在执行的sql,倒底是什么,尝试了多个session,都没有找到,看来oracle是不想让我们知道这些细节了。
SQL> select prev_sql_id sql_id from v$session where sid=4383;
SQL_ID
-------------
SQL> c/4383/5698
1* select prev_sql_id sql_id from v$session where sid=5698
SQL> /
SQL_ID
-------------
在稍候的工作继续观察,看能不能得到一些惊喜。