DBA手记:DBA诊断利器 - Event 10046和 10053 - Oracle Life - MogDB 成为国产数据库第一品牌！

« DBA手记:Grid Control监控-进程累积导致的宕机 | Blog首页 | 海量数据库设计经验与研究-暨中韩技术交流会 »

DBA手记:DBA诊断利器 - Event 10046和 10053

作者：eygle | 【转载请注出处】|【云和恩墨领先的zData数据库一体机 | zCloud PaaS云管平台 | SQM SQL审核平台 | ZDBM 数据库备份一体机】
链接：https://www.eygle.com/archives/2011/02/dba_event_10046_10053.html

一次某优化工具厂商的朋友，发来一个案例请求协助诊断，朋友的优化工具在客户的环境中执行某个SQL查询时，需要10分钟时间才能出结果，这是无法接受的，而同样的查询在其他环境上都可以快速的获得输出结果，数据库环境是9.2.0.8。

首先我获得了一个10046跟踪文件，通过tkprof格式化之后，这个SQL的输出结果展现出来。

首先该SQL代码如下：

该段SQL的Elapsed时间超过了600秒，Query模式逻辑读也非常高，对于一个优化工具来说显然是不可接受的。

接下来的跟踪文件中显示了SQL的执行计划：

Rows Row Source Operation

------- ---------------------------------------------------

0 NESTED LOOPS OUTER

0 NESTED LOOPS OUTER

0 NESTED LOOPS OUTER

0 NESTED LOOPS OUTER

0 NESTED LOOPS OUTER

0 NESTED LOOPS

0 NESTED LOOPS OUTER

0 NESTED LOOPS

0 NESTED LOOPS OUTER

0 NESTED LOOPS OUTER

0 NESTED LOOPS

0 NESTED LOOPS

0 NESTED LOOPS

1935557 NESTED LOOPS

2863 NESTED LOOPS

2863 NESTED LOOPS

2863 NESTED LOOPS

1 NESTED LOOPS

1 TABLE ACCESS BY INDEX ROWID USER$

1 INDEX UNIQUE SCAN I_USER1 (object id 44)

1 TABLE ACCESS BY INDEX ROWID USER$

1 INDEX UNIQUE SCAN I_USER1 (object id 44)

2863 TABLE ACCESS FULL CDEF$

2863 TABLE ACCESS BY INDEX ROWID CON$

2863 INDEX UNIQUE SCAN I_CON2 (object id 49)

2863 TABLE ACCESS CLUSTER USER$

2863 INDEX UNIQUE SCAN I_USER# (object id 11)

1935557 VIEW

1935557 UNION-ALL PARTITION

1935557 FILTER

1935557 NESTED LOOPS

2863 TABLE ACCESS BY INDEX ROWID USER$

2863 INDEX UNIQUE SCAN I_USER1 (object id 44)

1935557 TABLE ACCESS FULL OBJ$

0 TABLE ACCESS BY INDEX ROWID IND$

0 INDEX UNIQUE SCAN I_IND1 (object id 39)

0 FILTER

0 NESTED LOOPS

0 TABLE ACCESS BY INDEX ROWID USER$

0 INDEX UNIQUE SCAN I_USER1 (object id 44)

0 INDEX RANGE SCAN I_LINK1 (object id 113)

0 TABLE ACCESS BY INDEX ROWID CON$

1935557 INDEX UNIQUE SCAN I_CON2 (object id 49)

0 TABLE ACCESS BY INDEX ROWID CON$

0 INDEX UNIQUE SCAN I_CON1 (object id 48)

0 TABLE ACCESS BY INDEX ROWID CDEF$

0 INDEX UNIQUE SCAN I_CDEF1 (object id 50)

0 TABLE ACCESS BY INDEX ROWID CON$

0 INDEX UNIQUE SCAN I_CON2 (object id 49)

0 TABLE ACCESS CLUSTER USER$

0 INDEX UNIQUE SCAN I_USER# (object id 11)

0 TABLE ACCESS BY INDEX ROWID OBJ$

0 INDEX UNIQUE SCAN I_OBJ1 (object id 36)

0 INDEX UNIQUE SCAN I_OBJ1 (object id 36)

0 TABLE ACCESS BY INDEX ROWID OBJ$

0 INDEX UNIQUE SCAN I_OBJ1 (object id 36)

0 TABLE ACCESS BY INDEX ROWID OBJ$

0 INDEX UNIQUE SCAN I_OBJ1 (object id 36)

0 TABLE ACCESS CLUSTER USER$

0 INDEX UNIQUE SCAN I_USER# (object id 11)

0 INDEX UNIQUE SCAN I_OBJ1 (object id 36)

0 TABLE ACCESS BY INDEX ROWID OBJ$

0 INDEX UNIQUE SCAN I_OBJ1 (object id 36)

0 TABLE ACCESS CLUSTER USER$

0 INDEX UNIQUE SCAN I_USER# (object id 11)

以上执行计划中，最可疑的部分是对于OBJ$的全表扫描，这个环节的行数返回有1，935，557行，这个量级一直向上传递，所以我们首先怀疑这里的执行计划选择错误，如果选择索引，执行性能肯定会有极大的不同。

可是10046的跟踪事件显示的信息比较有限不能够准确定位错误的原因，我请朋友通过10053事件来生成一个执行计划的跟踪，10053使用极为简便，通过如下方式就可以捕获SQL的解析过程：

alter session set events '10053 trace name context forever,level 1';

explain plan for you_select_query;

例如：

SQL> alter session set events '10053 trace name context forever,level 1';

Session altered.

SQL> explain plan for select count(*) from obj$;

Explained.

然后在udump目录下就可以找到10053生成的跟踪文件，在该文件中，找到了查询相关表的统计信息，其中OBJ$的信息如下所示，其中CDN（CarDiNality）指表中包含的记录数量，此处显示OBJ$表中有24万左右的记录，使用了2941个数据块：

***********************

Table stats Table: OBJ$ Alias: SYS_ALIAS_1

TOTAL :: CDN: 245313 NBLKS: 2941 AVG_ROW_LEN: 79

Column: OWNER# Col#: 3 Table: OBJ$ Alias: SYS_ALIAS_1

NDV: 221 NULLS: 0 DENS: 4.5249e-03 LO: 0 HI: 259

NO HISTOGRAM: #BKT: 1 #VAL: 2

-- Index stats

INDEX NAME: I_OBJ1 COL#: 1

TOTAL :: LVLS: 1 #LB: 632 #DK: 245313 LB/K: 1 DB/K: 1 CLUF: 4184

INDEX NAME: I_OBJ2 COL#: 3 4 5 12 13 6

TOTAL :: LVLS: 2 #LB: 1904 #DK: 245313 LB/K: 1 DB/K: 1 CLUF: 180286

INDEX NAME: I_OBJ3 COL#: 15

TOTAL :: LVLS: 1 #LB: 19 #DK: 2007 LB/K: 1 DB/K: 1 CLUF: 340

_OPTIMIZER_PERCENT_PARALLEL = 0

***************************************

而在前面的10046跟踪信息中，显示OBJ$包含大约200万条记录，这是非常巨大的不同，对于USER$表，显示具有2863条记录，而统计信息中显示仅有253条记录：

***********************

Table stats Table: USER$ Alias: U

TOTAL :: CDN: 253 NBLKS: 16 AVG_ROW_LEN: 82

Column: USER# Col#: 1 Table: USER$ Alias: U

NDV: 253 NULLS: 0 DENS: 3.9526e-03 LO: 0 HI: 261

NO HISTOGRAM: #BKT: 1 #VAL: 2

-- Index stats

INDEX NAME: I_USER# COL#: 1

TOTAL :: LVLS: 0 #LB: 1 #DK: 258 LB/K: 1 DB/K: 1 CLUF: 13

INDEX NAME: I_USER1 COL#: 2

TOTAL :: LVLS: 0 #LB: 1 #DK: 253 LB/K: 1 DB/K: 1 CLUF: 87

***********************

这说明数据字典中记录的统计信息与真实情况不符合，导致了SQL选择了错误的执行计划，在使用CBO的Oracle9i数据库中，这种情况极为普遍，通过删除表的统计信息，或者重新收集正确的统计信息，可以使SQL执行恢复到正常合理的范畴内。在Oracle10g开始的自动统计信息收集，就是为了防止出现统计信息陈旧的现象。

以下是通过dbms_stats包清除和重新收集表的统计信息的简单参考：

SQL> exec dbms_stats.delete_table_stats(user,'OBJ$');

PL/SQL procedure successfully completed.

SQL> exec dbms_stats.gather_table_stats(user,'OBJ$');

PL/SQL procedure successfully completed.

基于这样的判断我们建议客户做出修正，最后的客户反馈结果是：按照你的建议，在更新OBJ$的统计信息后，该语句的执行时间由10分钟减少到了2分钟。接下来，按照类似的思路，又更新了USER$，CON$,CDEF$表的统计信息，这时，语句的执行时间减少到了零点几秒。至此，问题解决。

历史上的今天...
>> 2018-02-23文章:

极速体验:Oracle 18c 下载和Scalable Sequence新特性

Oracle Database 18c已经发布及新特性介绍

>> 2010-02-23文章:

SMON: recover undo segment与事务恢复

>> 2009-02-23文章:

笔记本R51e、流氓软件、与智能手机工作室

>> 2008-02-23文章:

Oracle Release Number Format含义

>> 2006-02-23文章:

要发现人家的优点你才会觉得幸福

>> 2005-02-23文章:

正月十五雪打灯--元宵小聚

Redo allocation latch介绍

By eygle on 2011-02-23 08:56 | Comments (1) | Case | 2733 |

1 Comment

LHT | February 23, 2011 5:32 PM

没错，10053和10046事件在做一些问题分析时，非常有用
学习案例

CopyRight © 2004~2020 云和恩墨，成就未来！, All rights reserved.
数据恢复·紧急救援·性能优化云和恩墨 24x7 热线电话：400-600-8755 业务咨询：010-59007017-7040 or 7037 业务合作: marketing@enmotech.com