VastbaseG100

基于openGauss内核开发的企业级关系型数据库。

Menu

统计信息调优

统计信息调优介绍

Vastbase是基于代价估算生成的最优执行计划。优化器需要根据analyze收集的统计信息行数估算和代价估算,因此统计信息对优化器行数估算和代价估算起着至关重要的作用。通过analyze收集全局统计信息,主要包括:pg_class表中的relpages和reltuples;pg_statistic表中的stadistinct、stanullfrac、stanumbersN、stavaluesN、histogram_bounds等。

实例分析1:未收集统计信息导致查询性能差

在很多场景下,由于查询中涉及到的表或列没有收集统计信息,会对查询性能有很大的影响。

表结构如下所示:

CREATE TABLE LINEITEM 
( 
L_ORDERKEY         BIGINT        NOT NULL 
, L_PARTKEY        BIGINT        NOT NULL 
, L_SUPPKEY        BIGINT        NOT NULL 
, L_LINENUMBER     BIGINT        NOT NULL 
, L_QUANTITY       DECIMAL(15,2) NOT NULL 
, L_EXTENDEDPRICE  DECIMAL(15,2) NOT NULL 
, L_DISCOUNT       DECIMAL(15,2) NOT NULL 
, L_TAX            DECIMAL(15,2) NOT NULL 
, L_RETURNFLAG     CHAR(1)       NOT NULL 
, L_LINESTATUS     CHAR(1)       NOT NULL 
, L_SHIPDATE       DATE          NOT NULL 
, L_COMMITDATE     DATE          NOT NULL 
, L_RECEIPTDATE    DATE          NOT NULL 
, L_SHIPINSTRUCT   CHAR(25)      NOT NULL 
, L_SHIPMODE       CHAR(10)      NOT NULL 
, L_COMMENT        VARCHAR(44)   NOT NULL 
) with (orientation = column, COMPRESSION = MIDDLE); 
 
CREATE TABLE ORDERS 
( 
O_ORDERKEY        BIGINT        NOT NULL 
, O_CUSTKEY       BIGINT        NOT NULL 
, O_ORDERSTATUS   CHAR(1)       NOT NULL 
, O_TOTALPRICE    DECIMAL(15,2) NOT NULL 
, O_ORDERDATE     DATE NOT NULL 
, O_ORDERPRIORITY CHAR(15)      NOT NULL 
, O_CLERK         CHAR(15)      NOT NULL 
, O_SHIPPRIORITY  BIGINT        NOT NULL 
, O_COMMENT       VARCHAR(79)   NOT NULL 
)with (orientation = column, COMPRESSION = MIDDLE);

查询语句如下所示:

explain verbose select 
count(*) as numwait  
from 
lineitem l1, 
orders  
where 
o_orderkey = l1.l_orderkey 
and o_orderstatus = 'F' 
and l1.l_receiptdate > l1.l_commitdate 
and not exists ( 
select 
* 
from 
lineitem l3 
where 
l3.l_orderkey = l1.l_orderkey 
and l3.l_suppkey <> l1.l_suppkey 
and l3.l_receiptdate > l3.l_commitdate 
) 
order by 
numwait desc;

当出现该问题时,可以通过如下方法确认查询中涉及到的表或列有没有做过analyze收集统计信息。

  1. 通过explain verbose执行query分析执行计划时会提示WARNING信息,如下所示:

    WARNING:Statistics in some tables or columns(public.lineitem.l_receiptdate, public.lineitem.l_commitdate, public.lineitem.l_orderkey, public.lineitem.l_suppkey, public.orders.o_orderstatus, public.orders.o_orderkey) are not collected. 
    HINT:Do analyze for them in order to generate optimized plan.
    
  2. 可以通过在pg_log目录下的日志文件中查找以下信息来确认是当前执行的query是否由于没有收集统计信息导致查询性能变差。

    2017-06-14 17:28:30.336 CST 140644024579856 20971684 [BACKEND] LOG:Statistics in some tables or columns(public.lineitem.l_receiptdate, public.lineitem.l_commitdate, public.lineitem.l_orderkey, public.linei 
    tem.l_suppkey, public.orders.o_orderstatus, public.orders.o_orderkey) are not collected. 
    2017-06-14 17:28:30.336 CST 140644024579856 20971684 [BACKEND] HINT:Do analyze for them in order to generate optimized plan.
    

当通过以上方法查看到哪些表或列没有做analyze,可以通过对WARNING或日志中上报的表或列做analyze可以解决由于为收集统计信息导致查询变慢的问题。