SQL Server 性能调优(cpu)
研究cpu压力工具... 2
perfom.. 2
SQL跟踪... 2
性能视图... 2
cpu相关的wait event. 2
Signal wait time. 3
SOS_SCHEDULER_YIELD等待... 3
CXPACKET等待... 3
CMEMTHREAD等待... 3
调度队列... 4
cpu密集型查询... 4
高CPU使用率的创建几种状况... 5
miss index. 5
统计数据丢失... 6
非SARG谓词... 6
隐式类型转化... 6
参数探测器... 7
ad hoc 非参数化查询... 10
修改源代码... 11
强制性参数化... 12
不合适的并发查询... 12
cost threshold for parallelism.. 12
max degree of parallelism.. 13
超线程和并发查询... 13
诊断不合适的并发查询... 14
解决并发问题... 14
TokenAndPermUserStore. 14
总结... 15
参考资料:... 15
cpu在sql server 中扮演了很重要的角色,虽然cpu绑定的服务器排除cpu问题相对比较简单,但并不意味着总是简单。如果你的1个或多个cpu满负荷运行,那么就要小心了。sql server 对cpu的使用无处不在,所以如果cpu满负荷运行,那么问题很严重。
cpu性能出现问题,一般很慢盘查为啥,因为会照成cpu性能问题的很多,如内存不足,数据换进换出,cpu一路飙高。写操作性能很烂,索引建的不合适,sql server 配置等问题都会引起cpu过高的问题。所以cpu性能盘查需要很小心和仔细。
不管是什么问题引发的,对cpu的性能分析就是把问题隔离到一个特定资源,我们可以使用perfmon,性能视图,还有sql跟踪来收集资源。
一旦发生问题,我们就要把问题锁定在一个或多个查询上,对其进行调整如调整cpu密集型的查询,添加合适的索引,使用存储过程替换ad hoc查询等等。
研究cpu压力工具
perfom
对于cpu压力的研究我们一般使用一下工具:perfmon,SQL跟踪,动态性能视图
perfmon我们可以跟踪如下性能指标:
Processor/ %Privileged Time --内核级别的cpu使用率
Processor/ %User Time --用户几倍的cpu使用率
Process (sqlservr.exe)/ %Processor Time --某个进程的cpu使用率
上面3个性能指标是全局范围的,SQL Satatistics 计数器虽然不能直接说明cpu的使用率但是可以间接的说明cpu的使用情况。
• SQLServer:SQL Statistics/Auto-Param Attempts/sec
• SQLServer:SQL Statistics/Failed Auto-params/sec
• SQLServer:SQL Statistics/Batch Requests/sec
• SQLServer:SQL Statistics/SQL Compilations/sec
• SQLServer:SQL Statistics/SQL Re-Compilations/sec
• SQLServer:Plan Cache/Cache hit Ratio
这些计数器没有额定的阀值,需要和性能基线做对比
SQL跟踪
SQL跟踪的具体用法就不多讲,很多人都已经会用了,SQL跟踪在某个时间点上的捕获远远不如动态性能视图,而且捕获的时候要注意设置过滤不然会捕获大量无用的sql。
性能视图
性能视图是分析的利器:
验证cpu压力的wait event 可以使用 sys.dm_os_wait_stats.
通过sys.dm_os_wait_stats和 sys.dm_os_schedulers,通过wait event 类型诊断。
可以用sys.dm_exec_query_stats和sys.dm_exec_sql_text说明使用大量cpu的执行计划
可以使用sys.dm_os_waiting_task查看cpu相关的等待类型
通过sys.dm_exec_requests查看当前正在的查询的资源使用情况
cpu相关的wait event
sql server 所有的等待信息,都会被记录。可以使用sys.dm_os_wait_stats中查看。这个视图可以用来确定cpu压力,查看cpu绑定系统中大多数的wait event。
Signal wait time
根据特定的等待类型(wait type),有一些等待时间:
wait_time_ms该等待类型所有等待时间。
signal_wait_time_ms从发出信号到开始运行的时间差,时间花费在等待运行队列中,是单纯的cpu等待。
signal_wait_time_ms是所有等待时间的一个重要部分,说明了等待一个可用资源的等待时间。可以表示sql server 中是否正在运行cpu密集型查询。
下面代码量化的像是signal_wait_time_ms占的比重
SELECT SUM(signal_wait_time_ms) AS TotalSignalWaitTime ,
( SUM(CAST(signal_wait_time_ms AS NUMERIC(20, 2)))
/ SUM(CAST(wait_time_ms AS NUMERIC(20, 2))) * 100 )
AS PercentageSignalWaitsOfTotalTime
FROM sys.dm_os_wait_stats
这个dmv记录了统计信息,系统重启之后会被情况,所以如果查看某一时间点情况不是很好用,只能用临近的统计相减,也可以用 dbcc sqlperf清空统计信息。
关于session级和语句级的wait event 可以查看文章:http://sqlblog.com/blogs/jonathan_kehayias/archive/2010/12/30/an-xevent-a-day-30-of-31-tracking-session-and-statement-level-waits.aspx
我们可以使用sys.dm_os_wait_stats查看那个资源等待时间最长。top 10 用等待时间排序,但是这样就容易忽略一开始的等待也就是signal wait time,因此要减去signal_wait_time,作为等待调度器的时间。
下面讨论三个wait type 这三个和cpu压力息息相关。
SOS_SCHEDULER_YIELD等待
sql server 调度器是非抢占式调度,也就是说是依靠查询自动放弃cpu,但是windows是抢占式,也就是说一定时间之后,windows 会直接从cpu上删除任务。
当查询自动放弃cpu,并且等待恢复执行,这个等待就叫做SOS_SCHEDULER_YIELD,如果这个值很小那么就说明,花费在等待cpu上,而不是等待其他资源上。
如果sys.dm_exec_requests或者 sys.dm_os_waiting_tasks 的SOS_SCHEDULER_YIELD的等待值偏高,那么说明有cpu密集型查询,需要优化sql或者增加cpu。
CXPACKET等待
当同步查询进程,worker之间交换迭代器的时候发生CXPACKET等待,特别是发生并发查询的时候。如果是在dw,或者是报表数据库,那么发生sql比较少,并且有大量的并发查询可以减少执行时间。对dw来说是正常的,但是在oltp中大多数是小的sql和事务,如果发生大量的并发,会导致性能下降。
CMEMTHREAD等待
CMEMTHREAD等待就是等待被同步的内存对象。有一些对象支持查询同时访问,有些不支持。当一个查询访问一个对象时,其他查询就必须等待,这就是CMEMTHREAD等待。
通常CMEMTHREAD等待不会很长时间。但是当内存出现问题后,cpu利用率和CMEMTHREAD等待都会变高,这是性能比较差的查询引起的。
调度队列
关于调度队列最主要的视图就是sys.dm_os_schedulers,视图主要的二个指标之一是每个调度器有几个task,和可运行队列的长度。可运行队列内都是等待cpu时钟的task,其他的task在current_tasks_count内,都处于sleep或者在等待其他资源。
SELECT scheduler_id ,
current_tasks_count ,
runnable_tasks_count
FROM sys.dm_os_schedulers
WHERE scheduler_id < 255
这些值没有固定的阀值,只能通过性能基线来对比。当然这些值都是越低越好。如果可运行队列越长那么,signal time 的时间也就越长,就意味着可能cpu不足。
上面的sql过滤掉了一些 scheduler 因为其他的是backup,dac等调度器。
cpu密集型查询
关于cpu密集型查询,有2个性能视图,sys.dm_exec_query_stats和sys.dm_exec_sql_text。sys.dm_exec_query_stats统计了每个查询计划的各类信息。如*_worker_time:cpu花费的时间。*_elapsed_time:总共运行的时间。
下面的sql统计了前10个最费时间的查询:
SELECT TOP ( 10 )
SUBSTRING(ST.text, ( QS.statement_start_offset / 2 ) + 1,
( ( CASE statement_end_offset
WHEN -1 THEN DATALENGTH(st.text)
ELSE QS.statement_end_offset
END - QS.statement_start_offset ) / 2 ) + 1)
AS statement_text ,
execution_count ,
total_worker_time / 1000 AS total_worker_time_ms ,
( total_worker_time / 1000 ) / execution_count
AS avg_worker_time_ms ,
total_logical_reads ,
total_logical_reads / execution_count AS avg_logical_reads ,
total_elapsed_time / 1000 AS total_elapsed_time_ms ,
( total_elapsed_time / 1000 ) / execution_count
AS avg_elapsed_time_ms ,
qp.query_plan
FROM sys.dm_exec_query_stats qs
CROSS APPLY sys.dm_exec_sql_text(qs.sql_handle) st
CROSS APPLY sys.dm_exec_query_plan(qs.plan_handle) qp
ORDER BY total_worker_time DESC
这个查询并不会显示所有的query,执行计划是被保存在cache中的,当cache被淘汰,因为dbcc命令没清理,数据库状态发生变化,数据库配置发生变化等等,都会引起cache丢失的情况。有一些查询使用了recompile标示或者提示那就永远不会被保留在cache中。
如果你要全局的分析执行计划,请使用sql跟踪,而不要事情清空缓存,特别是在生产库中,缓存一旦被清空在一点时间内,讲严重影响性能。
高CPU使用率的创建几种状况
不管在服务器硬件配置和技术上面花了多大的成本,总有怎么一些查询会导致服务器的资源满负荷运行。每个sql被执行的时候,sql server优化器终会找一个尽量高效的方式来获取数据。如果当一个查询miss index或者忽略了合适的索引,那么优化器就无法生存一个真正高效的执行计划。如果优化器相关的信息是不准确的,那么优化器生存的执行计划也是不准备的,因为关于成本的计算也是不准确的。另外一种状况就是优化器生存的结果对一个查询是优化的,但是对其他查询并不优化。因为不合适的参数探测导致了这个问题。
miss index
miss index 是照成大量cpu和io使用的状况之一,也是最常发生的状况。当前的索引并不能满足查询的时候,优化器会试图是用表扫描来完成,这样就照成了大量的非必须的数据参与到预算中,会照成cpu和io的极大浪费。那么我们就以 adventureworks2008 数据库作为例子
SELECT per.FirstName ,
per.LastName ,
p.Name ,
p.ProductNumber ,
OrderDate ,
LineTotal ,
soh.TotalDue
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail sod
ON soh.SalesOrderID = sod.SalesOrderID
INNER JOIN Production.Product AS p ON sod.ProductID = p.ProductID
INNER JOIN Sales.Customer AS c ON soh.CustomerID = c.CustomerID
INNER JOIN Person.Person AS per
ON c.PersonID = per.BusinessEntityID
WHERE LineTotal > 25000
这个查询在salesorderdetail使用了表扫描,因为并没有关于linetotal列的索引
SQL Server parse and compile time:
CPU time = 0 ms, elapsed time = 0 ms.
SQL Server Execution Times:
CPU time = 452 ms, elapsed time = 458 ms.
虽然返回24行只用了半秒的时间但是还是不够优化。那么我们就在linetotal建一个索引
CREATE NONCLUSTERED INDEX idx_SalesOrderDetail_LineTotal
ON Sales.SalesOrderDetail (LineTotal)
那么我们继续运行上面的sql
SQL Server parse and compile time:
CPU time = 0 ms, elapsed time = 0 ms.
SQL Server Execution Times:
CPU time = 0 ms, elapsed time = 8 ms.
结果有很大的不通,通过这个简单的例子说明cpu的压力有可能且很大的可能都是miss index 照成的。
统计数据丢失
优化器会通过统计信息估计每个查询操作的基数。通过估计行数,操作的花费。操作的花费决定了整个计划的花费。如果统计信息不准确,那么优化器的成本计算也就不准确,这样就会导致优化器误判,估计的花费是低的但是并不一定实际的花费也是低的。通常统计值不准确是比实际值要小,一旦小,那么优化器就会选择比较适合较小数量的操作符如nest loop,key lookup,但是实际的数据量很大,这样就会对查询照成严重的影响。有一个方法查看统计值是否丢失,就是在ssms中运行实际的查询计划,并且对比估计值和实际值的差距,如果差距很大那么就是统计数据丢失了,需要及时更新统计值。当然可以通过 update statistics 更新统计值,详细的用法可以参见联机文档。
如果是统计值过期的问题照成的那么有一下3个方法:
1.把数据库设置为自动更新统计值。
2.如果自动更新统计信息无效,那么有可能是索引建立的时候有不计算统计值的标记。
3.创建一个脚本定时更新统计值。
非SARG谓词
就是不要再表的字段上使用函数或者计算,因为你一用,就没办法使用索引了。一不能使用索引,显而易见cpu飙高了,io堵塞了。
隐式类型转化
很多人都认为隐式转化没什么关系,并不会给性能带来多大的冲击。一个过滤如果类型不同那么sql server 是无法比较的,这时候就要隐式转化了,隐式转化的时候都是从低的优先级转化到高的优先级,比如如果一个是varchar一个是nvarchar那么就会把varchar隐式转化成nvarchar。问题就来了如果一个表列是varchar但是过滤的条件是nvarchar,那么就会隐式转化把varchar转化成为nvarchar那么就会发生非SARG谓词,无法使用索引查找了。下面有个例子:
SELECT p.FirstName ,
p.LastName ,
c.AccountNumber
FROM Sales.Customer AS c
INNER JOIN Person.Person AS p ON c.PersonID = p.BusinessEntityID
WHERE AccountNumber = N'AW00029594'
当然 accountnumber 上是有索引的
就变成索引扫描了,我使用2008r2测试,结果不是索引扫描。但是当我把accountnumber 禁用掉之后,尽然和书上发的执行计划是一样的了,让我深深的怀疑,是不是作者在写书的时候,把accountnumber 禁用了而没发现呢?我在网上查了写资料,发现了在sql server 2000下的测试语句ok,在2000 下面是会照成索引扫描。所以大家如果用2008r2的就不需要太担心这个问题。如果在其他版本真的遇到这个问题那么如何解决呢?那么就把类型转化放在常量这一端。或者直接修改表的数据类型。
我把2000的测试语句发出来:
DECLARE @CustID NCHAR(5)
SET @CustID = N'FOLKO'
SELECT CompanyName FROM NorthWind.dbo.Customers WHERE CustomerID = @CustID
这里要注意因为 customers 表的结构是 nchar的所以我们在测试的时候先要修改掉这个数据类型,改为char。northwind里面有外键要统统删掉,主键需要重建。
说到这里,我就和书的作者联系了,根据他给的结论,和测试结果
-- Windows Collation will get a Seek
CREATE TABLE #T (col1 varchar(10) COLLATE
Latin1_General_CI_AS PRIMARY KEY);
SELECT *
FROM #T
WHERE col1 = N'q'
-- SQL Collation will get a Scan
CREATE TABLE #T2 (col1 varchar(10) COLLATE
SQL_Latin1_General_CP1_CI_AI PRIMARY KEY);
SELECT *
FROM #T2
WHERE col1 = N'q'
-- Your Collation will get a Seek
CREATE TABLE #T3 (col1 varchar(10) COLLATE Chinese_PRC_CI_AS PRIMARY KEY);
SELECT *
FROM #T3
WHERE col1 = N'q'
DROP TABLE #T
DROP TABLE #T2
DROP TABLE #T3
当你用SQL Server 的排序规则那么就是扫描如果用windows 的排序规则那么就是查询。
上面就是他发过来的sample
参数探测器
当sql server为存储过程,函数或者参数化查询创建执行计划的时候,会探测参数,并结合统计数据计算花费选择较好的执行计划。参数探测器只会在编译或者重编译的时候发生,那么这里就有个问题如果当创建执行计划的时候该参数的值是非典型的,那么就很可能并不适用于以后传过来的参数。初始化编译的时候,只有输入的参数会被探测,本地变量是不会被探测的。如果一个语句在一个batch 中被重编译那么参数和变量都会被探测。
下面是一个运行在Adventureworks数据库的例子最大日期是2011-7-8 最小日期是2004-8-7.
CREATE PROCEDURE user_GetCustomerShipDates
(
@ShipDateStart DATETIME ,
@ShipDateEnd DATETIME
)
AS
SELECT CustomerID ,
SalesOrderNumber
FROM Sales.SalesOrderHeader
WHERE ShipDate BETWEEN @ShipDateStart AND @ShipDateEnd
GO
会对shipdate进行过滤那么就在shipdate设置一个索引
CREATE NONCLUSTERED
INDEX IDX_ShipDate_ASC
ON Sales.SalesOrderHeader (ShipDate)
GO
接下来会运行2次这个存储过程第一次夸多年的,第二次就夸几天。并查看实际的执行计划
DBCC FREEPROCCACHE
EXEC user_GetCustomerShipDates '2001/07/08', '2004/01/01'
EXEC user_GetCustomerShipDates '2001/07/10', '2001/07/20'
查询结果2个都用了扫描
|--Filter(WHERE:([AdventureWorks].[Sales].[SalesOrderHeader].[ShipDate]>=[@ShipDateStart]
AND [AdventureWorks].[Sales].[SalesOrderHeader].[ShipDate]<=[@ShipDateEnd]))
|--Compute
Scalar(DEFINE:([AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]=[AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]))
|--Compute Scalar(DEFINE:([AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]=isnull(N'SO'+CONVERT(nvarchar(23),[AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderID],0),N'***
ERROR ***')))
|--Table Scan(OBJECT:([AdventureWorks].[Sales].[SalesOrderHeader]))
这个是我的结果和书上的不一样。那么为什么为产生表扫描不是索引查找呢,因为第一个查询在编译的时候优化器任务用表扫描比较合适。但是到第二句的时候,虽然是不合适,但是已经有执行计划存储在了内存里面,sql server 就直接拿来用了,就照成了这个问题。开 SET STATISTICS IO on
表'SalesOrderHeader'。扫描计数1,逻辑读取700 次,物理读取0 次,预读0 次,lob 逻辑读取0 次,lob 物理读取0 次,lob 预读0 次。
那么我们把2个存储过程倒过来:
DBCC FREEPROCCACHE
EXEC user_GetCustomerShipDates '2001/07/10', '2001/07/20'
EXEC user_GetCustomerShipDates '2001/07/08', '2004/01/01'
情况就完全不一样了
|--Compute
Scalar(DEFINE:([AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]=[AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]))
|--Nested
Loops(Inner Join, OUTER REFERENCES:([Bmk1000], [Expr1004]) WITH UNORDERED
PREFETCH)
|--Index
Seek(OBJECT:([AdventureWorks].[Sales].[SalesOrderHeader].[IDX_ShipDate_ASC]),
SEEK:([AdventureWorks].[Sales].[SalesOrderHeader].[ShipDate] >= [@ShipDateStart]
AND [AdventureWorks].[Sales].[SalesOrderHeader].[ShipDate] <= [@ShipDateEnd])
ORDERED FORWARD)
|--Compute Scalar(DEFINE:([AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]=isnull(N'SO'+CONVERT(nvarchar(23),[AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderID],0),N'***
ERROR ***')))
|--RID Lookup(OBJECT:([AdventureWorks].[Sales].[SalesOrderHeader]), SEEK:([Bmk1000]=[Bmk1000]) LOOKUP
ORDERED FORWARD)
果断使用了索引查找,但是对第二句来说索引查找不一定是好事情,因为他要扫描的行太多,如果假定现在树是3层,那么读一个页需要读3次你想想。
表'SalesOrderHeader'。扫描计数1,逻辑读取17155 次,物理读取0 次,预读0 次,lob 逻辑读取0 次,lob 物理读取0 次,lob 预读0 次。
比较一下夸多年的那个存储过程的逻辑读。
通常keylookup只适合较少的数据通常是整表的1%,当然不是绝对的。
跟踪标记4136
SQL Server 2008 引入了一个新的跟踪标记 4316,使用了这个跟踪标记之后sql server 会关掉参数探测功能,这个功能在sql server 2008 sp2 cu7 ,sql server 2--8 r2 cu2,sql
server 2005 sp3 cu9 中才加入。先前讨论过了如果开了参数探测,一个存储过程如果第一次编译的时候估计值偏小,或者偏大,都会对接下来使用这个存储过程产生影响。当参数探测器被停用的时候 4316 跟踪是如何处理的呢,举个例子这里又一个列 X 有如下的值1,2,3,3,3,3,3,4,5,5,那么他的估计值就是2这个哪来的?就是所有数据的平均估计值。所有的计划都会被这个值优化。如果开了这个选项那么会给很多存储过程优化带来好处。
这边有篇关于4316的文章比较简单但是很到位:http://blogs.msdn.com/b/axperf/archive/2010/05/07/important-sql-server-change-parameter-sniffing-and-plan-caching.aspx
使用 OPTIMIZE FOR 提示
到了sql server 2005 以后你可以使用OPTIMIZE FOR 来优化查询
CREATE PROCEDURE user_GetCustomerShipDates
(
@ShipDateStart DATETIME ,
@ShipDateEnd DATETIME
)
AS
SELECT CustomerID ,
SalesOrderNumber
FROM Sales.SalesOrderHeader
WHERE ShipDate BETWEEN @ShipDateStart AND @ShipDateEnd
OPTION ( OPTIMIZE FOR ( @ShipDateStart = '2001/07/08',
@ShipDateEnd = '2004/01/01' ) )
GO
使用了OPTIMIZE FOR 提示那么sql server 就会按提示的信息来编译,当然如果提示的值不理想那么也会产生问题。
在SQL Server 2008 中引入了一个新的提示 OPTIMIZE
FOR UNKNOWN,那么sql server 就不会再用参数探测的功能,它的功效和4316相同,所以这个方法是比较可取的因为毕竟参数探测还是一个比较好的东西。
重编译选项
重编译也是解决参数探测的一个方法,但是问题就是执行计划不会被保存在内存中,但是就有一个问题存储过程的执行的花费就会变高。
CREATE PROCEDURE user_GetCustomerShipDates
(
@ShipDateStart DATETIME ,
@ShipDateEnd DATETIME
)
WITH RECOMPILE
AS
SELECT CustomerID ,
SalesOrderNumber
FROM Sales.SalesOrderHeader
WHERE ShipDate BETWEEN @ShipDateStart AND @ShipDateEnd
GO
如果存储过程中只需要一部分重新编译,那么就可以使用OPTION(RECOMPILE)选项放到查询中即可,相比重编译整个存储过程,这样会好些。
CREATE PROCEDURE user_GetCustomerShipDates
(
@ShipDateStart DATETIME ,
@ShipDateEnd DATETIME
)
AS
SELECT CustomerID ,
SalesOrderNumber
FROM Sales.SalesOrderHeader
WHERE ShipDate BETWEEN @ShipDateStart AND @ShipDateEnd
OPTION ( RECOMPILE )
GO
ad
hoc 非参数化查询
Ad hoc查询语句发送到sql server 的时候优化器还是会从cache查找合适的执行计划。ad hoc 查询会让所有的语句都生产一遍执行计划,这样会照成资源浪费特别是CPU。
SELECT soh.SalesOrderNumber ,
sod.ProductID
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail AS sod
ON soh.SalesOrderID = sod.SalesOrderID
WHERE soh.SalesOrderNumber = 'SO43662'
SELECT soh.SalesOrderNumber ,
sod.ProductID
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail AS sod
ON soh.SalesOrderID = sod.SalesOrderID
WHERE soh.SalesOrderNumber = 'SO58928'
SELECT soh.SalesOrderNumber ,
sod.ProductID
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail AS sod
ON soh.SalesOrderID = sod.SalesOrderID
WHERE soh.SalesOrderNumber = 'SO70907'
很不幸,这三个语句本来是应该可以用同一个执行计划的。现在因为ad hoc 用不了了。如果是简单的查询那么sql server 会使用简单参数化来重用执行计划。但是上面的例子太复杂了所以没办法。那就会有2个问题
1.执行计划缓存充满了单用户的计划,不能被重用。浪费内存空间。
2.执行计划因为不可用所以总是要编译新的计划,导致cpu时钟浪费。
可以用perfmon来监视编译重编译的量
• SQLServer: SQL
Statistics: SQL Compilations/Sec
• SQLServer: SQL
Statistics: Auto-Param Attempts/Sec
• SQLServer: SQL
Statistics: Failed Auto-Param/Sec
如果真的是非参数化照成的问题,那么又很多方法去调整,最好的方式是修改源代码。如果不行那么只能设置sql server 来调整
修改源代码
关于修改源代码就不讨论了,直接给demo自己看。
cmd.CommandType = CommandType.Text;
cmd.CommandText = @"SELECT
soh.SalesOrderNumber,
sod.ProductID
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail AS sod
ON soh.SalesOrderID = sod.SalesOrderID
WHERE soh.SalesOrderNumber = '" + txtSalesOrderNo.Text
+ "'";
dtrSalesOrders = cmd.ExecuteReader();
dtrSalesOrders.Close();
cmd.CommandType = CommandType.Text;
cmd.CommandText = @"SELECT
soh.SalesOrderNumber,
sod.ProductID
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail AS sod
ON soh.SalesOrderID = sod.SalesOrderID
WHERE soh.SalesOrderNumber = @SalesOrderNo";
cmd.Parameters.Add("@SalesOrderNo", SqlDbType.NVarChar,
50);
cmd.Parameters["@SalesOrderNo"].Value = txtSalesOrderNo.Text;
dtrSalesOrders = cmd.ExecuteReader();
强制性参数化
关于强制参数化,可以设置数据库选项
ALTER DATABASE AdventureWorks SET PARAMETERIZATION
FORCED
如果使用强制参数化那么上面我们提过的3个sql的执行计划就变成一个了。可以使用如下sql查询
SELECT b.text,c.* FROM sys.dm_exec_query_stats a
CROSS APPLY sys.dm_exec_sql_text(a.sql_handle) b
CROSS APPLY sys.dm_exec_query_plan(a.plan_handle) c
使用强制参数化很不好,就会使得所有的sql都使用同一个查询计划,不管好坏,有点和参数探测器的问题类似了。
Optimize for ad hoc
workloads
这是一个数据库服务配置项,配置了之后当ad hoc第一次运行的时候sql server 会产生一个子查询计划不能用,当第二次执行的时候产生一个执行计划。可以有效的减少内存压力。
EXEC sp_configure 'show advanced options',1
RECONFIGURE
EXEC sp_configure 'optimize for ad hoc workloads',1
RECONFIGURE
不合适的并发查询
当查询在不同的线程,每个线程在不同的调度器下运行,就可以理解为并发查询。
当一个查询被提交到sql server 优化器,优化器开始估算花费,如果花费比cost threshold for
parallelism 要大,那么优化器会考虑使用并发。max degree of parallelism 用来限制查询的最大并发数如果查询中使用了maxdop提示的话那么最大并发数则为提示的值。并发查询通过把数据水平分区到各个不同的逻辑cpu,通过多个处理器内核执行相同的操作来减少查询的时间。这个对于dw或者报表数据库是很有用的因为数据量很大,而且并发请求比较少。所以能够充分的利用硬件资源,并且减少执行的时间。对于并发的负载还是又一些要素,并不是指余下的设备资源能否应付并发负载带来的大内存分配和磁盘io的问题。并发查询使用的好会给服务器的整体性能带来很大的提升,但是并发负载对oltp系统来说是非常不利的,oltp是又很多小的事务组成,并发量比较大,如果oltp上有并发负载,占据了较长时间的cpu,那么其他事务就会等待并发的完成,导致查询假死在那边。
对于并发的配置参数有2个cost threshold for parallelism ,max degree of parallelism 第一个是启用并发查询的阀值,第二个是最大并发数。当发生不合适的并发的时候,建议的解决方法是调整max degree of parallelism,减少1/2,或者减少1/4或者直接设置为1。当然这个是不理想的解决方案,最理想的解决方案是设置2个配置参数,到一个比较合理的值。
cost threshold for parallelism
cost threshold for
parallelism 是一个启用并发的阀值,查过了就启用并发,没超过就不启用。cost threshold for
parallelism 的默认值是5秒,但是对于大数据库5秒是一个比较小的值,因此设置cost threshold for parallelism 阀值很重要
SET TRANSACTION
ISOLATION LEVEL READ UNCOMMITTED ;
WITH XMLNAMESPACES
(DEFAULT 'http://schemas.microsoft.com/sqlserver/2004/07/showplan')
SELECT query_plan AS CompleteQueryPlan ,
n.value('(@StatementText)[1]', 'VARCHAR(4000)') AS StatementText ,
n.value('(@StatementOptmLevel)[1]', 'VARCHAR(25)')
AS StatementOptimizationLevel ,
n.value('(@StatementSubTreeCost)[1]', 'VARCHAR(128)')
AS StatementSubTreeCost ,
n.query('.') AS ParallelSubTreeXML ,
ecp.usecounts ,
ecp.size_in_bytes
FROM sys.dm_exec_cached_plans AS ecp
CROSS APPLY sys.dm_exec_query_plan(plan_handle) AS eqp
CROSS APPLY query_plan.nodes
('/ShowPlanXML/BatchSequence/Batch/Statements/StmtSimple')
AS qn ( n )
WHERE n.query('.').exist('//RelOp[@PhysicalOp="Parallelism"]') = 1
所以通过以上查询,分析相似的查询。以最小化cpu,io竞争为目标设置cost threshold for parallelism。
max degree of parallelism
sql server 并发查询的并发度有以下3点:
1.可用的处理器数量
2.max degree of parallelism
3.MAXDOP查询提示
如果你的服务器现在出现了并发问题那么修改阀值和最大并发度是解决这个问的最快速的方法。
网上有种说法就是直接把max degree of parallelism设为1,对于oltp系统的特性是可能性的,但是还是觉得你这样设置之后就不能使用并发了,感觉会减少性能。
分析CXPACKETwait event,CXPACKET只是一种症状,并没有真正的发生问题。查看sys.dm_os_waiting_tasks中其他的wait event可以更好的得出合适的 max degree of parallelism。如果相关的等待事件是 PAGEIOLATCH_SH,并发正在等待io读取,减少max degree of parallelism 并不能解决根本问题,它只会减小被使用的工作任务,减少CXPACKET累计等待时间。但是也可能会减少额外的io,给你提示io性能的空间。
并发查询也需要考虑到内存的结构体系,在NUMA结构下,最大并发度设置在一个NUMA节点的可用经常。这样node之间就不会产生交互,因为node间的共享内存操作代价很高。在SMP结构中,多个处理器内核都在单个芯片上共享二级缓存,这样很容易照成内存命中率下降,但是好处是在并发查询下高并发的性能表现很好,当然max degree of parallelism 也要根据硬件设备的能力做适当的调节。在sql server 2008 以上的版本还可以使用资源管理器来限制。
超线程和并发查询
超线程是Intel一个技术,为了提高并发操作,就设计了2个逻辑内核对于1个物理内核。就是说不想以前一个调度器一个物理内核,现在2个内核,并且可以“同时”使用。当然我们关心的是性能,那么sql server 有没有使用超线程,会给sql server 带来什么影响。
对于olap和dss系统并发查询是又很大好处的,但是当开了超线程的时候性能就变差了。但是超线程对oltp没什么影响,对于oltp来说超线程在增加并发度是又好处的。对于早期的超线程因为会带来很多问题所以dba都是在bios中关闭超线程的。近几年sql server 2008 发布了建议关闭超线程特别是olap/dw/dss系统。超线程最大的问题是超线程会共享内置的cache,照成命中率下降。现在很多问题都解决了,windows 2003 就能认识物理内核和逻辑内核,并且给予不同的工作量。现在的处理器缓存变大不容易发生。事实上对于当前的处理器结构,特别是intel nehalem,开超线程是有好处的,除非是有明确的理由。所以在决定是否使用超线程的时候最好先做一下测试。
诊断不合适的并发查询
最好诊断的方法是查看wait统计信息和latch统计信息,当执行并发的时候出现瓶颈,CXPACKET等待就会变的很高。当并发查询等待交换迭代器到另外一个工作任务的时候就会发生等待。通常这里也会有一些相关的其他等待,来协助工作,因为大量的并发查询,CXPACKET的等待会比根本原因盖过去。最好的方法是分隔在troubleshooting各个相关的等待时间。因为并发查询会影响全局的性能问题。CXPACKET很有可能只是一个症状很多问题都会引起CXPACKET偏高。当io不能维持并发查询的需求,关键的等待可能是IO_COMPLETION,ASYNC_IO_COMPLETION,PAGEIOLATCH_*,不能扩展io性能。但是减小并发度,任然会发生io性能瓶颈的状况,那么就要提从全局的系统性能。如果CXPACKE相关的等待是LATCH_*,SOS_SCHEDULER_YIELD,那么很有可能是并发的问题,深入latch验证是并发的问题。sys.dm_os_latch_stats包含一些特殊的latch等待,如ACCESS_METHODS_DATASET_PARENT,LATCH_*,SOS_SCHEDULER_YIELD等待都比较高,那么减少并发度就可能解决问题。
解决并发问题
先前已经讨论过,对于大的,长运行时间的查询使用并发很有好处。不合适的并发主要问题是负载类型是混合的。很多库本质上是oltp的但是因为sql比较复杂超过了cost threshold for parallelism。所以试图提升一下cpu性能。如果诊断到了并发存在问题,如果没有被调整过,那么很有可能因为索引丢失或者不合适的索引造成问题,如果调整完之后还是这样那么就用先前提到的2个系统配置参数,来全局的管理数据库并发。
TokenAndPermUserStore
TokenAndPermUserStore在2005的时候被引进来优化关于权限验证,怎么TokenAndPermUserStore是怎么工作的呢?这里有一个简单的例子说明TokenAndPermUserStore的工作情况。例子当你执行的时候select * from t1 join t2 join t3,那么sql sever 就会对权限进行验证,验证后会缓存在TokenAndPermUserStore以免以后重复验证。但是这个会引起性能问题,特别是较早版本的sql server 2005,因为这个cache的内存限制过高性能问题的表现为cpu使用率比较高,cmemthread等待比较严重。微软已经给出了一个解决方案http://support.microsoft.com/kb/927396/通常问题发生在非awe内存分配的sql server 上(特别是64b的服务器),很多动态的或者 adhoc查询,数据库用户过多。你可以使用如下sql查询TokenAndPermUserStore使用量:
SELECT SUM(single_pages_kb + multi_pages_kb) / 1024.0 AS CacheSizeMB
FROM sys.dm_os_memory_clerks
WHERE [name] = 'TokenAndPermUserStore'
如果cache一直增长,并且伴随着cmemthread等待,那么很有可能导致高cpu使用率,如果使用sql server2005低于sp2补丁,那么第一时间就是打上补丁。嫌少动态sql和adhoc来减少发生问题的概率。
短期修复
使用sysadmin角色,因为sysadmin是sql server 最大的权限,不需要做权限检查。那么也就不会产生cache
定期清理cache:DBCC FREESYSTEMCACHE ('TokenAndPermUserStore')
在sql 2005 sp2 以上版本使用 trace flage
4618,4610来限制cache中的条目数量,当4618开启,cache中只能有1024个cache,当2个trace flag 都开启那么又8192个条目。这个限制会影响其他cache,因此只能临时使用。sql server 2005 sp3以后有个新的trace flag 4612,可以设置客户端的配额详细看:(http://support.microsoft.com/kb/959823)
sql2008的配置项
在sql server 2008 对于TokenAndPermUserStore有2个配置项,access check cache quota,access check cache bucket count,如果问题很明显的发生,那么就减少这2个值的大小,其实并不建议修改默认值,除非又微软客服支持。
总结
troubleshooting是一个分析问题的过程,我上一篇文章也说了,是一个根据统计的信息,分析问题的过程。因此需要了解数据库内核,内部运行的结构才能更好的进行调优。调优第一步的信息往往都是来至于perfmon,和动态性能视图,最后才是sqltrace,为啥,因为sqltrace最浪费时间,会有滞后性,所以已经滞后了还不如放到最后运行。
参考资料:
Implicit data conversations
•http://sqlblog.com/blogs/jonathan_kehayias/archive/2010/01/08/findingimplicit-column-conversions-in-the-plan-cache.aspx Query tuning
• http://www.straightpathsql.com/presentations/ucandoit/
•
http://www.simple-talk.com/sql/performance/simple-query-tuning-with-statistics-io-and-execution-plans/
•http://www.simple-talk.com/sql/t-sql-programming/13-things-youshould-know-about-statistics-and-the-query-optimizer/
• http://www.simple-talk.com/author/gail-shaw/ Estimated vs. actual row counts
• http://sqlinthewild.co.za/index.php/2009/09/22/estimated-rows-actual-rows-and-execution-count/ Cost threshold for parallelism
• http://sqlblog.com/blogs/jonathan_kehayias/archive/2010/01/26/21172.aspx
• Max degree of parallelism
• http://msdn.microsoft.com/en-us/library/ms181007.aspx Query hints
• http://msdn.microsoft.com/en-us/library/ms181714.aspx Guidelines for modifying MAXDOP
• http://support.microsoft.com/kb/329204 Limiting MAXDOP with the Resource
Governor
•http://www.sqlmag.com/blog/sql-server-questions-answered-28/database-administration/controlling-maxdop-executing-queries-140163 Parallelism/MAXDOP configuration
• http://msdn.microsoft.com/en-us/library/ms178065.aspx
• http://msdn.microsoft.com/en-us/library/ms188611.aspx
• http://blogs.msdn.com/b/joesack/archive/2009/03/18/should-you-worryabout-sos-scheduler-yield.aspx
SQLOS architecture
• http://blogs.msdn.com/b/sqlosteam/archive/2010/06/23/sqlos-resources.aspx
•http://sqlblogcasts.com/blogs/sqlworkshops/archive/2007/11/25/findingoptimal-number-of-cpus-for-a-given-long-running-cpu-intensive-dss-olaplike-queries-workload.aspx System Monitor CPU counters
• http://msdn.microsoft.com/en-us/library/ms178072.aspx DMV usage for CPU usage from ring
buffers
•http://troubleshootingsql.com/2009/12/30/how-to-find-out-the-cpuusage-information-for-the-sql-server-process-using-ring-buffers/
• http://msdn.microsoft.com/en-us/library/ms175048(SQL.90).aspx
• http://technet.microsoft.com/en-us/library/cc966540.aspx Forced parameterization
• http://technet.microsoft.com/en-us/library/ms175037(SQL.90).aspx Fixing TokenAndPermUserStore
problems Identification and overview
• http://support.microsoft.com/kb/927396 Access check result cache
• http://support.microsoft.com/kb/955644
• http://msdn.microsoft.com/en-us/library/cc645588.aspx
• Purging the cache whenever it reaches a certain size
•
http://blogs.msdn.com/chrissk/archive/2008/06/19/script-to-purgetokenandpermuserstore.aspx
SQL Server 2008 sp_configure
options
• http://support.microsoft.com/kb/955644/en-us
• Hot-fixes associated with this problem
• http://support.microsoft.com/kb/959823
SQL Server 性能调优(cpu)
研究cpu压力工具
perfom
SQL跟踪
性能视图
cpu相关的wait event
Signal wait time
SOS_SCHEDULER_YIELD等待
CXPACKET等待
CMEMTHREAD等待
调度队列
cpu密集型查询
高CPU使用率的创建几种状况
miss index
统计数据丢失
非SARG谓词
隐式类型转化
参数探测器
ad hoc 非参数化查询
修改源代码
强制性参数化
不合适的并发查询
cost threshold for parallelism
max degree of parallelism
超线程和并发查询
诊断不合适的并发查询
解决并发问题
TokenAndPermUserStore
总结
参考资料:
cpu在sql server 中扮演了很重要的角色,虽然cpu绑定的服务器排除cpu问题相对比较简单,但并不意味着总是简单。如果你的1个或多个cpu满负荷运行,那么就要小心了。sql server 对cpu的使用无处不在,所以如果cpu满负荷运行,那么问题很严重。
cpu性能出现问题,一般很慢盘查为啥,因为会照成cpu性能问题的很多,如内存不足,数据换进换出,cpu一路飙高。写操作性能很烂,索引建的不合适,sql server 配置等问题都会引起cpu过高的问题。所以cpu性能盘查需要很小心和仔细。
不管是什么问题引发的,对cpu的性能分析就是把问题隔离到一个特定资源,我们可以使用perfmon,性能视图,还有sql跟踪来收集资源。
一旦发生问题,我们就要把问题锁定在一个或多个查询上,对其进行调整如调整cpu密集型的查询,添加合适的索引,使用存储过程替换ad hoc查询等等。
研究cpu压力工具
perfom
对于cpu压力的研究我们一般使用一下工具:perfmon,SQL跟踪,动态性能视图
perfmon我们可以跟踪如下性能指标:
Processor/ %Privileged Time --内核级别的cpu使用率
Processor/ %User Time --用户几倍的cpu使用率
Process (sqlservr.exe)/ %Processor Time --某个进程的cpu使用率
上面3个性能指标是全局范围的,SQL Satatistics 计数器虽然不能直接说明cpu的使用率但是可以间接的说明cpu的使用情况。
• SQLServer:SQL Statistics/Auto-Param Attempts/sec
• SQLServer:SQL Statistics/Failed Auto-params/sec
• SQLServer:SQL Statistics/Batch Requests/sec
• SQLServer:SQL Statistics/SQL Compilations/sec
• SQLServer:SQL Statistics/SQL Re-Compilations/sec
• SQLServer:Plan Cache/Cache hit Ratio
这些计数器没有额定的阀值,需要和性能基线做对比
SQL跟踪
SQL跟踪的具体用法就不多讲,很多人都已经会用了,SQL跟踪在某个时间点上的捕获远远不如动态性能视图,而且捕获的时候要注意设置过滤不然会捕获大量无用的sql。
性能视图
性能视图是分析的利器:
验证cpu压力的wait event 可以使用 sys.dm_os_wait_stats.
通过sys.dm_os_wait_stats和 sys.dm_os_schedulers,通过wait event 类型诊断。
可以用sys.dm_exec_query_stats和sys.dm_exec_sql_text说明使用大量cpu的执行计划
可以使用sys.dm_os_waiting_task查看cpu相关的等待类型
通过sys.dm_exec_requests查看当前正在的查询的资源使用情况
cpu相关的wait event
sql server 所有的等待信息,都会被记录。可以使用sys.dm_os_wait_stats中查看。这个视图可以用来确定cpu压力,查看cpu绑定系统中大多数的wait event。
Signal wait time
根据特定的等待类型(wait type),有一些等待时间:
wait_time_ms该等待类型所有等待时间。
signal_wait_time_ms从发出信号到开始运行的时间差,时间花费在等待运行队列中,是单纯的cpu等待。
signal_wait_time_ms是所有等待时间的一个重要部分,说明了等待一个可用资源的等待时间。可以表示sql server 中是否正在运行cpu密集型查询。
下面代码量化的像是signal_wait_time_ms占的比重
SELECT SUM(signal_wait_time_ms) AS TotalSignalWaitTime ,
( SUM(CAST(signal_wait_time_ms AS NUMERIC(20, 2)))
/ SUM(CAST(wait_time_ms AS NUMERIC(20, 2))) * 100 )
AS PercentageSignalWaitsOfTotalTime
FROM sys.dm_os_wait_stats
这个dmv记录了统计信息,系统重启之后会被情况,所以如果查看某一时间点情况不是很好用,只能用临近的统计相减,也可以用 dbcc sqlperf清空统计信息。
关于session级和语句级的wait event 可以查看文章:http://sqlblog.com/blogs/jonathan_kehayias/archive/2010/12/30/an-xevent-a-day-30-of-31-tracking-session-and-statement-level-waits.aspx
我们可以使用sys.dm_os_wait_stats查看那个资源等待时间最长。top 10 用等待时间排序,但是这样就容易忽略一开始的等待也就是signal wait time,因此要减去signal_wait_time,作为等待调度器的时间。
下面讨论三个wait type 这三个和cpu压力息息相关。
SOS_SCHEDULER_YIELD等待
sql server 调度器是非抢占式调度,也就是说是依靠查询自动放弃cpu,但是windows是抢占式,也就是说一定时间之后,windows 会直接从cpu上删除任务。
当查询自动放弃cpu,并且等待恢复执行,这个等待就叫做SOS_SCHEDULER_YIELD,如果这个值很小那么就说明,花费在等待cpu上,而不是等待其他资源上。
如果sys.dm_exec_requests或者 sys.dm_os_waiting_tasks 的SOS_SCHEDULER_YIELD的等待值偏高,那么说明有cpu密集型查询,需要优化sql或者增加cpu。
CXPACKET等待
当同步查询进程,worker之间交换迭代器的时候发生CXPACKET等待,特别是发生并发查询的时候。如果是在dw,或者是报表数据库,那么发生sql比较少,并且有大量的并发查询可以减少执行时间。对dw来说是正常的,但是在oltp中大多数是小的sql和事务,如果发生大量的并发,会导致性能下降。
CMEMTHREAD等待
CMEMTHREAD等待就是等待被同步的内存对象。有一些对象支持查询同时访问,有些不支持。当一个查询访问一个对象时,其他查询就必须等待,这就是CMEMTHREAD等待。
通常CMEMTHREAD等待不会很长时间。但是当内存出现问题后,cpu利用率和CMEMTHREAD等待都会变高,这是性能比较差的查询引起的。
调度队列
关于调度队列最主要的视图就是sys.dm_os_schedulers,视图主要的二个指标之一是每个调度器有几个task,和可运行队列的长度。可运行队列内都是等待cpu时钟的task,其他的task在current_tasks_count内,都处于sleep或者在等待其他资源。
SELECT scheduler_id ,
current_tasks_count ,
runnable_tasks_count
FROM sys.dm_os_schedulers
WHERE scheduler_id < 255
这些值没有固定的阀值,只能通过性能基线来对比。当然这些值都是越低越好。如果可运行队列越长那么,signal time 的时间也就越长,就意味着可能cpu不足。
上面的sql过滤掉了一些 scheduler 因为其他的是backup,dac等调度器。
cpu密集型查询
关于cpu密集型查询,有2个性能视图,sys.dm_exec_query_stats和sys.dm_exec_sql_text。sys.dm_exec_query_stats统计了每个查询计划的各类信息。如*_worker_time:cpu花费的时间。*_elapsed_time:总共运行的时间。
下面的sql统计了前10个最费时间的查询:
SELECT TOP ( 10 )
SUBSTRING(ST.text, ( QS.statement_start_offset / 2 ) + 1,
( ( CASE statement_end_offset
WHEN -1 THEN DATALENGTH(st.text)
ELSE QS.statement_end_offset
END - QS.statement_start_offset ) / 2 ) + 1)
AS statement_text ,
execution_count ,
total_worker_time / 1000 AS total_worker_time_ms ,
( total_worker_time / 1000 ) / execution_count
AS avg_worker_time_ms ,
total_logical_reads ,
total_logical_reads / execution_count AS avg_logical_reads ,
total_elapsed_time / 1000 AS total_elapsed_time_ms ,
( total_elapsed_time / 1000 ) / execution_count
AS avg_elapsed_time_ms ,
qp.query_plan
FROM sys.dm_exec_query_stats qs
CROSS APPLY sys.dm_exec_sql_text(qs.sql_handle) st
CROSS APPLY sys.dm_exec_query_plan(qs.plan_handle) qp
ORDER BY total_worker_time DESC
这个查询并不会显示所有的query,执行计划是被保存在cache中的,当cache被淘汰,因为dbcc命令没清理,数据库状态发生变化,数据库配置发生变化等等,都会引起cache丢失的情况。有一些查询使用了recompile标示或者提示那就永远不会被保留在cache中。
如果你要全局的分析执行计划,请使用sql跟踪,而不要事情清空缓存,特别是在生产库中,缓存一旦被清空在一点时间内,讲严重影响性能。
高CPU使用率的创建几种状况
不管在服务器硬件配置和技术上面花了多大的成本,总有怎么一些查询会导致服务器的资源满负荷运行。每个sql被执行的时候,sql server优化器终会找一个尽量高效的方式来获取数据。如果当一个查询miss index或者忽略了合适的索引,那么优化器就无法生存一个真正高效的执行计划。如果优化器相关的信息是不准确的,那么优化器生存的执行计划也是不准备的,因为关于成本的计算也是不准确的。另外一种状况就是优化器生存的结果对一个查询是优化的,但是对其他查询并不优化。因为不合适的参数探测导致了这个问题。
miss index
miss index 是照成大量cpu和io使用的状况之一,也是最常发生的状况。当前的索引并不能满足查询的时候,优化器会试图是用表扫描来完成,这样就照成了大量的非必须的数据参与到预算中,会照成cpu和io的极大浪费。那么我们就以 adventureworks2008 数据库作为例子
SELECT per.FirstName ,
per.LastName ,
p.Name ,
p.ProductNumber ,
OrderDate ,
LineTotal ,
soh.TotalDue
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail sod
ON soh.SalesOrderID = sod.SalesOrderID
INNER JOIN Production.Product AS p ON sod.ProductID = p.ProductID
INNER JOIN Sales.Customer AS c ON soh.CustomerID = c.CustomerID
INNER JOIN Person.Person AS per
ON c.PersonID = per.BusinessEntityID
WHERE LineTotal > 25000
这个查询在salesorderdetail使用了表扫描,因为并没有关于linetotal列的索引
SQL Server parse and compile time:
CPU time = 0 ms, elapsed time = 0 ms.
SQL Server Execution Times:
CPU time = 452 ms, elapsed time = 458 ms.
虽然返回24行只用了半秒的时间但是还是不够优化。那么我们就在linetotal建一个索引
CREATE NONCLUSTERED INDEX idx_SalesOrderDetail_LineTotal
ON Sales.SalesOrderDetail (LineTotal)
那么我们继续运行上面的sql
SQL Server parse and compile time:
CPU time = 0 ms, elapsed time = 0 ms.
SQL Server Execution Times:
CPU time = 0 ms, elapsed time = 8 ms.
结果有很大的不通,通过这个简单的例子说明cpu的压力有可能且很大的可能都是miss index 照成的。
统计数据丢失
优化器会通过统计信息估计每个查询操作的基数。通过估计行数,操作的花费。操作的花费决定了整个计划的花费。如果统计信息不准确,那么优化器的成本计算也就不准确,这样就会导致优化器误判,估计的花费是低的但是并不一定实际的花费也是低的。通常统计值不准确是比实际值要小,一旦小,那么优化器就会选择比较适合较小数量的操作符如nest loop,key lookup,但是实际的数据量很大,这样就会对查询照成严重的影响。有一个方法查看统计值是否丢失,就是在ssms中运行实际的查询计划,并且对比估计值和实际值的差距,如果差距很大那么就是统计数据丢失了,需要及时更新统计值。当然可以通过 update statistics 更新统计值,详细的用法可以参见联机文档。
如果是统计值过期的问题照成的那么有一下3个方法:
1.把数据库设置为自动更新统计值。
2.如果自动更新统计信息无效,那么有可能是索引建立的时候有不计算统计值的标记。
3.创建一个脚本定时更新统计值。
非SARG谓词
就是不要再表的字段上使用函数或者计算,因为你一用,就没办法使用索引了。一不能使用索引,显而易见cpu飙高了,io堵塞了。
隐式类型转化
很多人都认为隐式转化没什么关系,并不会给性能带来多大的冲击。一个过滤如果类型不同那么sql server 是无法比较的,这时候就要隐式转化了,隐式转化的时候都是从低的优先级转化到高的优先级,比如如果一个是varchar一个是nvarchar那么就会把varchar隐式转化成nvarchar。问题就来了如果一个表列是varchar但是过滤的条件是nvarchar,那么就会隐式转化把varchar转化成为nvarchar那么就会发生非SARG谓词,无法使用索引查找了。下面有个例子:
SELECT p.FirstName ,
p.LastName ,
c.AccountNumber
FROM Sales.Customer AS c
INNER JOIN Person.Person AS p ON c.PersonID = p.BusinessEntityID
WHERE AccountNumber = N'AW00029594'
当然 accountnumber 上是有索引的
就变成索引扫描了,我使用2008r2测试,结果不是索引扫描。但是当我把accountnumber 禁用掉之后,尽然和书上发的执行计划是一样的了,让我深深的怀疑,是不是作者在写书的时候,把accountnumber 禁用了而没发现呢?我在网上查了写资料,发现了在sql server 2000下的测试语句ok,在2000 下面是会照成索引扫描。所以大家如果用2008r2的就不需要太担心这个问题。如果在其他版本真的遇到这个问题那么如何解决呢?那么就把类型转化放在常量这一端。或者直接修改表的数据类型。
我把2000的测试语句发出来:
DECLARE @CustID NCHAR(5)
SET @CustID = N'FOLKO'
SELECT CompanyName FROM NorthWind.dbo.Customers WHERE CustomerID = @CustID
这里要注意因为 customers 表的结构是 nchar的所以我们在测试的时候先要修改掉这个数据类型,改为char。northwind里面有外键要统统删掉,主键需要重建。
说到这里,我就和书的作者联系了,根据他给的结论,和测试结果
-- Windows Collation will get a Seek
CREATE TABLE #T (col1 varchar(10) COLLATE Latin1_General_CI_AS PRIMARY KEY);
SELECT *
FROM #T
WHERE col1 = N'q'
-- SQL Collation will get a Scan
CREATE TABLE #T2 (col1 varchar(10) COLLATE SQL_Latin1_General_CP1_CI_AI PRIMARY KEY);
SELECT *
FROM #T2
WHERE col1 = N'q'
-- Your Collation will get a Seek
CREATE TABLE #T3 (col1 varchar(10) COLLATE Chinese_PRC_CI_AS PRIMARY KEY);
SELECT *
FROM #T3
WHERE col1 = N'q'
DROP TABLE #T
DROP TABLE #T2
DROP TABLE #T3
当你用SQL Server 的排序规则那么就是扫描如果用windows 的排序规则那么就是查询。
上面就是他发过来的sample
参数探测器
当sql server为存储过程,函数或者参数化查询创建执行计划的时候,会探测参数,并结合统计数据计算花费选择较好的执行计划。参数探测器只会在编译或者重编译的时候发生,那么这里就有个问题如果当创建执行计划的时候该参数的值是非典型的,那么就很可能并不适用于以后传过来的参数。初始化编译的时候,只有输入的参数会被探测,本地变量是不会被探测的。如果一个语句在一个batch 中被重编译那么参数和变量都会被探测。
下面是一个运行在Adventureworks数据库的例子最大日期是2011-7-8 最小日期是2004-8-7.
CREATE PROCEDURE user_GetCustomerShipDates
(
@ShipDateStart DATETIME ,
@ShipDateEnd DATETIME
)
AS
SELECT CustomerID ,
SalesOrderNumber
FROM Sales.SalesOrderHeader
WHERE ShipDate BETWEEN @ShipDateStart AND @ShipDateEnd
GO
会对shipdate进行过滤那么就在shipdate设置一个索引
CREATE NONCLUSTERED INDEX IDX_ShipDate_ASC
ON Sales.SalesOrderHeader (ShipDate)
GO
接下来会运行2次这个存储过程第一次夸多年的,第二次就夸几天。并查看实际的执行计划
DBCC FREEPROCCACHE
EXEC user_GetCustomerShipDates '2001/07/08', '2004/01/01'
EXEC user_GetCustomerShipDates '2001/07/10', '2001/07/20'
查询结果2个都用了扫描
|--Filter(WHERE:([AdventureWorks].[Sales].[SalesOrderHeader].[ShipDate]>=[@ShipDateStart] AND [AdventureWorks].[Sales].[SalesOrderHeader].[ShipDate]<=[@ShipDateEnd]))
|--Compute Scalar(DEFINE:([AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]=[AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]))
|--Compute Scalar(DEFINE:([AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]=isnull(N'SO'+CONVERT(nvarchar(23),[AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderID],0),N'*** ERROR ***')))
|--Table Scan(OBJECT:([AdventureWorks].[Sales].[SalesOrderHeader]))
这个是我的结果和书上的不一样。那么为什么为产生表扫描不是索引查找呢,因为第一个查询在编译的时候优化器任务用表扫描比较合适。但是到第二句的时候,虽然是不合适,但是已经有执行计划存储在了内存里面,sql server 就直接拿来用了,就照成了这个问题。开 SET STATISTICS IO on
表'SalesOrderHeader'。扫描计数1,逻辑读取700 次,物理读取0 次,预读0 次,lob 逻辑读取0 次,lob 物理读取0 次,lob 预读0 次。
那么我们把2个存储过程倒过来:
DBCC FREEPROCCACHE
EXEC user_GetCustomerShipDates '2001/07/10', '2001/07/20'
EXEC user_GetCustomerShipDates '2001/07/08', '2004/01/01'
情况就完全不一样了
|--Compute Scalar(DEFINE:([AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]=[AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]))
|--Nested Loops(Inner Join, OUTER REFERENCES:([Bmk1000], [Expr1004]) WITH UNORDERED PREFETCH)
|--Index Seek(OBJECT:([AdventureWorks].[Sales].[SalesOrderHeader].[IDX_ShipDate_ASC]), SEEK:([AdventureWorks].[Sales].[SalesOrderHeader].[ShipDate] >= [@ShipDateStart] AND [AdventureWorks].[Sales].[SalesOrderHeader].[ShipDate] <= [@ShipDateEnd]) ORDERED FORWARD)
|--Compute Scalar(DEFINE:([AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderNumber]=isnull(N'SO'+CONVERT(nvarchar(23),[AdventureWorks].[Sales].[SalesOrderHeader].[SalesOrderID],0),N'*** ERROR ***')))
|--RID Lookup(OBJECT:([AdventureWorks].[Sales].[SalesOrderHeader]), SEEK:([Bmk1000]=[Bmk1000]) LOOKUP ORDERED FORWARD)
果断使用了索引查找,但是对第二句来说索引查找不一定是好事情,因为他要扫描的行太多,如果假定现在树是3层,那么读一个页需要读3次你想想。
表'SalesOrderHeader'。扫描计数1,逻辑读取17155 次,物理读取0 次,预读0 次,lob 逻辑读取0 次,lob 物理读取0 次,lob 预读0 次。
比较一下夸多年的那个存储过程的逻辑读。
通常keylookup只适合较少的数据通常是整表的1%,当然不是绝对的。
跟踪标记4136
SQL Server 2008 引入了一个新的跟踪标记 4316,使用了这个跟踪标记之后sql server 会关掉参数探测功能,这个功能在sql server 2008 sp2 cu7 ,sql server 2--8 r2 cu2,sql server 2005 sp3 cu9 中才加入。先前讨论过了如果开了参数探测,一个存储过程如果第一次编译的时候估计值偏小,或者偏大,都会对接下来使用这个存储过程产生影响。当参数探测器被停用的时候 4316 跟踪是如何处理的呢,举个例子这里又一个列 X 有如下的值1,2,3,3,3,3,3,4,5,5,那么他的估计值就是2这个哪来的?就是所有数据的平均估计值。所有的计划都会被这个值优化。如果开了这个选项那么会给很多存储过程优化带来好处。
这边有篇关于4316的文章比较简单但是很到位:http://blogs.msdn.com/b/axperf/archive/2010/05/07/important-sql-server-change-parameter-sniffing-and-plan-caching.aspx
使用 OPTIMIZE FOR 提示
到了sql server 2005 以后你可以使用OPTIMIZE FOR 来优化查询
CREATE PROCEDURE user_GetCustomerShipDates
(
@ShipDateStart DATETIME ,
@ShipDateEnd DATETIME
)
AS
SELECT CustomerID ,
SalesOrderNumber
FROM Sales.SalesOrderHeader
WHERE ShipDate BETWEEN @ShipDateStart AND @ShipDateEnd
OPTION ( OPTIMIZE FOR ( @ShipDateStart = '2001/07/08',
@ShipDateEnd = '2004/01/01' ) )
GO
使用了OPTIMIZE FOR 提示那么sql server 就会按提示的信息来编译,当然如果提示的值不理想那么也会产生问题。
在SQL Server 2008 中引入了一个新的提示 OPTIMIZE FOR UNKNOWN,那么sql server 就不会再用参数探测的功能,它的功效和4316相同,所以这个方法是比较可取的因为毕竟参数探测还是一个比较好的东西。
重编译选项
重编译也是解决参数探测的一个方法,但是问题就是执行计划不会被保存在内存中,但是就有一个问题存储过程的执行的花费就会变高。
CREATE PROCEDURE user_GetCustomerShipDates
(
@ShipDateStart DATETIME ,
@ShipDateEnd DATETIME
)
WITH RECOMPILE
AS
SELECT CustomerID ,
SalesOrderNumber
FROM Sales.SalesOrderHeader
WHERE ShipDate BETWEEN @ShipDateStart AND @ShipDateEnd
GO
如果存储过程中只需要一部分重新编译,那么就可以使用OPTION(RECOMPILE)选项放到查询中即可,相比重编译整个存储过程,这样会好些。
CREATE PROCEDURE user_GetCustomerShipDates
(
@ShipDateStart DATETIME ,
@ShipDateEnd DATETIME
)
AS
SELECT CustomerID ,
SalesOrderNumber
FROM Sales.SalesOrderHeader
WHERE ShipDate BETWEEN @ShipDateStart AND @ShipDateEnd
OPTION ( RECOMPILE )
GO
ad hoc 非参数化查询
Ad hoc查询语句发送到sql server 的时候优化器还是会从cache查找合适的执行计划。ad hoc 查询会让所有的语句都生产一遍执行计划,这样会照成资源浪费特别是CPU。
SELECT soh.SalesOrderNumber ,
sod.ProductID
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail AS sod
ON soh.SalesOrderID = sod.SalesOrderID
WHERE soh.SalesOrderNumber = 'SO43662'
SELECT soh.SalesOrderNumber ,
sod.ProductID
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail AS sod
ON soh.SalesOrderID = sod.SalesOrderID
WHERE soh.SalesOrderNumber = 'SO58928'
SELECT soh.SalesOrderNumber ,
sod.ProductID
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail AS sod
ON soh.SalesOrderID = sod.SalesOrderID
WHERE soh.SalesOrderNumber = 'SO70907'
很不幸,这三个语句本来是应该可以用同一个执行计划的。现在因为ad hoc 用不了了。如果是简单的查询那么sql server 会使用简单参数化来重用执行计划。但是上面的例子太复杂了所以没办法。那就会有2个问题
1.执行计划缓存充满了单用户的计划,不能被重用。浪费内存空间。
2.执行计划因为不可用所以总是要编译新的计划,导致cpu时钟浪费。
可以用perfmon来监视编译重编译的量
• SQLServer: SQL Statistics: SQL Compilations/Sec
• SQLServer: SQL Statistics: Auto-Param Attempts/Sec
• SQLServer: SQL Statistics: Failed Auto-Param/Sec
如果真的是非参数化照成的问题,那么又很多方法去调整,最好的方式是修改源代码。如果不行那么只能设置sql server 来调整
修改源代码
关于修改源代码就不讨论了,直接给demo自己看。
cmd.CommandType = CommandType.Text;
cmd.CommandText = @"SELECT soh.SalesOrderNumber,
sod.ProductID
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail AS sod
ON soh.SalesOrderID = sod.SalesOrderID
WHERE soh.SalesOrderNumber = '" + txtSalesOrderNo.Text + "'";
dtrSalesOrders = cmd.ExecuteReader();
dtrSalesOrders.Close();
cmd.CommandType = CommandType.Text;
cmd.CommandText = @"SELECT soh.SalesOrderNumber,
sod.ProductID
FROM Sales.SalesOrderHeader AS soh
INNER JOIN Sales.SalesOrderDetail AS sod
ON soh.SalesOrderID = sod.SalesOrderID
WHERE soh.SalesOrderNumber = @SalesOrderNo";
cmd.Parameters.Add("@SalesOrderNo", SqlDbType.NVarChar, 50);
cmd.Parameters["@SalesOrderNo"].Value = txtSalesOrderNo.Text;
dtrSalesOrders = cmd.ExecuteReader();
强制性参数化
关于强制参数化,可以设置数据库选项
ALTER DATABASE AdventureWorks SET PARAMETERIZATION FORCED
如果使用强制参数化那么上面我们提过的3个sql的执行计划就变成一个了。可以使用如下sql查询
SELECT b.text,c.* FROM sys.dm_exec_query_stats a
CROSS APPLY sys.dm_exec_sql_text(a.sql_handle) b
CROSS APPLY sys.dm_exec_query_plan(a.plan_handle) c
使用强制参数化很不好,就会使得所有的sql都使用同一个查询计划,不管好坏,有点和参数探测器的问题类似了。
Optimize for ad hoc workloads
这是一个数据库服务配置项,配置了之后当ad hoc第一次运行的时候sql server 会产生一个子查询计划不能用,当第二次执行的时候产生一个执行计划。可以有效的减少内存压力。
EXEC sp_configure 'show advanced options',1
RECONFIGURE
EXEC sp_configure 'optimize for ad hoc workloads',1
RECONFIGURE
不合适的并发查询
当查询在不同的线程,每个线程在不同的调度器下运行,就可以理解为并发查询。
当一个查询被提交到sql server 优化器,优化器开始估算花费,如果花费比cost threshold for parallelism 要大,那么优化器会考虑使用并发。max degree of parallelism 用来限制查询的最大并发数如果查询中使用了maxdop提示的话那么最大并发数则为提示的值。并发查询通过把数据水平分区到各个不同的逻辑cpu,通过多个处理器内核执行相同的操作来减少查询的时间。这个对于dw或者报表数据库是很有用的因为数据量很大,而且并发请求比较少。所以能够充分的利用硬件资源,并且减少执行的时间。对于并发的负载还是又一些要素,并不是指余下的设备资源能否应付并发负载带来的大内存分配和磁盘io的问题。并发查询使用的好会给服务器的整体性能带来很大的提升,但是并发负载对oltp系统来说是非常不利的,oltp是又很多小的事务组成,并发量比较大,如果oltp上有并发负载,占据了较长时间的cpu,那么其他事务就会等待并发的完成,导致查询假死在那边。
对于并发的配置参数有2个cost threshold for parallelism ,max degree of parallelism 第一个是启用并发查询的阀值,第二个是最大并发数。当发生不合适的并发的时候,建议的解决方法是调整max degree of parallelism,减少1/2,或者减少1/4或者直接设置为1。当然这个是不理想的解决方案,最理想的解决方案是设置2个配置参数,到一个比较合理的值。
cost threshold for parallelism
cost threshold for parallelism 是一个启用并发的阀值,查过了就启用并发,没超过就不启用。cost threshold for parallelism 的默认值是5秒,但是对于大数据库5秒是一个比较小的值,因此设置cost threshold for parallelism 阀值很重要
SET TRANSACTION ISOLATION LEVEL READ UNCOMMITTED ;
WITH XMLNAMESPACES
(DEFAULT 'http://schemas.microsoft.com/sqlserver/2004/07/showplan')
SELECT query_plan AS CompleteQueryPlan ,
n.value('(@StatementText)[1]', 'VARCHAR(4000)') AS StatementText ,
n.value('(@StatementOptmLevel)[1]', 'VARCHAR(25)')
AS StatementOptimizationLevel ,
n.value('(@StatementSubTreeCost)[1]', 'VARCHAR(128)')
AS StatementSubTreeCost ,
n.query('.') AS ParallelSubTreeXML ,
ecp.usecounts ,
ecp.size_in_bytes
FROM sys.dm_exec_cached_plans AS ecp
CROSS APPLY sys.dm_exec_query_plan(plan_handle) AS eqp
CROSS APPLY query_plan.nodes
('/ShowPlanXML/BatchSequence/Batch/Statements/StmtSimple')
AS qn ( n )
WHERE n.query('.').exist('//RelOp[@PhysicalOp="Parallelism"]') = 1
所以通过以上查询,分析相似的查询。以最小化cpu,io竞争为目标设置cost threshold for parallelism。
max degree of parallelism
sql server 并发查询的并发度有以下3点:
1.可用的处理器数量
2.max degree of parallelism
3.MAXDOP查询提示
如果你的服务器现在出现了并发问题那么修改阀值和最大并发度是解决这个问的最快速的方法。
网上有种说法就是直接把max degree of parallelism设为1,对于oltp系统的特性是可能性的,但是还是觉得你这样设置之后就不能使用并发了,感觉会减少性能。
分析CXPACKETwait event,CXPACKET只是一种症状,并没有真正的发生问题。查看sys.dm_os_waiting_tasks中其他的wait event可以更好的得出合适的 max degree of parallelism。如果相关的等待事件是 PAGEIOLATCH_SH,并发正在等待io读取,减少max degree of parallelism并不能解决根本问题,它只会减小被使用的工作任务,减少CXPACKET累计等待时间。但是也可能会减少额外的io,给你提示io性能的空间。
并发查询也需要考虑到内存的结构体系,在NUMA结构下,最大并发度设置在一个NUMA节点的可用经常。这样node之间就不会产生交互,因为node间的共享内存操作代价很高。在SMP结构中,多个处理器内核都在单个芯片上共享二级缓存,这样很容易照成内存命中率下降,但是好处是在并发查询下高并发的性能表现很好,当然max degree of parallelism 也要根据硬件设备的能力做适当的调节。在sql server 2008 以上的版本还可以使用资源管理器来限制。
超线程和并发查询
超线程是Intel一个技术,为了提高并发操作,就设计了2个逻辑内核对于1个物理内核。就是说不想以前一个调度器一个物理内核,现在2个内核,并且可以“同时”使用。当然我们关心的是性能,那么sql server 有没有使用超线程,会给sql server 带来什么影响。
对于olap和dss系统并发查询是又很大好处的,但是当开了超线程的时候性能就变差了。但是超线程对oltp没什么影响,对于oltp来说超线程在增加并发度是又好处的。对于早期的超线程因为会带来很多问题所以dba都是在bios中关闭超线程的。近几年sql server 2008 发布了建议关闭超线程特别是olap/dw/dss系统。超线程最大的问题是超线程会共享内置的cache,照成命中率下降。现在很多问题都解决了,windows 2003 就能认识物理内核和逻辑内核,并且给予不同的工作量。现在的处理器缓存变大不容易发生。事实上对于当前的处理器结构,特别是intel nehalem,开超线程是有好处的,除非是有明确的理由。所以在决定是否使用超线程的时候最好先做一下测试。
诊断不合适的并发查询
最好诊断的方法是查看wait统计信息和latch统计信息,当执行并发的时候出现瓶颈,CXPACKET等待就会变的很高。当并发查询等待交换迭代器到另外一个工作任务的时候就会发生等待。通常这里也会有一些相关的其他等待,来协助工作,因为大量的并发查询,CXPACKET的等待会比根本原因盖过去。最好的方法是分隔在troubleshooting各个相关的等待时间。因为并发查询会影响全局的性能问题。CXPACKET很有可能只是一个症状很多问题都会引起CXPACKET偏高。当io不能维持并发查询的需求,关键的等待可能是IO_COMPLETION,ASYNC_IO_COMPLETION,PAGEIOLATCH_*,不能扩展io性能。但是减小并发度,任然会发生io性能瓶颈的状况,那么就要提从全局的系统性能。如果CXPACKE相关的等待是LATCH_*,SOS_SCHEDULER_YIELD,那么很有可能是并发的问题,深入latch验证是并发的问题。sys.dm_os_latch_stats包含一些特殊的latch等待,如ACCESS_METHODS_DATASET_PARENT,LATCH_*,SOS_SCHEDULER_YIELD等待都比较高,那么减少并发度就可能解决问题。
解决并发问题
先前已经讨论过,对于大的,长运行时间的查询使用并发很有好处。不合适的并发主要问题是负载类型是混合的。很多库本质上是oltp的但是因为sql比较复杂超过了cost threshold for parallelism。所以试图提升一下cpu性能。如果诊断到了并发存在问题,如果没有被调整过,那么很有可能因为索引丢失或者不合适的索引造成问题,如果调整完之后还是这样那么就用先前提到的2个系统配置参数,来全局的管理数据库并发。
TokenAndPermUserStore
TokenAndPermUserStore在2005的时候被引进来优化关于权限验证,怎么TokenAndPermUserStore是怎么工作的呢?这里有一个简单的例子说明TokenAndPermUserStore的工作情况。例子当你执行的时候select * from t1 join t2 join t3,那么sql sever 就会对权限进行验证,验证后会缓存在TokenAndPermUserStore以免以后重复验证。但是这个会引起性能问题,特别是较早版本的sql server 2005,因为这个cache的内存限制过高性能问题的表现为cpu使用率比较高,cmemthread等待比较严重。微软已经给出了一个解决方案http://support.microsoft.com/kb/927396/通常问题发生在非awe内存分配的sql server 上(特别是64b的服务器),很多动态的或者 adhoc查询,数据库用户过多。你可以使用如下sql查询TokenAndPermUserStore使用量:
SELECT SUM(single_pages_kb + multi_pages_kb) / 1024.0 AS CacheSizeMB
FROM sys.dm_os_memory_clerks
WHERE [name] = 'TokenAndPermUserStore'
如果cache一直增长,并且伴随着cmemthread等待,那么很有可能导致高cpu使用率,如果使用sql server2005低于sp2补丁,那么第一时间就是打上补丁。嫌少动态sql和adhoc来减少发生问题的概率。
短期修复
使用sysadmin角色,因为sysadmin是sql server 最大的权限,不需要做权限检查。那么也就不会产生cache
定期清理cache:DBCC FREESYSTEMCACHE ('TokenAndPermUserStore')
在sql 2005 sp2 以上版本使用 trace flage 4618,4610来限制cache中的条目数量,当4618开启,cache中只能有1024个cache,当2个trace flag 都开启那么又8192个条目。这个限制会影响其他cache,因此只能临时使用。sql server 2005 sp3以后有个新的trace flag 4612,可以设置客户端的配额详细看:(http://support.microsoft.com/kb/959823)
sql2008的配置项
在sql server 2008 对于TokenAndPermUserStore有2个配置项,access check cache quota,access check cache bucket count,如果问题很明显的发生,那么就减少这2个值的大小,其实并不建议修改默认值,除非又微软客服支持。
总结
troubleshooting是一个分析问题的过程,我上一篇文章也说了,是一个根据统计的信息,分析问题的过程。因此需要了解数据库内核,内部运行的结构才能更好的进行调优。调优第一步的信息往往都是来至于perfmon,和动态性能视图,最后才是sqltrace,为啥,因为sqltrace最浪费时间,会有滞后性,所以已经滞后了还不如放到最后运行。
参考资料:
Implicit data conversations
•http://sqlblog.com/blogs/jonathan_kehayias/archive/2010/01/08/findingimplicit-column-conversions-in-the-plan-cache.aspx
Query tuning
• http://www.straightpathsql.com/presentations/ucandoit/
• http://www.simple-talk.com/sql/performance/simple-query-tuning-with-statistics-io-and-execution-plans/
•http://www.simple-talk.com/sql/t-sql-programming/13-things-youshould-know-about-statistics-and-the-query-optimizer/
• http://www.simple-talk.com/author/gail-shaw/
Estimated vs. actual row counts
• http://sqlinthewild.co.za/index.php/2009/09/22/estimated-rows-actual-rows-and-execution-count/
Cost threshold for parallelism
• http://sqlblog.com/blogs/jonathan_kehayias/archive/2010/01/26/21172.aspx
• Max degree of parallelism
• http://msdn.microsoft.com/en-us/library/ms181007.aspx
Query hints
• http://msdn.microsoft.com/en-us/library/ms181714.aspx
Guidelines for modifying MAXDOP
• http://support.microsoft.com/kb/329204
Limiting MAXDOP with the Resource Governor
•http://www.sqlmag.com/blog/sql-server-questions-answered-28/database-administration/controlling-maxdop-executing-queries-140163
Parallelism/MAXDOP configuration
• http://msdn.microsoft.com/en-us/library/ms178065.aspx
• http://msdn.microsoft.com/en-us/library/ms188611.aspx
• http://blogs.msdn.com/b/joesack/archive/2009/03/18/should-you-worryabout-sos-scheduler-yield.aspx
SQLOS architecture
• http://blogs.msdn.com/b/sqlosteam/archive/2010/06/23/sqlos-resources.aspx
•http://sqlblogcasts.com/blogs/sqlworkshops/archive/2007/11/25/findingoptimal-number-of-cpus-for-a-given-long-running-cpu-intensive-dss-olaplike-queries-workload.aspx
System Monitor CPU counters
• http://msdn.microsoft.com/en-us/library/ms178072.aspx
DMV usage for CPU usage from ring buffers
•http://troubleshootingsql.com/2009/12/30/how-to-find-out-the-cpuusage-information-for-the-sql-server-process-using-ring-buffers/
• http://msdn.microsoft.com/en-us/library/ms175048(SQL.90).aspx
• http://technet.microsoft.com/en-us/library/cc966540.aspx
Forced parameterization
• http://technet.microsoft.com/en-us/library/ms175037(SQL.90).aspx
Fixing TokenAndPermUserStore problems Identification and overview
• http://support.microsoft.com/kb/927396
Access check result cache
• http://support.microsoft.com/kb/955644
• http://msdn.microsoft.com/en-us/library/cc645588.aspx
• Purging the cache whenever it reaches a certain size
• http://blogs.msdn.com/chrissk/archive/2008/06/19/script-to-purgetokenandpermuserstore.aspx
SQL Server 2008 sp_configure options
• http://support.microsoft.com/kb/955644/en-us
• Hot-fixes associated with this problem
• http://support.microsoft.com/kb/959823
本文转自 Fanr_Zh 博客园博客,原文链接:http://www.cnblogs.com/Amaranthus/archive/2012/03/07/2383551.html,如需转载请自行联系原作者
In-Memory:内存数据库
在逝去的2016后半年,由于项目需要支持数据的快速更新和多用户的高并发负载,我试水SQL Server 2016的In-Memory OLTP,创建内存数据库实现项目的负载需求,现在项目接近尾声,系统运行稳定,写一篇博客,记录一下使用内存数据库的经验。
SQL Server 2016的In-Memory OLTP,通俗地讲,是内存数据库,使用内存优化表(Memory-Optimized Table,简称MOT)来实现,MOT驻留在内存中,使用 Hekaton 内存数据库引擎访问。在查询MOT时,只从内存中读取数据行,不会产生Disk IO消耗;在更新MOT时,数据的更新直接写入到内存中。内存优化表能够在Disk上维护一个数据副本,该副本只用于持久化数据,不用于数据读写操作。
在内存数据库中,不是所有的数据都需要存储在内存中,有些数据仍然能够存储在Disk上,硬盘表(Disk-Based Table,简称DBT)是传统的表存储结构,每个Page是8KB,在查询和更新DBT时,产生Disk IO操作,将数据从Disk读取到内存,或者将数据更新异步写入到Disk中。
内存数据库将原本存储在Disk上的数据,存储在内存中,利用内存的高速访问优势实现数据的快速查询和更新,但是,内存数据库,不仅仅是存储空间的变化,Hekaton 内存数据库访问引擎实现本地编译模块(Natively compiled),交叉事务(Cross-Container Transaction)和查询互操作(Query Interop):
本地编译模块:如果代码模块只访问MOT,那么可以将该模块定义为本地编译模块,SQL Server直接将TSQL脚本编译成机器代码;SQL Server 2016支持本地编译的模式有:存储过程(SP),触发器(Trigger),标量值函数(Scalar Function)或内嵌多语句函数(Inline Multi-Statement Function)。相比于解释性(Interpreted)TSQL 模块,机器代码直接使用内存地址,性能更高。
交叉事务:在解释性TSQL模块中,一个事务既能访问硬盘表,也能访问内存优化表;实际上,SQL Server创建了两个事务,一个事务用于访问硬盘表,一个事务用于访问内存优化表,在DMV中,分别使用transaction_id 和 xtp_transaction_id 来标识。
查询互操作:解释性TSQL脚本能够访问内存优化表和硬盘表,本地编译模块只能访问内存优化表。
内存数据被整合到SQL Server关系引擎中,使用内存数据库时,客户端应用程序甚至感受不到任何变化,DAL接口也不需要做任何修改。由于Query Interop的存在,任何解释性TSQL脚本都能透明地访问MOT,只是性能没有本地编译TSQL脚本性能高。在使用分布式事务访问MOT时,必须设置合适的事务隔离级别,推荐使用Read Committed,如果发生MSSQLSERVER_41333 错误,说明产生交叉事务隔离错误(CROSS_CONTAINER_ISOLATION_FAILURE),原因是当前事务的隔离级别太高。
一,创建内存数据库
内存优化表的数据必须存储在包含Memory_Optimized_Data的File Group中,该FileGroup可以有多个File,每个File实际上是Folder,一个DB只能创建一个包含Memory_Optimized_Data的File Group。
step1,创建一个数据库,创建的Data File的数量最好和CPU内核数量保持一致,存放在不同的物理磁盘上;
use master
go
--Create database
create database Test_MemboryDB
on Primary
(
name=Test_MemoryDB_1,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_1.mdf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_2,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_2.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_3,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_3.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_4,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_4.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_5,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_5.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_6,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_6.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_7,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_7.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_8,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_8.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_9,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_9.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_10,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_10.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_11,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_11.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_12,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_12.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_13,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_13.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_14,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_14.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_15,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_15.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_16,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_16.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_17,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_17.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_18,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_18.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_19,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_19.ndf',
size=5GB,
FileGrowth=1GB
),
(
name=Test_MemoryDB_20,
filename='D:\Program Files\Microsoft SQL Server\Test_MemoryDB_20.ndf',
size=5GB,
FileGrowth=1GB
)
LOG ON
(
name = N'Test_MemboryDB_log',
filename = N'D:\Program Files\Microsoft SQL Server\Test_MemboryDB_log.ldf' ,
size = 10GB ,
filegrowth = 1GB
)
GO
View Code
step2,为数据库创建一个包含内存优化数据的FileGroup,向该FileGroup中添加“File”,实际上是目录(Directory),用于存储内存优化数据文件,主要是CheckPoint文件,用于还原持久化的内存优化表。
-- Add File Group from memory-optimized data
alter database [Test_MemboryDB]
add filegroup fg_MemoryOptimizedData
contains MEMORY_OPTIMIZED_DATA;
alter database [Test_MemboryDB]
add file
(
name=Test_MemboryDBDirectory,
filename='D:\Program Files\Microsoft SQL Server\Test_MemboryDBDirectory'
)
to FILEGROUP fg_MemoryOptimizedData;
文件组属性:CONTAINS MEMORY_OPTIMIZED_DATA 子句,指定File Group用于存储内存优化表数据,每个数据库只能指定一个存储内存优化数据的File Group,可以在该File Group下创建多个Directory,分布在不同的物理Disk上,加快内存优化表数据还原的速度。
二,创建内存优化表
内存优化表用于存储用户数据,可以持久化存储,数据存储在内存中,同时,在Disk上维护数据的一个副本,通过选项 DURABILITY= SCHEMA_AND_DATA 指定持久化存储内存优化表;也可以只存储在内存中,通过选项DURABILITY= SCHEMA_ONLY指定。在内存优化表上,可以创建nonclustered index 或nonclustered hash index,每个内存优化表中至少创建一个Index。
--create memory optimized table
create table [dbo].[products]
(
[ProductID] [bigint] not null,
[Name] [varchar](64) not null,
[Price] decimal(10,2) not null,
[Unit] varchar(16) not null,
[Description] [varchar](max) null,
constraint [PK__Products_ProductID] primary key nonclustered hash ([ProductID])with (bucket_count=2000000)
,index idx_Products_Price nonclustered([Price] desc)
,index idx_Products_Unit nonclustered hash(Unit) with(bucket_count=40000)
)
with(memory_optimized=on,durability= schema_and_data)
go
1,内存优化:MEMORY_OPTIMIZED
[MEMORY_OPTIMIZED = {ON | OFF}]
默认值是OFF,指定创建的表是硬盘表;设置选项MEMORY_OPTIMIZED为ON,指定创建的表是内存优化表;
2,持久性:Durability
DURABILITY = {SCHEMA_ONLY | SCHEMA_AND_DATA}
默认值是SCHEMA_AND_DATA,指定创建的内存优化表是持久化的,这意味着,数据更新会持久化存储到Disk上,在SQL Server重启之后,内存优化表的数据能跟根据存储在Disk上的副本还原。选项 SCHEMA_ONLY 指定创建的内存优化表是非持久化的,这意味着Table Schema是持久化存储到Disk上,但是,任何数据更新都不会持久化到Disk上,在SQL Server重启之后,内存优化表的数据会丢失。
3,哈希索引和范围索引
内存优化表支持Hash Index,属性 BUCKET_COUNT 指定为Hash Index创建的bucket的数量,一般hash bucket的数量是数据行的1-2倍,如果无法估计bucket的数量,请创建范围索引(NonClustered Index),索引结构是Bw-Tree。
Hash 索引由一个数组和多个数据行链组成,每一个数组元素叫做一个Hash Bucket,通过内置的Hash函数,将Hash索引的Key映射到Hash Bucket上,例如,如果Hash Index的Key是(Col1,Col2),根据HashFunction(Col1,Col2)返回的Hash Value,将数据行映射到指定的Hash Bucket上;如果多个Key映射到同一个Hash Bucket上,那么这些Key组成一个链。例如:数据表结构是(Name,City),在Name字段上创建Hash Index,Hash值相同的数据行链接成一个单向链。
三,创建Natively Compiled SP
本地编译SP在创建时编译成机器代码,整个SP以原子方式执行,这意味着,以SP为单位,整个SP中的所有操作是一个原子操作,要么执行成功,要么执行失败。
create procedure dbo.usp_GetProduct
@ProductID bigint not null
with native_compilation, schemabinding, execute as owner
as
begin atomic with (transaction isolation level = snapshot, language = N'US_English')
select [ProductID]
,[Name]
,[Price]
,[Unit]
,[Description]
from [dbo].[Products]
where ProductID=@ProductID
end
go
1,在本地编译SP中,能够为参数,变量指定Nullability属性,默认值是NULL
NOT NULL 属性:不能为参数或变量指定NULL值,
在本便编译SP中,为参数指定NOT NULL属性,不能为参数指定NULL值;
在本便编译SP中,为变量定义NOT NULL属性,必须在Declare时初始化变量;
2,本地编译SP必须包含两个选项:SCHEMABINDING 和 ATOMIC Block
SCHEMABINDING:绑定引用的内存优化表
ATOMIC Block:在原子块中的所有语句,以单个事务运行;在事务成功时,所有语句都提交成功;在事务失败时,所有语句都回滚。Atomic Bloc保证原子地执行SP,如果SP在其他事务的上下文中被调用,那么该SP开始一个新的事务。
Atomic blocks guarantee atomic execution of the stored procedure. If the procedure is invoked outside the context of an active transaction, it will start a new transaction, which commits at the end of the atomic block.
使用Atomic Block必须设置两个选项:
TRANSACTION ISOLATION LEVEL:指定Atomic Block开启事务的隔离级别,通常指定Snapshot隔离级别;
LANGUAGE:指定SP上下文的语言;
3,解释型SP和本地编译SP的区别
解释性SP能够访问硬盘表(Disk-Based Table)和内存优化表(Memory-Optimized Table),其真正的区别是解释性(Interpreted)SP在第一次执行时编译,而本地编译(Natively Compiled)SP是在创建时编译,并且直接编译成机器代码,绑定的是内存地址。
4,延迟持久化
在本地编译SP中,设置Atoic Block的选项:DELAYED_DURABILITY = ON ,使SP对内存优化表的更新操作,以异步写事务日志方式,延迟持久化到Disk,这意味着,如果内存优化表维护了一个Disk-Based 的副本,数据在内存中修改之后,不会立即更新到Disk-Based 的副本中,这有丢失数据的可能性,但是能够减少Disk IO,提高数据更新的性能。
四,使用内存优化的表变量和临时表
传统的表变量和临时表,都使用tempdb存储临时数据,而tempdb不是内存数据库,使用Disk存储临时表和表变量的数据,会产生Disk IO和竞争,SQL Server提供了内存优化的表变量,将临时数据存储在内存中,详细信息,请参考我的博客:《In-Memory:在内存中创建临时表和表变量》。
五,在内存数据库中使用JSON
自从使用JSON之后,我的第一感概是:数据库岂能没有JSON,不管是数据库将值传递前端,还是前端将数据传递到数据库,使用JSON方便很多,相比XML,JSON的使用简单很多,详细信息,请参考我的博客:《使用TSQL查询和更新 JSON 数据》
六,内存数据库的事务处理
交叉事务是指在一个事务中,解释性TSQL语句同时访问内存优化表(Memory-Optimized Table,简称MOT)和硬盘表(Disk-Based Table,简称DBT)。在交叉事务中,访问MOT的操作和访问DBT的操作都拥有自己独立的事务序号,就像在一个大的交叉事务下,存在两个单独的子事务,分别用于访问MOT和DBT;在sys.dm_db_xtp_transactions (Transact-SQL)中,访问DBT的事务使用transaction_id标识,访问MOT的事务序号使用xtp_transaction_id标识。详细信息,请参考我的博客:《In-Memory:内存优化表的事务处理》
参考文档:
sqlserver2014内存数据库特性介绍
In-Memory OLTP (In-Memory Optimization)
Introduction to Memory-Optimized Tables
Natively Compiled Stored Procedures
Memory-Optimized Tables
试试SQLSERVER2014的内存优化表
SQLServer 2014 内存优化表
SQL Server 2014 内存优化表(1)实现内存优化表
作者:悦光阴
出处:http://www.cnblogs.com/ljhdo/
本文版权归作者和博客园所有,欢迎转载,但未经作者同意,必须保留此段声明,且在文章页面醒目位置显示原文连接,否则保留追究法律责任的权利。
分类: In-Memory
标签: SQL Server, 内存数据库, 内存优化表
本文转自悦光阴博客园博客,原文链接:http://www.cnblogs.com/ljhdo/p/5762716.html,如需转载请自行联系原作者
SQL Server2000 索引
引用:http://dev.yesky.com/16/2316016.shtml
一、深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别: 其实,我们的汉语字典的正文本身就是一个聚集索引。比如,我们要查“安”字,就会很自然地翻开字典的前几页,因为“安”的拼音是“an”,而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的,那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字,那么就说明您的字典中没有这个字;同样的,如果查“张”字,那您也会将您的字典翻到最后部分,因为“张”的拼音是“zhang”。也就是说,字典的正文部分本身就是一个目录,您不需要再去查其他目录来找到您需要找的内容。我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。 如果您认识某个字,您可以快速地从自动中查到这个字。但您也可能会遇到您不认识的字,不知道它的发音,这时候,您就不能按照刚才的方法找到您要查的字,而需要去根据“偏旁部首”查到您要找的字,然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真正的正文的排序方法,比如您查“张”字,我们可以看到在查部首之后的检字表中“张”的页码是672页,检字表中“张”的上面是“驰”字,但页码却是63页,“张”的下面是“弩”字,页面是390页。很显然,这些字并不是真正的分别位于“张”字的上下方,现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序,是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字,但它需要两个过程,先找到目录中的结果,然后再翻到您所需要的页码。我们把这种目录纯粹是目录,正文纯粹是正文的排序方式称为“非聚集索引”。 通过以上例子,我们可以理解到什么是“聚集索引”和“非聚集索引”。进一步引申一下,我们可以很容易的理解:每个表只能有一个聚集索引,因为目录只能按照一种方法进行排序。 二、何时使用聚集索引或非聚集索引 下面的表总结了何时使用聚集索引或非聚集索引(很重要):
动作描述
使用聚集索引
使用非聚集索引
列经常被分组排序
应
应
返回某范围内的数据
应
不应
一个或极少不同值
不应
不应
小数目的不同值
应
不应
大数目的不同值
不应
应
频繁更新的列
不应
应
外键列
应
应
主键列
应
应
频繁修改索引列
不应
应
事实上,我们可以通过前面聚集索引和非聚集索引的定义的例子来理解上表。如:返回某范围内的数据一项。比如您的某个表有一个时间列,恰好您把聚合索引建立在了该列,这时您查询2004年1月1日至2004年10月1日之间的全部数据时,这个速度就将是很快的,因为您的这本字典正文是按日期进行排序的,聚类索引只需要找到要检索的所有数据中的开头和结尾数据即可;而不像非聚集索引,必须先查到目录中查到每一项数据对应的页码,然后再根据页码查到具体内容。 三、结合实际,谈索引使用的误区 理论的目的是应用。虽然我们刚才列出了何时应使用聚集索引或非聚集索引,但在实践中以上规则却很容易被忽视或不能根据实际情况进行综合分析。下面我们将根据在实践中遇到的实际问题来谈一下索引使用的误区,以便于大家掌握索引建立的方法。 1、主键就是聚集索引 这种想法笔者认为是极端错误的,是对聚集索引的一种浪费。虽然SQL SERVER默认是在主键上建立聚集索引的。 通常,我们会在每个表中都建立一个ID列,以区分每条数据,并且这个ID列是自动增大的,步长一般为1。我们的这个办公自动化的实例中的列Gid就是如此。此时,如果我们将这个列设为主键,SQL SERVER会将此列默认为聚集索引。这样做有好处,就是可以让您的数据在数据库中按照ID进行物理排序,但笔者认为这样做意义不大。 显而易见,聚集索引的优势是很明显的,而每个表中只能有一个聚集索引的规则,这使得聚集索引变得更加珍贵。 从我们前面谈到的聚集索引的定义我们可以看出,使用聚集索引的最大好处就是能够根据查询要求,迅速缩小查询范围,避免全表扫描。在实际应用中,因为ID号是自动生成的,我们并不知道每条记录的ID号,所以我们很难在实践中用ID号来进行查询。这就使让ID号这个主键作为聚集索引成为一种资源浪费。其次,让每个ID号都不同的字段作为聚集索引也不符合“大数目的不同值情况下不应建立聚合索引”规则;当然,这种情况只是针对用户经常修改记录内容,特别是索引项的时候会负作用,但对于查询速度并没有影响。 在办公自动化系统中,无论是系统首页显示的需要用户签收的文件、会议还是用户进行文件查询等任何情况下进行数据查询都离不开字段的是“日期”还有用户本身的“用户名”。 通常,办公自动化的首页会显示每个用户尚未签收的文件或会议。虽然我们的where语句可以仅仅限制当前用户尚未签收的情况,但如果您的系统已建立了很长时间,并且数据量很大,那么,每次每个用户打开首页的时候都进行一次全表扫描,这样做意义是不大的,绝大多数的用户1个月前的文件都已经浏览过了,这样做只能徒增数据库的开销而已。事实上,我们完全可以让用户打开系统首页时,数据库仅仅查询这个用户近3个月来未阅览的文件,通过“日期”这个字段来限制表扫描,提高查询速度。如果您的办公自动化系统已经建立的2年,那么您的首页显示速度理论上将是原来速度8倍,甚至更快。 在这里之所以提到“理论上”三字,是因为如果您的聚集索引还是盲目地建在ID这个主键上时,您的查询速度是没有这么高的,即使您在“日期”这个字段上建立的索引(非聚合索引)。下面我们就来看一下在1000万条数据量的情况下各种查询的速度表现(3个月内的数据为25万条): (1)仅在主键上建立聚集索引,并且不划分时间段:
Select gid,fariqi,neibuyonghu,title from tgongwen
用时:128470毫秒(即:128秒) (2)在主键上建立聚集索引,在fariq上建立非聚集索引:
select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi> dateadd(day,-90,getdate())
用时:53763毫秒(54秒) (3)将聚合索引建立在日期列(fariqi)上:
select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi> dateadd(day,-90,getdate())
用时:2423毫秒(2秒) 虽然每条语句提取出来的都是25万条数据,各种情况的差异却是巨大的,特别是将聚集索引建立在日期列时的差异。事实上,如果您的数据库真的有1000万容量的话,把主键建立在ID列上,就像以上的第1、2种情况,在网页上的表现就是超时,根本就无法显示。这也是我摒弃ID列作为聚集索引的一个最重要的因素。得出以上速度的方法是:在各个select语句前加:
declare @d datetime
set @d=getdate()
并在select语句后加:
select [语句执行花费时间(毫秒)]=datediff(ms,@d,getdate())
2、只要建立索引就能显著提高查询速度 事实上,我们可以发现上面的例子中,第2、3条语句完全相同,且建立索引的字段也相同;不同的仅是前者在fariqi字段上建立的是非聚合索引,后者在此字段上建立的是聚合索引,但查询速度却有着天壤之别。所以,并非是在任何字段上简单地建立索引就能提高查询速度。 从建表的语句中,我们可以看到这个有着1000万数据的表中fariqi字段有5003个不同记录。在此字段上建立聚合索引是再合适不过了。在现实中,我们每天都会发几个文件,这几个文件的发文日期就相同,这完全符合建立聚集索引要求的:“既不能绝大多数都相同,又不能只有极少数相同”的规则。由此看来,我们建立“适当”的聚合索引对于我们提高查询速度是非常重要的。 3、把所有需要提高查询速度的字段都加进聚集索引,以提高查询速度 上面已经谈到:在进行数据查询时都离不开字段的是“日期”还有用户本身的“用户名”。既然这两个字段都是如此的重要,我们可以把他们合并起来,建立一个复合索引(compound index)。 很多人认为只要把任何字段加进聚集索引,就能提高查询速度,也有人感到迷惑:如果把复合的聚集索引字段分开查询,那么查询速度会减慢吗?带着这个问题,我们来看一下以下的查询速度(结果集都是25万条数据):(日期列fariqi首先排在复合聚集索引的起始列,用户名neibuyonghu排在后列):
(1)select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>''2004-5-5''
查询速度:2513毫秒
(2)select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi>''2004-5-5'' and neibuyonghu=''办公室''
查询速度:2516毫秒
(3)select gid,fariqi,neibuyonghu,title from Tgongwen where neibuyonghu=''办公室''
查询速度:60280毫秒 从以上试验中,我们可以看到如果仅用聚集索引的起始列作为查询条件和同时用到复合聚集索引的全部列的查询速度是几乎一样的,甚至比用上全部的复合索引列还要略快(在查询结果集数目一样的情况下);而如果仅用复合聚集索引的非起始列作为查询条件的话,这个索引是不起任何作用的。当然,语句1、2的查询速度一样是因为查询的条目数一样,如果复合索引的所有列都用上,而且查询结果少的话,这样就会形成“索引覆盖”,因而性能可以达到最优。同时,请记住:无论您是否经常使用聚合索引的其他列,但其前导列一定要是使用最频繁的列。
======================================================================================
四、其他书上没有的索引使用经验总结 1、用聚合索引比用不是聚合索引的主键速度快 下面是实例语句:(都是提取25万条数据)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=''2004-9-16''
使用时间:3326毫秒
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid<=250000
使用时间:4470毫秒 这里,用聚合索引比用不是聚合索引的主键速度快了近1/4。 2、用聚合索引比用一般的主键作order by时速度快,特别是在小数据量情况下
select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by fariqi
用时:12936
select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by gid
用时:18843 这里,用聚合索引比用一般的主键作order by时,速度快了3/10。事实上,如果数据量很小的话,用聚集索引作为排序列要比使用非聚集索引速度快得明显的多;而数据量如果很大的话,如10万以上,则二者的速度差别不明显。 3、使用聚合索引内的时间段,搜索时间会按数据占整个数据表的百分比成比例减少,而无论聚合索引使用了多少个:
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>''2004-1-1''
用时:6343毫秒(提取100万条)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>''2004-6-6''
用时:3170毫秒(提取50万条)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=''2004-9-16''
用时:3326毫秒(和上句的结果一模一样。如果采集的数量一样,那么用大于号和等于号是一样的)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi>''2004-1-1'' and fariqi<''2004-6-6''
用时:3280毫秒 4、日期列不会因为有分秒的输入而减慢查询速度 下面的例子中,共有100万条数据,2004年1月1日以后的数据有50万条,但只有两个不同的日期,日期精确到日;之前有数据50万条,有5000个不同的日期,日期精确到秒。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi>''2004-1-1'' order by fariqi
用时:6390毫秒
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi<''2004-1-1'' order by fariqi
用时:6453毫秒 五、其他注意事项 “水可载舟,亦可覆舟”,索引也一样。索引有助于提高检索性能,但过多或不当的索引也会导致系统低效。因为用户在表中每加进一个索引,数据库就要做更多的工作。过多的索引甚至会导致索引碎片。 所以说,我们要建立一个“适当”的索引体系,特别是对聚合索引的创建,更应精益求精,以使您的数据库能得到高性能的发挥。 当然,在实践中,作为一个尽职的数据库管理员,您还要多测试一些方案,找出哪种方案效率最高、最为有效。 改善SQL语句 很多人不知道SQL语句在SQL SERVER中是如何执行的,他们担心自己所写的SQL语句会被SQL SERVER误解。比如:
select * from table1 where name=''zhangsan'' and tID > 10000
和执行:
select * from table1 where tID > 10000 and name=''zhangsan''
一些人不知道以上两条语句的执行效率是否一样,因为如果简单的从语句先后上看,这两个语句的确是不一样,如果tID是一个聚合索引,那么后一句仅仅从表的10000条以后的记录中查找就行了;而前一句则要先从全表中查找看有几个name=''zhangsan''的,而后再根据限制条件条件tID>10000来提出查询结果。 事实上,这样的担心是不必要的。SQL SERVER中有一个“查询分析优化器”,它可以计算出where子句中的搜索条件并确定哪个索引能缩小表扫描的搜索空间,也就是说,它能实现自动优化。 虽然查询优化器可以根据where子句自动的进行查询优化,但大家仍然有必要了解一下“查询优化器”的工作原理,如非这样,有时查询优化器就会不按照您的本意进行快速查询。 在查询分析阶段,查询优化器查看查询的每个阶段并决定限制需要扫描的数据量是否有用。如果一个阶段可以被用作一个扫描参数(SARG),那么就称之为可优化的,并且可以利用索引快速获得所需数据。 SARG的定义:用于限制搜索的一个操作,因为它通常是指一个特定的匹配,一个值得范围内的匹配或者两个以上条件的AND连接。形式如下:
列名 操作符 <常数 或 变量>
或
<常数 或 变量> 操作符列名
列名可以出现在操作符的一边,而常数或变量出现在操作符的另一边。如:
Name=’张三’
价格>5000
5000<价格
Name=’张三’ and 价格>5000
如果一个表达式不能满足SARG的形式,那它就无法限制搜索的范围了,也就是SQL SERVER必须对每一行都判断它是否满足WHERE子句中的所有条件。所以一个索引对于不满足SARG形式的表达式来说是无用的。 介绍完SARG后,我们来总结一下使用SARG以及在实践中遇到的和某些资料上结论不同的经验: 1、Like语句是否属于SARG取决于所使用的通配符的类型
如:name like ‘张%’ ,这就属于SARG
而:name like ‘%张’ ,就不属于SARG。
原因是通配符%在字符串的开通使得索引无法使用。 2、or 会引起全表扫描 Name=’张三’ and 价格>5000 符号SARG,而:Name=’张三’ or 价格>5000 则不符合SARG。使用or会引起全表扫描。 3、非操作符、函数引起的不满足SARG形式的语句 不满足SARG形式的语句最典型的情况就是包括非操作符的语句,如:NOT、!=、<>、!<、!>、NOT EXISTS、NOT IN、NOT LIKE等,另外还有函数。下面就是几个不满足SARG形式的例子:
ABS(价格)<5000
Name like ‘%三’
有些表达式,如:
WHERE 价格*2>5000
SQL SERVER也会认为是SARG,SQL SERVER会将此式转化为:
WHERE 价格>2500/2
但我们不推荐这样使用,因为有时SQL SERVER不能保证这种转化与原始表达式是完全等价的。 4、IN 的作用相当与OR 语句:
Select * from table1 where tid in (2,3)
和
Select * from table1 where tid=2 or tid=3
是一样的,都会引起全表扫描,如果tid上有索引,其索引也会失效。 5、尽量少用NOT 6、exists 和 in 的执行效率是一样的 很多资料上都显示说,exists要比in的执行效率要高,同时应尽可能的用not exists来代替not in。但事实上,我试验了一下,发现二者无论是前面带不带not,二者之间的执行效率都是一样的。因为涉及子查询,我们试验这次用SQL SERVER自带的pubs数据库。运行前我们可以把SQL SERVER的statistics I/O状态打开:
(1)select title,price from titles where title_id in (select title_id from sales where qty>30)
该句的执行结果为:表 ''sales''。扫描计数 18,逻辑读 56 次,物理读 0 次,预读 0 次。表 ''titles''。扫描计数 1,逻辑读 2 次,物理读 0 次,预读 0 次。
(2)select title,price from titles
where exists (select * from sales
where sales.title_id=titles.title_id and qty>30)
第二句的执行结果为:表 ''sales''。扫描计数 18,逻辑读 56 次,物理读 0 次,预读 0 次。表 ''titles''。扫描计数 1,逻辑读 2 次,物理读 0 次,预读 0 次。 我们从此可以看到用exists和用in的执行效率是一样的。 7、用函数charindex()和前面加通配符%的LIKE执行效率一样 前面,我们谈到,如果在LIKE前面加上通配符%,那么将会引起全表扫描,所以其执行效率是低下的。但有的资料介绍说,用函数charindex()来代替LIKE速度会有大的提升,经我试验,发现这种说明也是错误的:
select gid,title,fariqi,reader from tgongwen
where charindex(''刑侦支队'',reader)>0 and fariqi>''2004-5-5''
用时:7秒,另外:扫描计数 4,逻辑读 7155 次,物理读 0 次,预读 0 次。
select gid,title,fariqi,reader from tgongwen
where reader like ''%'' + ''刑侦支队'' + ''%'' and fariqi>''2004-5-5''
用时:7秒,另外:扫描计数 4,逻辑读 7155 次,物理读 0 次,预读 0 次。 8、union并不绝对比or的执行效率高 我们前面已经谈到了在where子句中使用or会引起全表扫描,一般的,我所见过的资料都是推荐这里用union来代替or。事实证明,这种说法对于大部分都是适用的。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi=''2004-9-16'' or gid>9990000
用时:68秒。扫描计数 1,逻辑读 404008 次,物理读 283 次,预读 392163 次。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=''2004-9-16''
union
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000
用时:9秒。扫描计数 8,逻辑读 67489 次,物理读 216 次,预读 7499 次。 看来,用union在通常情况下比用or的效率要高的多。 但经过试验,笔者发现如果or两边的查询列是一样的话,那么用union则反倒和用or的执行速度差很多,虽然这里union扫描的是索引,而or扫描的是全表。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi=''2004-9-16'' or fariqi=''2004-2-5''
用时:6423毫秒。扫描计数 2,逻辑读 14726 次,物理读 1 次,预读 7176 次。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=''2004-9-16''
union
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=''2004-2-5''
用时:11640毫秒。扫描计数 8,逻辑读 14806 次,物理读 108 次,预读 1144 次。 9、字段提取要按照“需多少、提多少”的原则,避免“select *” 我们来做一个试验:
select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc
用时:4673毫秒
select top 10000 gid,fariqi,title from tgongwen order by gid desc
用时:1376毫秒
select top 10000 gid,fariqi from tgongwen order by gid desc
用时:80毫秒 由此看来,我们每少提取一个字段,数据的提取速度就会有相应的提升。提升的速度还要看您舍弃的字段的大小来判断。 10、count(*)不比count(字段)慢 某些资料上说:用*会统计所有列,显然要比一个世界的列名效率低。这种说法其实是没有根据的。我们来看:
select count(*) from Tgongwen
用时:1500毫秒
select count(gid) from Tgongwen
用时:1483毫秒
select count(fariqi) from Tgongwen
用时:3140毫秒
select count(title) from Tgongwen
用时:52050毫秒 从以上可以看出,如果用count(*)和用count(主键)的速度是相当的,而count(*)却比其他任何除主键以外的字段汇总速度要快,而且字段越长,汇总的速度就越慢。我想,如果用count(*), SQL SERVER可能会自动查找最小字段来汇总的。当然,如果您直接写count(主键)将会来的更直接些。 11、order by按聚集索引列排序效率最高 我们来看:(gid是主键,fariqi是聚合索引列):
select top 10000 gid,fariqi,reader,title from tgongwen
用时:196 毫秒。 扫描计数 1,逻辑读 289 次,物理读 1 次,预读 1527 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc
用时:4720毫秒。 扫描计数 1,逻辑读 41956 次,物理读 0 次,预读 1287 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc
用时:4736毫秒。 扫描计数 1,逻辑读 55350 次,物理读 10 次,预读 775 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc
用时:173毫秒。 扫描计数 1,逻辑读 290 次,物理读 0 次,预读 0 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc
用时:156毫秒。 扫描计数 1,逻辑读 289 次,物理读 0 次,预读 0 次。 从以上我们可以看出,不排序的速度以及逻辑读次数都是和“order by 聚集索引列” 的速度是相当的,但这些都比“order by 非聚集索引列”的查询速度是快得多的。 同时,按照某个字段进行排序的时候,无论是正序还是倒序,速度是基本相当的。 12、高效的TOP 事实上,在查询和提取超大容量的数据集时,影响数据库响应时间的最大因素不是数据查找,而是物理的I/0操作。如:
select top 10 * from (
select top 10000 gid,fariqi,title from tgongwen
where neibuyonghu=''办公室''
order by gid desc) as a
order by gid asc
这条语句,从理论上讲,整条语句的执行时间应该比子句的执行时间长,但事实相反。因为,子句执行后返回的是10000条记录,而整条语句仅返回10条语句,所以影响数据库响应时间最大的因素是物理I/O操作。而限制物理I/O操作此处的最有效方法之一就是使用TOP关键词了。TOP关键词是SQL SERVER中经过系统优化过的一个用来提取前几条或前几个百分比数据的词。经笔者在实践中的应用,发现TOP确实很好用,效率也很高。但这个词在另外一个大型数据库ORACLE中却没有,这不能说不是一个遗憾,虽然在ORACLE中可以用其他方法(如:rownumber)来解决。在以后的关于“实现千万级数据的分页显示存储过程”的讨论中,我们就将用到TOP这个关键词。 到此为止,我们上面讨论了如何实现从大容量的数据库中快速地查询出您所需要的数据方法。当然,我们介绍的这些方法都是“软”方法,在实践中,我们还要考虑各种“硬”因素,如:网络性能、服务器的性能、操作系统的性能,甚至网卡、交换机等。
==========================================================================
实现小数据量和海量数据的通用分页显示存储过程 建立一个 Web 应用,分页浏览功能必不可少。这个问题是数据库处理中十分常见的问题。经典的数据分页方法是:ADO 纪录集分页法,也就是利用ADO自带的分页功能(利用游标)来实现分页。但这种分页方法仅适用于较小数据量的情形,因为游标本身有缺点:游标是存放在内存中,很费内存。游标一建立,就将相关的记录锁住,直到取消游标。游标提供了对特定集合中逐行扫描的手段,一般使用游标来逐行遍历数据,根据取出数据条件的不同进行不同的操作。而对于多表和大表中定义的游标(大的数据集合)循环很容易使程序进入一个漫长的等待甚至死机。 更重要的是,对于非常大的数据模型而言,分页检索时,如果按照传统的每次都加载整个数据源的方法是非常浪费资源的。现在流行的分页方法一般是检索页面大小的块区的数据,而非检索所有的数据,然后单步执行当前行。 最早较好地实现这种根据页面大小和页码来提取数据的方法大概就是“俄罗斯存储过程”。这个存储过程用了游标,由于游标的局限性,所以这个方法并没有得到大家的普遍认可。 后来,网上有人改造了此存储过程,下面的存储过程就是结合我们的办公自动化实例写的分页存储过程:
CREATE procedure pagination1
(@pagesize int, --页面大小,如每页存储20条记录
@pageindex int --当前页码
)
as
set nocount on
begin
declare @indextable table(id int identity(1,1),nid int) --定义表变量
declare @PageLowerBound int --定义此页的底码
declare @PageUpperBound int --定义此页的顶码
set @PageLowerBound=(@pageindex-1)*@pagesize
set @PageUpperBound=@PageLowerBound+@pagesize
set rowcount @PageUpperBound
insert into @indextable(nid) select gid from TGongwen
where fariqi >dateadd(day,-365,getdate()) order by fariqi desc
select O.gid,O.mid,O.title,O.fadanwei,O.fariqi from TGongwen O,@indextable t
where O.gid=t.nid and t.id>@PageLowerBound
and t.id<=@PageUpperBound order by t.id
end
set nocount off
以上存储过程运用了SQL SERVER的最新技术――表变量。应该说这个存储过程也是一个非常优秀的分页存储过程。当然,在这个过程中,您也可以把其中的表变量写成临时表:CREATE TABLE #Temp。但很明显,在SQL SERVER中,用临时表是没有用表变量快的。所以笔者刚开始使用这个存储过程时,感觉非常的不错,速度也比原来的ADO的好。但后来,我又发现了比此方法更好的方法。 笔者曾在网上看到了一篇小短文《从数据表中取出第n条到第m条的记录的方法》,全文如下:
从publish 表中取出第 n 条到第 m 条的记录:
SELECT TOP m-n+1 *
FROM publish
WHERE (id NOT IN
(SELECT TOP n-1 id
FROM publish))
id 为publish 表的关键字
我当时看到这篇文章的时候,真的是精神为之一振,觉得思路非常得好。等到后来,我在作办公自动化系统(ASP.NET+ C#+SQL SERVER)的时候,忽然想起了这篇文章,我想如果把这个语句改造一下,这就可能是一个非常好的分页存储过程。于是我就满网上找这篇文章,没想到,文章还没找到,却找到了一篇根据此语句写的一个分页存储过程,这个存储过程也是目前较为流行的一种分页存储过程,我很后悔没有争先把这段文字改造成存储过程:
CREATE PROCEDURE pagination2
(
@SQL nVARCHAR(4000), --不带排序语句的SQL语句
@Page int, --页码
@RecsPerPage int, --每页容纳的记录数
@ID VARCHAR(255), --需要排序的不重复的ID号
@Sort VARCHAR(255) --排序字段及规则
)
AS
DECLARE @Str nVARCHAR(4000)
SET @Str=''SELECT TOP ''+CAST(@RecsPerPage AS VARCHAR(20))+'' * FROM
(''+@SQL+'') T WHERE T.''+@ID+''NOT IN (SELECT TOP ''+CAST((@RecsPerPage*(@Page-1))
AS VARCHAR(20))+'' ''+@ID+'' FROM (''+@SQL+'') T9 ORDER BY ''+@Sort+'') ORDER BY ''+@Sort
PRINT @Str
EXEC sp_ExecuteSql @Str
GO
其实,以上语句可以简化为:
SELECT TOP 页大小 *
FROM Table1 WHERE (ID NOT IN (SELECT TOP 页大小*页数 id FROM 表 ORDER BY id))
ORDER BY ID
但这个存储过程有一个致命的缺点,就是它含有NOT IN字样。虽然我可以把它改造为:
SELECT TOP 页大小 *
FROM Table1 WHERE not exists
(select * from (select top (页大小*页数) * from table1 order by id) b where b.id=a.id )
order by id
即,用not exists来代替not in,但我们前面已经谈过了,二者的执行效率实际上是没有区别的。既便如此,用TOP 结合NOT IN的这个方法还是比用游标要来得快一些。 虽然用not exists并不能挽救上个存储过程的效率,但使用SQL SERVER中的TOP关键字却是一个非常明智的选择。因为分页优化的最终目的就是避免产生过大的记录集,而我们在前面也已经提到了TOP的优势,通过TOP 即可实现对数据量的控制。 在分页算法中,影响我们查询速度的关键因素有两点:TOP和NOT IN。TOP可以提高我们的查询速度,而NOT IN会减慢我们的查询速度,所以要提高我们整个分页算法的速度,就要彻底改造NOT IN,同其他方法来替代它。 我们知道,几乎任何字段,我们都可以通过max(字段)或min(字段)来提取某个字段中的最大或最小值,所以如果这个字段不重复,那么就可以利用这些不重复的字段的max或min作为分水岭,使其成为分页算法中分开每页的参照物。在这里,我们可以用操作符“>”或“<”号来完成这个使命,使查询语句符合SARG形式。如:
Select top 10 * from table1 where id>200
于是就有了如下分页方案:
select top 页大小 *
from table1
where id>
(select max (id) from
(select top ((页码-1)*页大小) id from table1 order by id) as T
)
order by id
在选择即不重复值,又容易分辨大小的列时,我们通常会选择主键。下表列出了笔者用有着1000万数据的办公自动化系统中的表,在以GID(GID是主键,但并不是聚集索引。)为排序列、提取gid,fariqi,title字段,分别以第1、10、100、500、1000、1万、10万、25万、50万页为例,测试以上三种分页方案的执行速度:(单位:毫秒)
页码
方案1
方案2
方案3
1
60
30
76
10
46
16
63
100
1076
720
130
500
540
12943
83
1000
17110
470
250
10000
24796
4500
140
100000
38326
42283
1553
250000
28140
128720
2330
500000
121686
127846
7168
从上表中,我们可以看出,三种存储过程在执行100页以下的分页命令时,都是可以信任的,速度都很好。但第一种方案在执行分页1000页以上后,速度就降了下来。第二种方案大约是在执行分页1万页以上后速度开始降了下来。而第三种方案却始终没有大的降势,后劲仍然很足。 在确定了第三种分页方案后,我们可以据此写一个存储过程。大家知道SQL SERVER的存储过程是事先编译好的SQL语句,它的执行效率要比通过WEB页面传来的SQL语句的执行效率要高。下面的存储过程不仅含有分页方案,还会根据页面传来的参数来确定是否进行数据总数统计。--获取指定页的数据:
CREATE PROCEDURE pagination3
@tblName varchar(255), -- 表名
@strGetFields varchar(1000) = ''*'', -- 需要返回的列
@fldName varchar(255)='''', -- 排序的字段名
@PageSize int = 10, -- 页尺寸
@PageIndex int = 1, -- 页码
@doCount bit = 0, -- 返回记录总数, 非 0 值则返回
@OrderType bit = 0, -- 设置排序类型, 非 0 值则降序
@strWhere varchar(1500) = '''' -- 查询条件 (注意: 不要加 where)
AS
declare @strSQL varchar(5000) -- 主语句
declare @strTmp varchar(110) -- 临时变量
declare @strOrder varchar(400) -- 排序类型
if @doCount != 0
begin
if @strWhere !=''''
set @strSQL = "select count(*) as Total from [" + @tblName + "] where "+@strWhere
else
set @strSQL = "select count(*) as Total from [" + @tblName + "]"
end
--以上代码的意思是如果@doCount传递过来的不是0,就执行总数统计。以下的所有代码都是@doCount为0的情况:
else
begin
if @OrderType != 0
begin
set @strTmp = "<(select min"
set @strOrder = " order by [" + @fldName +"] desc"
--如果@OrderType不是0,就执行降序,这句很重要!
end
else
begin
set @strTmp = ">(select max"
set @strOrder = " order by [" + @fldName +"] asc"
end
if @PageIndex = 1
begin
if @strWhere != ''''
set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ "
from [" + @tblName + "] where " + @strWhere + " " + @strOrder
else
set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ "
from ["+ @tblName + "] "+ @strOrder
--如果是第一页就执行以上代码,这样会加快执行速度
end
else
begin
--以下代码赋予了@strSQL以真正执行的SQL代码
set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["
+ @tblName + "] where [" + @fldName + "]" + @strTmp + "(["+ @fldName + "])
from (select top " + str((@PageIndex-1)*@PageSize) + " ["+ @fldName + "]
from [" + @tblName + "]" + @strOrder + ") as tblTmp)"+ @strOrder
if @strWhere != ''''
set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["
+ @tblName + "] where [" + @fldName + "]" + @strTmp + "(["
+ @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["
+ @fldName + "] from [" + @tblName + "] where " + @strWhere + " "
+ @strOrder + ") as tblTmp) and " + @strWhere + " " + @strOrder
end
end
exec (@strSQL)
GO
上面的这个存储过程是一个通用的存储过程,其注释已写在其中了。 在大数据量的情况下,特别是在查询最后几页的时候,查询时间一般不会超过9秒;而用其他存储过程,在实践中就会导致超时,所以这个存储过程非常适用于大容量数据库的查询。 笔者希望能够通过对以上存储过程的解析,能给大家带来一定的启示,并给工作带来一定的效率提升,同时希望同行提出更优秀的实时数据分页算法。
=============================================================================
聚集索引的重要性和如何选择聚集索引 至此我们讨论了实现小数据量和海量数据的通用分页显示存储过程。这是因为在将本存储过程应用于“办公自动化”系统的实践中时,笔者发现这第三种存储过程在小数据量的情况下,有如下现象: 1、分页速度一般维持在1秒和3秒之间。 2、在查询最后一页时,速度一般为5秒至8秒,哪怕分页总数只有3页或30万页。 虽然在超大容量情况下,这个分页的实现过程是很快的,但在分前几页时,这个1-3秒的速度比起第一种甚至没有经过优化的分页方法速度还要慢,借用户的话说就是“还没有ACCESS数据库速度快”,这个认识足以导致用户放弃使用您开发的系统。 笔者就此分析了一下,原来产生这种现象的症结是如此的简单,但又如此的重要:排序的字段不是聚集索引! 本篇文章的题目是:“查询优化及分页算法方案”。笔者只所以把“查询优化”和“分页算法”这两个联系不是很大的论题放在一起,就是因为二者都需要一个非常重要的东西――聚集索引。 在前面的讨论中我们已经提到了,聚集索引有两个最大的优势: 1、以最快的速度缩小查询范围。 2、以最快的速度进行字段排序。 第1条多用在查询优化时,而第2条多用在进行分页时的数据排序。 而聚集索引在每个表内又只能建立一个,这使得聚集索引显得更加的重要。聚集索引的挑选可以说是实现“查询优化”和“高效分页”的最关键因素。 但要既使聚集索引列既符合查询列的需要,又符合排序列的需要,这通常是一个矛盾。笔者前面“索引”的讨论中,将fariqi,即用户发文日期作为了聚集索引的起始列,日期的精确度为“日”。这种作法的优点,前面已经提到了,在进行划时间段的快速查询中,比用ID主键列有很大的优势。 但在分页时,由于这个聚集索引列存在着重复记录,所以无法使用max或min来最为分页的参照物,进而无法实现更为高效的排序。而如果将ID主键列作为聚集索引,那么聚集索引除了用以排序之外,没有任何用处,实际上是浪费了聚集索引这个宝贵的资源。 为解决这个矛盾,笔者后来又添加了一个日期列,其默认值为getdate()。用户在写入记录时,这个列自动写入当时的时间,时间精确到毫秒。即使这样,为了避免可能性很小的重合,还要在此列上创建UNIQUE约束。将此日期列作为聚集索引列。 有了这个时间型聚集索引列之后,用户就既可以用这个列查找用户在插入数据时的某个时间段的查询,又可以作为唯一列来实现max或min,成为分页算法的参照物。 经过这样的优化,笔者发现,无论是大数据量的情况下还是小数据量的情况下,分页速度一般都是几十毫秒,甚至0毫秒。而用日期段缩小范围的查询速度比原来也没有任何迟钝。聚集索引是如此的重要和珍贵,所以笔者总结了一下,一定要将聚集索引建立在:1、您最频繁使用的、用以缩小查询范围的字段上;2、您最频繁使用的、需要排序的字段上。 结束语 本篇文章汇集了笔者近段在使用数据库方面的心得,是在做“办公自动化”系统时实践经验的积累。希望这篇文章不仅能够给大家的工作带来一定的帮助,也希望能让大家能够体会到分析问题的方法;最重要的是,希望这篇文章能够抛砖引玉,掀起大家的学习和讨论的兴趣,以共同促进,共同为公安科技强警事业和金盾工程做出自己最大的努力。 最后需要说明的是,在试验中,我发现用户在进行大数据量查询的时候,对数据库速度影响最大的不是内存大小,而是CPU。在我的P4 2.4机器上试验的时候,查看“资源管理器”,CPU经常出现持续到100%的现象,而内存用量却并没有改变或者说没有大的改变。即使在我们的HP ML 350 G3服务器上试验时,CPU峰值也能达到90%,一般持续在70%左右。 本文的试验数据都是来自我们的HP ML 350服务器。服务器配置:双Inter Xeon 超线程 CPU 2.4G,内存1G,操作系统Windows Server 2003 Enterprise Edition,数据库SQL Server 2000 SP3
永不落幕的数据库注入攻防战
本文根据DBAplus社群第98期线上分享整理而成。
讲师介绍
主题简介:
1、数据库有什么安全问题
2、何为数据库注入
3、数据库注入攻击实战
4、为什么会发生数据库注入
5、数据库注入攻击防御
记得以前有人说过,对于一家软件公司来说,最重要的不是它的办公楼,也不是它的股票,而是代码。代码这东西,说到底就是一堆数据。这话不假,但是不仅仅这样,对于一家企业来说,它的用户数据也是最重要的几个之一。在座各位想必多为DBA或者数据分析相关岗位的同学,关于数据对企业的重要性,应该理解很深刻了。
那么,换一个角度,如果站在用户角度,数据对他们而言,更是要害。从以前的“艳照门”、“电信诈骗”,到现在的“50亿条公民信息泄露”,数据泄漏每天都在发生着。所以,不管是谁,不管站在企业还是用户角度,保护数据安全是重中之重。今天的主题——数据库注入攻防,就属于数据安全这个领域的问题。
一、数据库能有什么安全问题?
1、那些年泄漏的数据
说起数据库存在的安全问题,大家必定会想到很多答案,可能因暴露外网被攻击,可能因架构或网络原因破坏数据一致性,可能因备份还原机制不可用丢数据。
但对于企业、用户来说,数据泄漏却是一个特别突出的问题。这里贴一张图。如图1,过去10年,中国互联网泄漏了10亿多条用户信息,不过跟最新泄漏的“50亿条公民信息”相比,简直小巫见大巫。现在这些数据库在互联网上早就传了一遍,网上很多“社工库”的数据,如图2,就是从这里来的。但还有很多是不公开的,还在地下买卖,恐怕我们现在知道的数据泄漏只是冰山一角。
图1
图2
2、泄漏的数据哪来的?
那么,这些数据是怎么泄漏的?根据搜狐网上的一些报道,我按类型整理了大概有6种途径,分成用户提供和不法分子利用2个大类,占比大概如图3所示。
图3
(1)用户提供
首先,用户随意连接免费WIFI或者扫描二维码会被盗取个人信息;此外,手机、电脑等终端感染病毒等恶意软件,也会造成个人信息被窃取。但这些都是因为用户自己的主动行为引起的。
(2)不法分子利用
这种主要是包括黑客在内的不法分子主动获取造成。比如:掌握了信息的公司、机构员工主动倒卖信息;
黑客利用网站漏洞入侵数据库,换句话说,这就是数据库注入引发的一个个血案;
用户密码简单,“一套密码走天下”,结果黑客通过“撞库”等间接方式也获取了用户帐号密码;
个人身份信息保管不当被利用,比如身份证复印件乱丢,轻易相信网购优惠填写身份证、银行卡信息,从而造成信息泄漏。
今天,我们将从原理、攻防等方面去剖析数据库注入。
二、何为数据库注入
1、原理
通过把恶意 SQL命令插入到Web表单提交或输入域名或页面请求的查询字符串,从而欺骗服务器执行恶意的SQL命令,而不是按照设计者意图去执行SQL语句。从图4可以看到,正常用户输入的是自己的账号密码,但攻击者不会按开发者想法来,他会用各种畸形输入来测试。比如图4就是传说中的“万能密码”,10年前,很多网站倒在它面前,就是因为完全信任用户输入。
图4
2、有什么危害
非法读取、篡改、添加、删除数据库中的数据
盗取用户的各类敏感信息,获取利益
通过修改数据库来修改网页上的内容
私自添加或删除账号
注入木马等等
看起来数据库注入的危害可不止信息泄漏,破坏数据库数据和进一步入侵也是入侵题中的应有之义。
跟其他的Web攻击如XSS/CSRF/SSRF之类比有什么不同?
危害最大。根据OWASP(Open Web Application Security Project)2013年安全报告,如图5,数据库注入是最严重的Web安全问题。
图5
直接攻击数据库,而数据是最敏感的。容易被深度利用,造成威胁扩散。刚才上面也提到,数据库注入可以用来传播木马,甚至控制服务器,想象空间很大。
三、数据库注入攻击实战
在网络安全行业有一句话,“未知攻,焉知防”。所以我们要理解数据库注入,想做好防御措施,必须先看看它是怎么攻击数据库的。
1、利用思路
攻击一般可以采用手工和自动化工具两种方式,各有千秋。
手工:
繁琐、效率低;灵活、能够根据站点防护措施随时调整攻击思路。
工具:
效率高、批量自动挖掘;但是容易被WAF(Web防火墙)识别、模式相对单一,不够灵活。但还是事在人为,工具可以跟人一样聪明,下面我们就利用神器让注入“飞起来”吧。
主要会用到下面几款工具。
Nmap:社区最著名端口扫描工具。
AWVS:商业级Web漏洞扫描工具,准确率和效率名列漏扫工具Top3。
sqlmap.py:全自动SQL注入工具,神器之“神”。
NoSQLMap.py:sqlmap的NoSQL版本,支持MongoDB等。
webshell:Web木马,攻城掠地不可或缺。
2、渗透测试环境
要知道,在欧美,扫描别人网站可能违法,更别说入侵网站了。同理,我们的测试,也仅使用模拟环境。下面有很多Web渗透的模拟环境,部署起来非常简单。
https://github.com/ethicalhack3r/DVWA
https://github.com/WebGoat/WebGoat
https://github.com/Audi-1/sqli-labs
https://hack.me/t/SQLi
https://github.com/davevs/dvxte
https://github.com/rapid7/metasploitable3
3、全景图
在开始测试前,先整理一遍思路。通常渗透测试会遵循:信息采集、入口发现、入口测试、获取webshell、提权等步骤。下面大概介绍下每个环节需要做的事情。
收集信息:通过端口扫描工具、搜索引擎或者目录爆破工具收集敏感信息或者端口开放信息,以便作为测试入口。
注入:一般说是入口发现,我们这次是Web站点存在SQL注入,然后通过手工尝试PoC(漏洞验证payload)或者自动化工具测试,一旦发现SQL注入点,立马开始遍历数据库,俗称“脱库”。但是,别忘了世纪佳缘白帽子事件,殷鉴不远啊。
Getshell:基于SQL注入上传木马,获取服务器控制权限。
提权:基于已有的普通用户权限,利用系统内核漏洞或者应用漏洞,将自己升级到root用户。
进阶:思路足够广,要多深入就有多深入。
4、发现漏洞
nmap -p1-65535 192.168.115.131
发现开放tcp/80端口,为Web服务,手工验证注入入口。
发现http://192.168.115.181/cat.php?id=1存在SQL注入。使用AWVS进行进一步验证,如图6。
图6
5、脱库
使用sqlmap全自动脱库,扫出数据库、表名、列等信息。
图7
6、Getshell
也是使用sqlmap直接在SQL Shell里写文件,当然也可以切换到--os-shell获取操作系统shell直接执行系统命令,如图8。
图8
这里科普一下传说中的“一句话木马”、“小马”、“大马”。“一句话木马”就是将接收任意字符进行执行的PHP/ASP/JSP文件,通常只有几行,甚至只有一行;“小马”就是“一句话木马”或者功能比较简单的Web木马,“大马”就是功能齐全的Web木马,比如图8所示,可以管理文件、数据库、执行系统命令、端口扫描甚至端口转发。
7、提权
从普通用户变成root用户。这个需要利用操作系统内核版本漏洞,所幸该内核版本(图9)很低,真找到了内核exp(图10),顺利提权。
图9
图10
8、进阶利用
提完权就算了?没这么简单,如果处于攻击目的,实际上可做的事情太多了。
内网漫游:一般数据库都放在内网,我们都知道企业内网很多“宝藏”,各种空口令、弱密码、目录遍历,随便扫一下就大丰收了,如图11。
流量劫持:ARP攻击、SSL流量劫持、抓包上传甚至攻击域控服务器等等,都深入到这程度,真没什么做不到的。
DDoS肉鸡:控制被入侵机器去攻击别人,当你发现某台服务器出向流量异常高就该担心了,如图12。
远控:监控机器,比如键盘记录、用户命令记录等等。
图11
图12
刚才完整介绍了一个自动SQL注入攻击的过程,可能大家觉得还是不够过瘾,因为一路只看我在使用工具,连畸形SQL语句都没看到,所以下面大概介绍一下针对MySQL、msSQL、Oracle等主流关系型数据库的手工注入。
MySQL
图13
http://192.168.115.131/cat.php?id=1'
直接在参数后面跟上’,或者\,如果没有合理过滤,是会报语法错误的,不信你看看图13。
http://192.168.115.131/cat.php?id=1%20and%201=2%20union%20select%201,user(),3,4
然后开始试探数据库字段数、当前用户,如图14。
图14
http://192.168.115.131/cat.php?id=1 and (select * from (select(sleep(5)))lsrk)
http://192.168.115.131/cat.php?id=1%20UNION%20
SELECT%201,concat(login,%27:%27,password),3,4%20FROM%20users;’
接下来是用来测试是否存在基于时间的盲注和查询数据库管理员帐号密码的,拿到root账号后可以去网上破解。
msSQL 这个思路跟MySQL一样,只是需要msSQL的注释符和MySQL有所不同,前者支持--,后者支持#,如图15。
http://www.aquaservices.co.in/authorprofile.asp?id=13 order by 100--
Here comes the error : The order by position number 100 is out of range of the number of items
图15
http://www.aquaservices.co.in/authorprofile.asp?id=13 and 0=1 Union All Select 1,@@version,3,4,5,6,db_name(),8--
http://www.aquaservices.co.in/authorprofile.asp?id=13;exec master.dbo.sp_password null,password,username;–
这里还可以执行存储过程master.dbo.sp_password直接修改数据库账号密码呢。
Oracle 思路也差不多,不过语法上稍微复杂点,如果语法不太熟,有个技巧,可以用sqlmap去跑PoC,如图16,按照提醒去构造畸形输入。
获取数据库版本信息
and 1=2 union select null,null,(select banner from sys.v_$version where rownum=1) from dual
开始爆库
and 1=2 union select null,null,(select owner from all_tables where rownum=1) from dual
and 1=2 union select null,null,(select owner from all_table where rownum=1 and owner<>'第
一个库名') from dual
and 1=2 union select null,null,(select table_name from user_tables where rownum=1) from
Dual
图16
MongoDB 上面讲的都是关系型数据库,非关系型数据库MongoDB这些是不是就安全了?不是的,如图17,密码还是明文保存的呢。
图17
四、为什么会发生数据库注入
经过上面数据库注入的攻击测试,相信大家再也不会心怀侥幸了,因为攻击成本很低,不是吗?那么,总结一下我们看到的,数据库注入发生的原因是什么?
1、透过现象看本质
SQL注入可以分为平台层注入和代码层注入。
前者由不安全的数据库配置或数据库平台的漏洞所致;
①不安全的数据库配置;②数据库平台存在漏洞;
后者由于开发对输入未进行细致过滤,从而执行非法数据查询。
①不当的类型处理;
②不合理的查询集处理;③不当的错误处理;
④转义字符处理不合适;⑤多个提交处理不当。
2、代码
首先,“信任,过犹不及”。很多时候,我们一直强调,站在开发者角度,用户是不可信任的,未过滤或验证用户输入以及输出数据,就是给自己挖坑。比如下面这个:
$username = "aaa";
$pwd = "fdsafda' or '1'='1";
$sql = "SELECT * FROM table WHERE username = '{$username}' AND pwd = '{$pwd}'";
echo $sql; //输出 SELECT * FROM table WHERE username = 'aaa' AND pwd = 'fdsafda' or '1'='1'
?>
传说中的“万能密码”利用的后台代码差不多就是这个渣样。当然,现在几乎不可能存在了,因为人总是会吸取教训的,各种安全开发的理念还是逐渐深入人心了。
3、数据库
站在运维角度,数据库注入中的运维“三宗罪”分别是:
(1)空密码/弱密码。“空,那么空”,我耳朵里突然想起来金志文的《空城》。
mysql> select user,host,password from mysql.user;
+------+-----------+----------+
| user | host | password |
+------+-----------+----------+
| root | localhost | |
| root | 127.0.0.1 | |
| root | ::1 | |
(2)外网开放。数据库开放外网,还不改端口(改了也没用,因为现在都是全端口扫描的),这不是找抽吗?
iptables-save | grep 3306
-A INPUT -p tcp -m tcp --dport 3306 -j ACCEPT
(3)用户权限控制不当。按照最小权限原则,只给账号需要的最小权限即可。
mysql> show grants for gs@101.101.101.101;
+-----------------------------------------------+
| Grants for gs@101.101.101.101;
+-----------------------------------------------+
| GRANT ALL PRIVILEGES ON `gameserver`.* TO 'wscs_gs'@'101.101.101.101'
五、数据库注入攻击防御
上文已介绍了数据库注入的原因和形式,下文将从代码、数据库、Web Server和数据分析四个层面介绍如何防御数据库注入攻击。
1、代码
SDL(Security Develop Lifecircle):软件开发应当遵循“安全开发生命周期”,软件测试需要增加安全测试的白盒与黑盒测试。
用户是不可信的:输入输出都应当被过滤,至少应满足以下4个编码规则。
对用户的输入进行校验,可以通过正则表达式,或限制长度;对单引号和 双"-"进行转换等。
不要使用动态拼装SQL,可以使用参数化的sql或者直接使用存储过程进行数据查询存取。
不要把机密信息明文存放,加密或者hash掉密码和敏感的信息。
应用的异常信息应该给出尽可能少的提示,最好使用自定义的错误信息对原始错误信息进行封装。
下面我针对PHP和Pyth的反SQL注入讲2个例子,因为平时用的比较多的是ThinkPHP和Flask这2个Web框架。
PHP
where方法使用字符串条件的时候,支持预处理(安全过滤)。
$Model->where("id=%d and username='%s' and xx='%f'",array($id,$username,$xx))->select();
模型的Query和execute方法 同样支持预处理机制,例如:
$model->query('select * from user where id=%d and status=%d',$id,$status);
Python
cur=db.cursor()
sql = "INSERT INTO test2(cid, author, content) VALUES (%s, %s, %s)" #使用%s而不是'%s'
sql=sql%('2','2','bb')
cur.execute(sql,())
2、数据库
从架构和运维两方面谈谈如何在数据库层面进行防御。
(1)架构
首先是架构层面,处于性能和安全考虑,可以在数据库集群与Web Server等前端中间增加DBProxy的中间件,比如Batis或者MyCat。
DB-Proxy Batis MyCat
如图18所示,MyCat中实现了MySQL的预处理协议,可以接收预处理命令的处理。当使用预处理查询,也可以返回正确的二进制结果集包,通过这个预处理,可以实现对SQL注入的过滤和拦截。
图18
开源SQL检测、阻断系统 Druid-SQL-Wall
Druid提供了WallFilter,基于SQL语义分析来实现防御SQL注入攻击。
(2)运维
然后是运维层面,可以在进程管理、用户授权、端口开放等方面进行攻击缓解甚至遏制。
进程启动用户
mysql 23400 22671 0 Mar19 ? 00:13:25 /usr/sbin/mysqld --basedir=/home/mysql --datadir=/home/mysql --plugin-dir=/usr/lib/mysql/plugin --user=mysql --open-files-limit=8192 --pid-file=/var/run/mysqld/mysqld.pid --socket=/var/run/mysqld/mysqld.sock --port=3306
数据库用户授权
mysql> show grants for gs@101.101.101.101;
| GRANT SELECT,INSERT,DELETE,UPDATE,USAGE PRIVILEGES ON `gameserver`.* TO 'gs'@'10.10.10.10' BY PASSWORD '*89DCA7B59FD064E3A478xxxxxxxxxF272E7E'
iptables
-A INPUT -p tcp -m tcp --dport 3306 -j MYSQL
-A MYSQL -p tcp -m tcp --dport 3306 -j REJECT --reject-with icmp-port-unreachable
3、Web Server
接下来,除了前面讲的代码、数据库层面进行数据库注入的防御,其实如果有Web前端,一般还是可以在Web Server层面进行拦截,实现一个多层次的、立体的防护体系。
下面将介绍Web Server配置、Web防火墙两方面的防御思路。
配置,配置,还是配置
在Web Server的vhost设置查询字符串过滤,一旦用户提交的字符串存在安全隐患,就会直接进行拦截。由于这个匹配度很高,误杀可能性很低,不过在业务量比较大的情况下,会损耗Web Server一定性能。
server {
set $block_sql_injections 0;
if ($query_string ~ “union.*select.*(“) {
set $block_sql_injections 1;
}
if ($query_string ~ “union.*all.*select.*”) {
set $block_sql_injections 1;
}
if ($query_string ~ “concat.*(“) {
set $block_sql_injections 1;
}
if ($block_sql_injections = 1) {
return 444;
}
WAF
全称是Web Application Firewall,跟Web Server耦合度很高,一般是作为Web Server的插件编译安装进去,常见的方案有下面几种:
tengine_waf:基于Nginx二次开发的Tengine的WAF模块。
Nginx+Sysguard:Nginx定制版WAF
Nginx+HTTPGuard:Nginx定制版WAF
Apache+Mod_security:Mod_security其实支持Apache和Nginx,原生的支持Apache,是很通用的一种方案。
一般WAF支持的功能是在以下层面进行匹配、过滤。
user-agent 匹配拦截恶意的user-agent
url 匹配拦截恶意的网页路径
args 匹配拦截恶意的GET请求参数
POST 匹配拦截恶意的POST请求参数
Cookie 匹配拦截恶意的Cookie 请求
whitetip IP白名单
whiteurl 网页路径白名单
blockip IP黑名单
4、日志分析
在海量的Web Server access.log中分析匹配攻击模型,从中发现SQL注入或者GetShell的敏感语句。
比如下面这个wordpress的攻击日志,通过报错或者’\’敏感字符发现报警:
[07-Dec-2016 02:40:49] WordPress database error You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'WHERE id = -1\'' at line 1 for query SELECT text, author_id, date FROM WHERE id = -1\'
现在通过日志大数据做安全防御的方案有这么几种:
实时检索:ELK,实时查询性能很好,也有自己的访问控制机制,需要定制。
离线分析:Hadoop,利用MapReduce等算法进行模型定制、分析、输出报告,方案参考。
流处理:Storm+Spark,实时性能好,可以用作实时风控系统。
图19
总结
数据库注入其实只是安全攻防的一个小小的领域,但因为涉及到企业、用户数据,所以需要列入重点关注。但我们知道,道高一尺魔高一丈,在利益的驱使下攻击不会停止,我们的防护也不会停止,这场攻防之战永不落幕。
参考资料
社工库问答 https://www.zhihu.com/question/22827473
个人信息泄漏源
http://business.sohu.com/20160917/n468557286.shtml
SQL注入基础
http://blog.csdn.net/pan_cras/article/details/52168448
SQL注入原理
http://blog.csdn.net/stilling2006/article/details/8526458/
Q&A Q1:开发学这个sqlmap,使用上有哪些难点?手册中文版的么?
A1:如果不是基于sqlmap做二次开发,sqlmap学习门槛很低,只需要对照官方手册(有中文版,安装包的doc/translations/README-zh-CN.md)操作即可,就跟学习普通的Linux系统命令一样简单。如果开发同学想基于sqlmap做二次开发,难点主要在理解Sqlmap的整体框架,它在软件工程上被推崇备至,就是因为在设计思想、性能处理上非常值得学习。此外,还可以自定义一些Tamper文件用于绕过服务端过滤,这个比较简单,主要是字符转换。sqlmap的学习手册可以参考:http://www.secbox.cn/hacker/6311.html。
Q2:攻击工具常用的有哪些?
A2:不同类型的攻击常用工具都不同,这个回答起来太泛了。这里我们单纯讲数据库注入需要用到的,信息收集通常使用nmap扫描开放端口、御剑扫描网站目录,漏洞发现通常基于信息收集使用AWVS或者OpenVas进行Web或系统漏洞扫描,如果发现SQL注入,则分别使用sqlmap、Pangolin(穿山甲)等工具进行自动渗透,然后再基于漏洞点的权限决定是通过后台上传还是直接写一句话使木马到站点,之后,使用中国菜刀(一句话木马连接工具)连接,再往后的攻击主要靠思路,没什么现成工具。
Q3:WAF可以检测到SQL注入的行为吗?
A3:可以。像HTTPGuard或者tengine_waf都支持SQL注入行为发现,主要原理也是依据正则表达式匹配,然后通过输出的log来报警。
Q4:请问有什么好的相关书籍或者资料推荐,系统学习安全方面的知识
A4:1.建议先从Web安全入门,推荐《白帽子讲Web安全》,同时学习Linux系统基础知识,推荐《跟阿铭学linux》。2.学习系统安全相关知识。资料可以参考别人整理的Github上安全知识仓库:http://www.uedbox.com/github-security-repo-collection/;以及知乎上面的专栏文章:https://zhuanlan.zhihu.com/p/25661457。
Q5:市场上有什么防数据库注入的解决方案吗?
A5:没有单独的防数据库注入的产品或者商业方案,一般作为入侵检测系统的子功能,或者Web站点安全防护解决方案的一部分。传统安全厂商启明星辰、绿盟都有入侵检测产品,Web方面的360和安全狗用的比较多。如果是自己实现,就是本次分享提到的代码、数据库、Web Server、日志分析等几个层面的方案。
Q6:科普下肉鸡是什么?
A6:肉鸡也称傀儡机,是指可以被黑客远程控制的机器。受害者被诱导点击或者机器被黑客攻破或机器有漏洞被种植了木马,黑客借此随意操纵服机器并利用它做任何事情,比如DDoS。
Q7:可以用admin权限,上传一个1像素的木马到主页上抓肉鸡,不是更好吗?
A7:你这里说的应该是网页挂马,也是抓肉鸡的一种方式。但是要获取admin权限,作为非法用户,本身就要通过入侵去实现的。
Q8:那些搞破解的是不是专做这些事?
A8:数据库注入跟破解其实不是一个领域的问题,破解更多的是应用程序的逆向,比如破解商业软件的License之类的。
原文发布时间为:2017-04-05
本文来自云栖社区合作伙伴DBAplus
SQL优化-索引、查询优化及分页算法方案
SQL优化-索引、查询优化及分页算法方案
(一)深入浅出理解索引结构
实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别:
其实,我们的汉语字典的正文本身就是一个聚集索引。比如,我们要查“安”字,就会很自然地翻开字典的前几页,因为“安”的拼音是“an”,而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的,那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字,那么就说明您的字典中没有这个字;同样的,如果查“张”字,那您也会将您的字典翻到最后部分,因为“张”的拼音是“zhang”。也就是说,字典的正文部分本身就是一个目录,您不需要再去查其他目录来找到您需要找的内容。
我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。
如果您认识某个字,您可以快速地从自典中查到这个字。但您也可能会遇到您不认识的字,不知道它的发音,这时候,您就不能按照刚才的方法找到您要查的字,而需要去根据“偏旁部首”查到您要找的字,然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真正的正文的排序方法,比如您查“张”字,我们可以看到在查部首之后的检字表中“张”的页码是672页,检字表中“张”的上面是“驰”字,但页码却是63页,“张”的下面是“弩”字,页面是390页。很显然,这些字并不是真正的分别位于“张”字的上下方,现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序,是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字,但它需要两个过程,先找到目录中的结果,然后再翻到您所需要的页码。
我们把这种目录纯粹是目录,正文纯粹是正文的排序方式称为“非聚集索引”。
通过以上例子,我们可以理解到什么是“聚集索引”和“非聚集索引”。
进一步引申一下,我们可以很容易的理解:每个表只能有一个聚集索引,因为目录只能按照一种方法进行排序。
(二)何时使用聚集索引或非聚集索引
下面的表总结了何时使用聚集索引或非聚集索引(很重要)。
动作描述
使用聚集索引
使用非聚集索引
外键列
应
应
主键列
应
应
列经常被分组排序(order by)
应
应
返回某范围内的数据
应
不应
小数目的不同值
应
不应
大数目的不同值
不应
应
频繁更新的列
不应
应
频繁修改索引列
不应
应
一个或极少不同值
不应
不应
事实上,我们可以通过前面聚集索引和非聚集索引的定义的例子来理解上表。如:返回某范围内的数据一项。比如您的某个表有一个时间列,恰好您把聚合索引建立在了该列,这时您查询2004年1月1日至2004年10月1日之间的全部数据时,这个速度就将是很快的,因为您的这本字典正文是按日期进行排序的,聚类索引只需要找到要检索的所有数据中的开头和结尾数据即可;而不像非聚集索引,必须先查到目录中查到每一项数据对应的页码,然后再根据页码查到具体内容。
(三)结合实际,谈索引使用的误区
理论的目的是应用。虽然我们刚才列出了何时应使用聚集索引或非聚集索引,但在实践中以上规则却很容易被忽视或不能根据实际情况进行综合分析。下面我们将根据在实践中遇到的实际问题来谈一下索引使用的误区,以便于大家掌握索引建立的方法。
1、主键就是聚集索引(对于聚集索引的功能来说是种浪费)
这种想法笔者认为是极端错误的,是对聚集索引的一种浪费。虽然SQL SERVER默认是在主键上建立聚集索引的。
通常,我们会在每个表中都建立一个ID列,以区分每条数据,并且这个ID列是自动增大的,步长一般为1。我们的这个办公自动化的实例中的列Gid就是如此。此时,如果我们将这个列设为主键,SQL SERVER会将此列默认为聚集索引。这样做有好处,就是可以让您的数据在数据库中按照ID进行物理排序,但笔者认为这样做意义不大。
显而易见,聚集索引的优势是很明显的,而每个表中只能有一个聚集索引的规则,这使得聚集索引变得更加珍贵。
从我们前面谈到的聚集索引的定义我们可以看出,使用聚集索引的最大好处就是能够根据查询要求,迅速缩小查询范围,避免全表扫描。在实际应用中,因为ID号是自动生成的,我们并不知道每条记录的ID号,所以我们很难在实践中用ID号来进行查询。这就使让ID号这个主键作为聚集索引成为一种资源浪费。其次,让每个ID号都不同的字段作为聚集索引也不符合“大数目的不同值情况下不应建立聚合索引”规则;当然,这种情况只是针对用户经常修改记录内容,特别是索引项的时候会负作用,但对于查询速度并没有影响。
在办公自动化系统中,无论是系统首页显示的需要用户签收的文件、会议还是用户进行文件查询等任何情况下进行数据查询都离不开字段的是“日期”还有用户本身的“用户名”。
通常,办公自动化的首页会显示每个用户尚未签收的文件或会议。虽然我们的where语句可以仅仅限制当前用户尚未签收的情况,但如果您的系统已建立了很长时间,并且数据量很大,那么,每次每个用户打开首页的时候都进行一次全表扫描,这样做意义是不大的,绝大多数的用户1个月前的文件都已经浏览过了,这样做只能徒增数据库的开销而已。事实上,我们完全可以让用户打开系统首页时,数据库仅仅查询这个用户近3个月来未阅览的文件,通过“日期”这个字段来限制表扫描,提高查询速度。如果您的办公自动化系统已经建立的2年,那么您的首页显示速度理论上将是原来速度8倍,甚至更快。
在这里之所以提到“理论上”三字,是因为如果您的聚集索引还是盲目地建在ID这个主键上时,您的查询速度是没有这么高的,即使您在“日期”这个字段上建立的索引(非聚合索引)。下面我们就来看一下在1000万条数据量的情况下各种查询的速度表现(3个月内的数据为25万条):
(1)仅在主键上建立聚集索引,并且不划分时间段:
Select gid,fariqi,neibuyonghu,title from tgongwen
用时:128470毫秒(即:128秒)
(2)在主键上建立聚集索引,在fariq上建立非聚集索引:
select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi> dateadd(day,-90,getdate())
用时:53763毫秒(54秒)
(3)将聚合索引建立在日期列(fariqi)上:
select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi> dateadd(day,-90,getdate())
用时:2423毫秒(2秒)
虽然每条语句提取出来的都是25万条数据,各种情况的差异却是巨大的,特别是将聚集索引建立在日期列时的差异。事实上,如果您的数据库真的有1000万容量的话,把主键建立在ID列上,就像以上的第1、2种情况,在网页上的表现就是超时,根本就无法显示。这也是我摒弃ID列作为聚集索引的一个最重要的因素。
得出以上速度的方法是:在各个select语句前加:
declare @d datetime
set @d=getdate()
并在select语句后加:
select [语句执行花费时间(毫秒)]=datediff(ms,@d,getdate())
2、只要建立索引就能显著提高查询速度
事实上,我们可以发现上面的例子中,第2、3条语句完全相同,且建立索引的字段也相同;不同的仅是前者在fariqi字段上建立的是非聚合索引,后者在此字段上建立的是聚合索引,但查询速度却有着天壤之别。所以,并非是在任何字段上简单地建立索引就能提高查询速度。
从建表的语句中,我们可以看到这个有着1000万数据的表中fariqi字段有5003个不同记录。在此字段上建立聚合索引是再合适不过了。在现实中,我们每天都会发几个文件,这几个文件的发文日期就相同,这完全符合建立聚集索引要求的:“既不能绝大多数都相同,又不能只有极少数相同”的规则。由此看来,我们建立“适当”的聚合索引对于我们提高查询速度是非常重要的。
3、把所有需要提高查询速度的字段都加进聚集索引,以提高查询速度
上面已经谈到:在进行数据查询时都离不开字段的是“日期”还有用户本身的“用户名”。既然这两个字段都是如此的重要,我们可以把他们合并起来,建立一个复合索引(compound index)。
很多人认为只要把任何字段加进聚集索引,就能提高查询速度,也有人感到迷惑:如果把复合的聚集索引字段分开查询,那么查询速度会减慢吗?带着这个问题,我们来看一下以下的查询速度(结果集都是25万条数据):(日期列fariqi首先排在复合聚集索引的起始列,用户名neibuyonghu排在后列)
(1)select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi>'2004-5-5'
查询速度:2513毫秒
(2)select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi>'2004-5-5' and neibuyonghu='办公室'
查询速度:2516毫秒
(3)select gid,fariqi,neibuyonghu,title from Tgongwen
where neibuyonghu='办公室'
查询速度:60280毫秒
从以上试验中,我们可以看到如果仅用聚集索引的起始列作为查询条件和同时用到复合聚集索引的全部列的查询速度是几乎一样的,甚至比用上全部的复合索引列还要略快(在查询结果集数目一样的情况下);而如果仅用复合聚集索引的非起始列作为查询条件的话,这个索引是不起任何作用的。当然,语句1、2的查询速度一样是因为查询的条目数一样,如果复合索引的所有列都用上,而且查询结果少的话,这样就会形成“索引覆盖”,因而性能可以达到最优。同时,请记住:无论您是否经常使用聚合索引的其他列,但其前导列一定要是使用最频繁的列。
(四)其他书上没有的索引使用经验总结
1、用聚合索引比用不是聚合索引的主键速度快
下面是实例语句:(都是提取25万条数据)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi='2004-9-16'
使用时间:3326毫秒
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid<=250000
使用时间:4470毫秒
这里,用聚合索引比用不是聚合索引的主键速度快了近1/4。
2、用聚合索引比用一般的主键作order by时速度快,特别是在小数据量情况下
select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by fariqi
用时:12936
select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by gid
用时:18843
这里,用聚合索引比用一般的主键作order by时,速度快了3/10。事实上,如果数据量很小的话,用聚集索引作为排序列要比使用非聚集索引速度快得明显的多;而数据量如果很大的话,如10万以上,则二者的速度差别不明显。
3、使用聚合索引内的时间段,搜索时间会按数据占整个数据表的百分比成比例减少,而无论聚合索引使用了多少个
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi>'2004-1-1'
用时:6343毫秒(提取100万条)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi>'2004-6-6'
用时:3170毫秒(提取50万条)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi='2004-9-16'
用时:3326毫秒(和上句的结果一模一样。如果采集的数量一样,那么用大于号和等于号是一样的)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi>'2004-1-1' and fariqi<'2004-6-6'
用时:32 4 、日期列不会因为有分秒的输入而减慢查询速度
下面的例子中,共有100万条数据,2004年1月1日以后的数据有50万条,但只有两个不同的日期,日期精确到日;之前有数据50万条,有5000个不同的日期,日期精确到秒。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi>'2004-1-1' order by fariqi
用时:6390毫秒
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi<'2004-1-1' order by fariqi
用时:6453毫秒
(五)其他注意事项
“水可载舟,亦可覆舟”,索引也一样。索引有助于提高检索性能,但过多或不当的索引也会导致系统低效。过多的索引甚至会导致索引碎片。
索引是从数据库中获取数据的最高效方式之一。95%的数据库性能问题都可以采用索引技术得到解决。
1. 不要索引常用的小型表
不要为小型数据表设置任何键,假如它们经常有插入和删除操作就更别这样作了。对这些插入和删除操作的索引维护可能比扫描表空间消耗更多的时间。
2. 不要把社会保障号码(SSN)或身份证号码(ID)选作键
永远都不要使用 SSN 或 ID 作为数据库的键。除了隐私原因以外,SSN 或 ID 需要手工输入。永远不要使用手工输入的键作为主键,因为一旦你输入错误,你唯一能做的就是删除整个记录然后从头开始。
3. 不要用用户的键
在确定采用什么字段作为表的键的时候,可一定要小心用户将要编辑的字段。通常的情况下不要选择用户可编辑的字段作为键。
4. 不要索引 memo/notes 字段和不要索引大型文本字段(许多字符)
这样做会让你的索引占据大量的数据库空间
5. 使用系统生成的主键
假如你总是在设计数据库的时候采用系统生成的键作为主键,那么你实际控制了数据库的索引完整性。这样,数据库和非人工机制就有效地控制了对存储数据中每一行的访问。
采用系统生成键作为主键还有一个优点:当你拥有一致的键结构时,找到逻辑缺陷很容易。
80毫秒
二、改善SQL语句
很多人不知道SQL语句在SQL SERVER中是如何执行的,他们担心自己所写的SQL语句会被SQL SERVER误解。比如:
select * from table1 where name='zhangsan' and tID > 10000
和执行:
select * from table1 where tID > 10000 and name='zhangsan'
一些人不知道以上两条语句的执行效率是否一样,因为如果简单的从语句先后上看,这两个语句的确是不一样,如果tID是一个聚合索引,那么后一句仅仅从表的10000条以后的记录中查找就行了;而前一句则要先从全表中查找看有几个name='zhangsan'的,而后再根据限制条件条件tID>10000来提出查询结果。
事实上,这样的担心是不必要的。SQL SERVER中有一个“查询分析优化器”,它可以计算出where子句中的搜索条件并确定哪个索引能缩小表扫描的搜索空间,也就是说,它能实现自动优化。
虽然查询优化器可以根据where子句自动的进行查询优化,但大家仍然有必要了解一下“查询优化器”的工作原理,如非这样,有时查询优化器就会不按照您的本意进行快速查询。
在查询分析阶段,查询优化器查看查询的每个阶段并决定限制需要扫描的数据量是否有用。如果一个阶段可以被用作一个扫描参数(SARG),那么就称之为可优化的,并且可以利用索引快速获得所需数据。
SARG的定义:用于限制搜索的一个操作,因为它通常是指一个特定的匹配,一个值的范围内的匹配或者两个以上条件的AND连接。形式如下:
列名 操作符 <常数 或 变量>
或
<常数 或 变量> 操作符列名
列名可以出现在操作符的一边,而常数或变量出现在操作符的另一边。如:
Name=’张三’
价格>5000
5000<价格
Name=’张三’ and 价格>5000
如果一个表达式不能满足SARG的形式,那它就无法限制搜索的范围了,也就是SQL SERVER必须对每一行都判断它是否满足WHERE子句中的所有条件。所以一个索引对于不满足SARG形式的表达式来说是无用的。
介绍完SARG后,我们来总结一下使用SARG以及在实践中遇到的和某些资料上结论不同的经验:
1、Like语句是否属于SARG取决于所使用的通配符的类型
如:name like ‘张%’ ,这就属于SARG
而:name like ‘%张’ ,就不属于SARG。
原因是通配符%在字符串的开头使得索引无法使用。
2、or 会引起全表扫描
如:Name=’张三’ and 价格>5000 符号SARG,
而:Name=’张三’ or 价格>5000 则不符合SARG。
使用or会引起全表扫描。
3、非操作符、函数引起的不满足SARG形式的语句
不满足SARG形式的语句最典型的情况就是包括非操作符的语句,如:NOT、!=、<>、!<、!>、NOT EXISTS、NOT IN、NOT LIKE等,另外还有函数。下面就是几个不满足SARG形式的例子:
ABS(价格)<5000
Name like ‘%三’
有些表达式,如:
WHERE 价格*2>5000
SQL SERVER也会认为是SARG,SQL SERVER会将此式转化为:
WHERE 价格>2500/2
但我们不推荐这样使用,因为有时SQL SERVER不能保证这种转化与原始表达式是完全等价的。
4、IN 的作用相当与OR
语句:
Select * from table1 where tid in (2,3)
和
Select * from table1 where tid=2 or tid=3
是一样的,都会引起全表扫描,如果tid上有索引,其索引也会失效。
5、尽量少用NOT
6、exists 和 in 的执行效率是一样的
很多资料上都显示说,exists要比in的执行效率要高,同时应尽可能的用not exists来代替not in。但事实上,我试验了一下,发现二者无论是前面带不带not,二者之间的执行效率都是一样的。因为涉及子查询,我们试验这次用SQL SERVER自带的pubs数据库。运行前我们可以把SQL SERVER的statistics I/O状态打开。
(1)select title,price from titles where title_id in
(select title_id from sales where qty>30)
该句的执行结果为:
表 'sales'。扫描计数 18,逻辑读 56 次,物理读 0 次,预读 0 次。
表 'titles'。扫描计数 1,逻辑读 2 次,物理读 0 次,预读 0 次。
(2)select title,price from titles where exists
(select * from sales where sales.title_id=titles.title_id and qty>30)
第二句的执行结果为:
表 'sales'。扫描计数 18,逻辑读 56 次,物理读 0 次,预读 0 次。
表 'titles'。扫描计数 1,逻辑读 2 次,物理读 0 次,预读 0 次。
我们从此可以看到用exists和用in的执行效率是一样的。
7、用函数charindex()和前面加通配符%的LIKE执行效率一样
前面,我们谈到,如果在LIKE前面加上通配符%,那么将会引起全表扫描,所以其执行效率是低下的。但有的资料介绍说,用函数charindex()来代替LIKE速度会有大的提升,经我试验,发现这种说明也是错误的:
select gid,title,fariqi,reader from tgongwen
where charindex('刑侦支队',reader)>0 and fariqi>'2004-5-5'
用时:7秒,另外:扫描计数 4,逻辑读 7155 次,物理读 0 次,预读 0 次。
select gid,title,fariqi,reader from tgongwen
where reader like '%' + '刑侦支队' + '%' and fariqi>'2004-5-5'
用时:7秒,另外:扫描计数 4,逻辑读 7155 次,物理读 0 次,预读 0 次。
8、union并不绝对比or的执行效率高
我们前面已经谈到了在where子句中使用or会引起全表扫描,一般的,我所见过的资料都是推荐这里用union来代替or。事实证明,这种说法对于大部分都是适用的。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi='2004-9-16' or gid>9990000
用时:68秒。扫描计数 1,逻辑读 404008 次,物理读 283 次,预读 392163 次。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi='2004-9-16'
union
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000
用时:9秒。扫描计数 8,逻辑读 67489 次,物理读 216 次,预读 7499 次。
看来,用union在通常情况下比用or的效率要高的多。
但经过试验,笔者发现如果or两边的查询列是一样的话,那么用union则反倒和用or的执行速度差很多,虽然这里union扫描的是索引,而or扫描的是全表。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi='2004-9-16' or fariqi='2004-2-5'
用时:6423毫秒。扫描计数 2,逻辑读 14726 次,物理读 1 次,预读 7176 次。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi='2004-9-16'
union
select gid,fariqi,neibuyonghu,reader,title from Tgongwen
where fariqi='2004-2-5'
用时:11640毫秒。扫描计数 8,逻辑读 14806 次,物理读 108 次,预读 1144 次。
9、字段提取要按照“需多少、提多少”的原则,避免“select *”
我们来做一个试验:
select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc
用时:4673毫秒
select top 10000 gid,fariqi,title from tgongwen order by gid desc
用时:1376毫秒
select top 10000 gid,fariqi from tgongwen order by gid desc
用时:80毫秒
由此看来,我们每少提取一个字段,数据的提取速度就会有相应的提升。提升的速度还要看您舍弃的字段的大小来判断。
10、count(*)不比count(字段)慢
某些资料上说:用*会统计所有列,显然要比一个世界的列名效率低。这种说法其实是没有根据的。我们来看:
select count(*) from Tgongwen
用时:1500毫秒
select count(gid) from Tgongwen
用时:1483毫秒
select count(fariqi) from Tgongwen
用时:3140毫秒
select count(title) from Tgongwen
用时:52050毫秒
从以上可以看出,如果用count(*)和用count(主键)的速度是相当的,而count(*)却比其他任何除主键以外的字段汇总速度要快,而且字段越长,汇总的速度就越慢。我想,如果用count(*), SQL SERVER可能会自动查找最小字段来汇总的。当然,如果您直接写count(主键)将会来的更直接些。
11、order by按聚集索引列排序效率最高
我们来看:(gid是主键,fariqi是聚合索引列)
select top 10000 gid,fariqi,reader,title from tgongwen
用时:196 毫秒。 扫描计数 1,逻辑读 289 次,物理读 1 次,预读 1527 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc
用时:4720毫秒。 扫描计数 1,逻辑读 41956 次,物理读 0 次,预读 1287 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc
用时:4736毫秒。 扫描计数 1,逻辑读 55350 次,物理读 10 次,预读 775 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc
用时:173毫秒。 扫描计数 1,逻辑读 290 次,物理读 0 次,预读 0 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc
用时:156毫秒。 扫描计数 1,逻辑读 289 次,物理读 0 次,预读 0 次。
从以上我们可以看出,不排序的速度以及逻辑读次数都是和“order by 聚集索引列” 的速度是相当的,但这些都比“order by 非聚集索引列”的查询速度是快得多的。
同时,按照某个字段进行排序的时候,无论是正序还是倒序,速度是基本相当的。
12、高效的TOP
事实上,在查询和提取超大容量的数据集时,影响数据库响应时间的最大因素不是数据查找,而是物理的I/0操作。如:
select top 10 * from (
select top 10000 gid,fariqi,title from tgongwen
where neibuyonghu='办公室'order by gid desc) as a
order by gid asc
这条语句,从理论上讲,整条语句的执行时间应该比子句的执行时间长,但事实相反。因为,子句执行后返回的是10000条记录,而整条语句仅返回10条语句,所以影响数据库响应时间最大的因素是物理I/O操作。而限制物理I/O操作此处的最有效方法之一就是使用TOP关键词了。TOP关键词是SQL SERVER中经过系统优化过的一个用来提取前几条或前几个百分比数据的词。经笔者在实践中的应用,发现TOP确实很好用,效率也很高。但这个词在另外一个大型数据库ORACLE中却没有,这不能说不是一个遗憾,虽然在ORACLE中可以用其他方法(如:rownumber)来解决。在以后的关于“实现千万级数据的分页显示存储过程”的讨论中,我们就将用到TOP这个关键词。
到此为止,我们上面讨论了如何实现从大容量的数据库中快速地查询出您所需要的数据方法。当然,我们介绍的这些方法都是“软”方法,在实践中,我们还要考虑各种“硬”因素,如:网络性能、服务器的性能、操作系统的性能,甚至网卡、交换机等。
三、实现小数据量和海量数据的通用分页显示存储过程
建立一个web 应用,分页浏览功能必不可少。这个问题是数据库处理中十分常见的问题。经典的数据分页方法是:ADO 纪录集分页法,也就是利用ADO自带的分页功能(利用游标)来实现分页。但这种分页方法仅适用于较小数据量的情形,因为游标本身有缺点:游标是存放在内存中,很费内存。游标一建立,就将相关的记录锁住,直到取消游标。游标提供了对特定集合中逐行扫描的手段,一般使用游标来逐行遍历数据,根据取出数据条件的不同进行不同的操作。而对于多表和大表中定义的游标(大的数据集合)循环很容易使程序进入一个漫长的等待甚至死机。
更重要的是,对于非常大的数据模型而言,分页检索时,如果按照传统的每次都加载整个数据源的方法是非常浪费资源的。现在流行的分页方法一般是检索页面大小的块区的数据,而非检索所有的数据,然后单步执行当前行。
最早较好地实现这种根据页面大小和页码来提取数据的方法大概就是“俄罗斯存储过程”。这个存储过程用了游标,由于游标的局限性,所以这个方法并没有得到大家的普遍认可。
后来,网上有人改造了此存储过程,下面的存储过程就是结合我们的办公自动化实例写的分页存储过程:
CREATE procedure pagination1
(@pagesize int, --页面大小,如每页存储20条记录
@pageindex int --当前页码
)
as
set nocount on //不返回计数,不返回任何结果集
begin
declare @indextable table(id int identity(1,1),nid int) --定义表变量
declare @PageLowerBound int --定义此页的底码
declare @PageUpperBound int --定义此页的顶码
set @PageLowerBound=(@pageindex-1)*@pagesize
set @PageUpperBound=@PageLowerBound+@pagesize
set rowcount @PageUpperBound
insert into @indextable(nid) select gid from TGongwen where fariqi > dateadd(day,-365,getdate()) order by fariqi desc
select O.gid,O.mid,O.title,O.fadanwei,O.fariqi from TGongwen O, @indextable t where O.gid=t.nid
and t.id>@PageLowerBound and t.id<=@PageUpperBound order by t.id
end
set nocount off //返回计数,返回任何结果集
以上存储过程运用了SQL SERVER的最新技术――表变量。应该说这个存储过程也是一个非常优秀的分页存储过程。当然,在这个过程中,您也可以把其中的表变量写成临时表:CREATE TABLE #Temp。但很明显,在SQL SERVER中,用临时表是没有用表变量快的。所以笔者刚开始使用这个存储过程时,感觉非常的不错,速度也比原来的ADO的好。但后来,我又发现了比此方法更好的方法。
笔者曾在网上看到了一篇小短文《从数据表中取出第n条到第m条的记录的方法》,全文如下:
从publish 表中取出第 n 条到第 m 条的记录:
SELECT TOP m-n+1 *
FROM publish
WHERE (id NOT IN (SELECT TOP n-1 id FROM publish))
id 为publish 表的关键字
我当时看到这篇文章的时候,真的是精神为之一振,觉得思路非常得好。等到后来,我在作办公自动化系统(ASP.NET+ C#+SQL SERVER)的时候,忽然想起了这篇文章,我想如果把这个语句改造一下,这就可能是一个非常好的分页存储过程。于是我就满网上找这篇文章,没想到,文章还没找到,却找到了一篇根据此语句写的一个分页存储过程,这个存储过程也是目前较为流行的一种分页存储过程,我很后悔没有争先把这段文字改造成存储过程:
CREATE PROCEDURE pagination2
(
@SQL nVARCHAR(4000), --不带排序语句的SQL语句
@Page int, --页码
@RecsPerPage int, --每页容纳的记录数
@ID VARCHAR(255), --需要排序的不重复的ID号
@Sort VARCHAR(255) --排序字段及规则
)
AS
DECLARE @Str nVARCHAR(4000)
SET @Str='SELECT TOP '+CAST(@RecsPerPage AS VARCHAR(20))+' * FROM ('+@SQL+') T WHERET.'+@ID+'NOT IN
(SELECT TOP '+CAST((@RecsPerPage*(@Page-1)) AS VARCHAR(20))+'
'+@ID+' FROM ('+@SQL+') T9 ORDER BY'+@Sort+') ORDER BY
'+@Sort
PRINT @Str
EXEC sp_ExecuteSql @Str
GO
其实,以上语句可以简化为:
SELECT TOP 页大小 *
FROM Table1
WHERE (ID NOT IN
(SELECT TOP 页大小*页数 id
FROM 表
ORDER BY id))
ORDER BY ID
但这个存储过程有一个致命的缺点,就是它含有NOT IN字样。虽然我可以把它改造为:
SELECT TOP 页大小 *
FROM Table1
WHERE not exists
(select * from (select top (页大小*页数) * from table1 order by id) b
where b.id=a.id )
order by id
即,用not exists来代替not in,但我们前面已经谈过了,二者的执行效率实际上是没有区别的。
既便如此,用TOP 结合NOT IN的这个方法还是比用游标要来得快一些。
虽然用not exists并不能挽救上个存储过程的效率,但使用SQL SERVER中的TOP关键字却是一个非常明智的选择。因为分页优化的最终目的就是避免产生过大的记录集,而我们在前面也已经提到了TOP的优势,通过TOP 即可实现对数据量的控制。
在分页算法中,影响我们查询速度的关键因素有两点:TOP和NOT IN。TOP可以提高我们的查询速度,而NOT IN会减慢我们的查询速度,所以要提高我们整个分页算法的速度,就要彻底改造NOT IN,同其他方法来替代它。
我们知道,几乎任何字段,我们都可以通过max(字段)或min(字段)来提取某个字段中的最大或最小值,所以如果这个字段不重复,那么就可以利用这些不重复的字段的max或min作为分水岭,使其成为分页算法中分开每页的参照物。在这里,我们可以用操作符“>”或“<”号来完成这个使命,使查询语句符合SARG形式。如:
Select top 10 * from table1 where id>200
于是就有了如下分页方案:
select top 页大小 *
from table1
where id>
(select max (id) from
(select top ((页码-1)*页大小) id from table1 order by id) as T
)
order by id
在选择即不重复值,又容易分辨大小的列时,我们通常会选择主键。下表列出了笔者用有着1000万数据的办公自动化系统中的表,在以GID(GID是主键,但并不是聚集索引。)为排序列、提取gid,fariqi,title字段,分别以第1、10、100、500、1000、1万、10万、25万、50万页为例,测试以上三种分页方案的执行速度:(单位:毫秒)
页 码
方案1
方案2
方案3
1
60
30
76
10
46
16
63
100
1076
720
130
500
540
12943
83
1000
17110
470
250
1万
24796
4500
140
10万
38326
42283
1553
25万
28140
128720
2330
50万
121686
127846
7168
从上表中,我们可以看出,三种存储过程在执行100页以下的分页命令时,都是可以信任的,速度都很好。但第一种方案在执行分页1000页以上后,速度就降了下来。第二种方案大约是在执行分页1万页以上后速度开始降了下来。而第三种方案却始终没有大的降势,后劲仍然很足。
在确定了第三种分页方案后,我们可以据此写一个存储过程。大家知道SQL SERVER的存储过程是事先编译好的SQL语句,它的执行效率要比通过WEB页面传来的SQL语句的执行效率要高。下面的存储过程不仅含有分页方案,还会根据页面传来的参数来确定是否进行数据总数统计。
-- 获取指定页的数据
CREATE PROCEDURE pagination3
@tblName varchar(255), -- 表名
@strGetFields varchar(1000) = '*', -- 需要返回的列
@fldName varchar(255)='', -- 排序的字段名
@PageSize int = 10, -- 页尺寸(每页记录数)
@PageIndex int = 1, -- 页码
@doCount bit = 0, -- 返回记录总数, 非0值则返回记录数
@OrderType bit = 0, -- 设置排序类型, 非0值则降序
@strWhere varchar(1500) = '' -- 查询条件 (注意: 不要加 where)
AS
declare @strSQL varchar(5000) -- 主语句
declare @strTmp varchar(110) -- 临时变量
declare @strOrder varchar(400) -- 排序类型
if @doCount != 0
begin
if @strWhere !=''
set @strSQL = "select count(*) as Total from [" + @tblName + "] where "+@strWhere
else
set @strSQL = "select count(*) as Total from [" + @tblName + "]"
end --以上代码的意思是如果@doCount传递过来的不是0,就执行总数统计。以下的所有代码都是@doCount为0的情况
else
begin
if @OrderType != 0 // 降序(desc)
begin
set @strTmp = "<(select min"
set @strOrder = " order by [" + @fldName +"] desc"
--如果@OrderType不是0,就执行降序,这句很重要!
end
else // 升序(asc)
begin
set @strTmp = ">(select max"
set @strOrder = " order by [" + @fldName +"] asc"
end
if @PageIndex = 1 // 页码
begin
if @strWhere != ''
set @strSQL = "select top " +str(@PageSize)+ " "
+@strGetFields+ " from [" + @tblName + "] where " + @strWhere + " " + @strOrder
else
set @strSQL = "select top " +str(@PageSize)+" "
+@strGetFields+ " from [" +@tblName+ "] "+@strOrder
--如果是第一页就执行以上代码,这样会加快执行速度
end
else
begin --以下代码赋予了@strSQL以真正执行的SQL代码
set @strSQL = "select top " +str(@PageSize)+ " "
+@strGetFields+ " from [" +@tblName+ "] where ["+@fldName+ "]"
+@strTmp+ "(["
+@fldName+ "]) from (select top " +str((@PageIndex-1)*@PageSize)+ " ["+@fldName+ "] from ["
+@tblName+ "]"
+@strOrder+ ") as tblTmp)"+@strOrder
if @strWhere != ''
set @strSQL ="select top " +str(@PageSize)+ " "
+@strGetFields+ " from [" +@tblName+ "] where ["+@fldName+ "]"
+@strTmp+ "(["
+@fldName+ "]) from (select top " +str((@PageIndex-1)*@PageSize) + " ["+@fldName+ "] from ["
+@tblName+ "] where "
+@strWhere+ " "+@strOrder+ ") as tblTmp) and "
+@strWhere+ " "
+@strOrder
end
end
exec (@strSQL)
GO
上面的这个存储过程是一个通用的存储过程,其注释已写在其中了。
select top 页大小 *
from table1
where id >
(select max (id) from
(select top ((页码-1)*页大小) id from table1 order by id) as T
)
order by id
在大数据量的情况下,特别是在查询最后几页的时候,查询时间一般不会超过9秒;而用其他存储过程,在实践中就会导致超时,所以这个存储过程非常适用于大容量数据库的查询。
笔者希望能够通过对以上存储过程的解析,能给大家带来一定的启示,并给工作带来一定的效率提升,同时希望同行提出更优秀的实时数据分页算法.
四、聚集索引的重要性和如何选择聚集索引
在上一节的标题中,笔者写的是:实现小数据量和海量数据的通用分页显示存储过程。这是因为在将本存储过程应用于“办公自动化”系统的实践中时,笔者发现这第三种存储过程在小数据量的情况下,有如下现象:
1、分页速度一般维持在1秒和3秒之间。
2、在查询最后一页时,速度一般为5秒至8秒,哪怕分页总数只有3页或30万页。
虽然在超大容量情况下,这个分页的实现过程是很快的,但在分前几页时,这个1-3秒的速度比起第一种甚至没有经过优化的分页方法速度还要慢,借用户的话说就是“还没有ACCESS数据库速度快”,这个认识足以导致用户放弃使用您开发的系统。
笔者就此分析了一下,原来产生这种现象的症结是如此的简单,但又如此的重要:排序的字段不是聚集索引!
本篇文章的题目是:“查询优化及分页算法方案”。笔者只所以把“查询优化”和“分页算法”这两个联系不是很大的论题放在一起,就是因为二者都需要一个非常重要的东西――聚集索引。
在前面的讨论中我们已经提到了,聚集索引有两个最大的优势:
1、以最快的速度缩小查询范围。
2、以最快的速度进行字段排序。
第1条多用在查询优化时,而第2条多用在进行分页时的数据排序。
而聚集索引在每个表内又只能建立一个,这使得聚集索引显得更加的重要。聚集索引的挑选可以说是实现“查询优化”和“高效分页”的最关键因素。
但要既使聚集索引列既符合查询列的需要,又符合排序列的需要,这通常是一个矛盾。
笔者前面“索引”的讨论中,将fariqi,即用户发文日期作为了聚集索引的起始列,日期的精确度为“日”。这种作法的优点,前面已经提到了,在进行划时间段的快速查询中,比用ID主键列有很大的优势。
但在分页时,由于这个聚集索引列存在着重复记录,所以无法使用max或min来最为分页的参照物,进而无法实现更为高效的排序。而如果将ID主键列作为聚集索引,那么聚集索引除了用以排序之外,没有任何用处,实际上是浪费了聚集索引这个宝贵的资源。
为解决这个矛盾,笔者后来又添加了一个日期列,其默认值为getdate()。用户在写入记录时,这个列自动写入当时的时间,时间精确到毫秒。即使这样,为了避免可能性很小的重合,还要在此列上创建UNIQUE约束。将此日期列作为聚集索引列。
有了这个时间型聚集索引列之后,用户就既可以用这个列查找用户在插入数据时的某个时间段的查询,又可以作为唯一列来实现max或min,成为分页算法的参照物。
经过这样的优化,笔者发现,无论是大数据量的情况下还是小数据量的情况下,分页速度一般都是几十毫秒,甚至0毫秒。而用日期段缩小范围的查询速度比原来也没有任何迟钝。
聚集索引是如此的重要和珍贵,所以笔者总结了一下,一定要将聚集索引建立在:
1、您最频繁使用的、用以缩小查询范围的字段上;
2、您最频繁使用的、需要排序的字段上。
结束语:
本篇文章汇集了笔者近段在使用数据库方面的心得,是在做“办公自动化”系统时实践经验的积累。希望这篇文章不仅能够给大家的工作带来一定的帮助,也希望能让大家能够体会到分析问题的方法;最重要的是,希望这篇文章能够抛砖引玉,掀起大家的学习和讨论的兴趣,以共同促进,共同为公安科技强警事业和金盾工程做出自己最大的努力。
最后需要说明的是,在试验中,我发现用户在进行大数据量查询的时候,对数据库速度影响最大的不是内存大小,而是CPU。在我的P4 2.4机器上试验的时候,查看“资源管理器”,CPU经常出现持续到100%的现象,而内存用量却并没有改变或者说没有大的改变。即使在我们的HP ML 350 G3服务器上试验时,CPU峰值也能达到90%,一般持续在70%左右。
原文:http://www.cnblogs.com/yhc_rainbow/archive/2011/06/21/2086232.html
数据库产品事业部月刊(2019年7月)
一、重点事件
阿里云峰会·上海站 & 开发者大会(7月24日-25日):
7月24日,阿里云开发者大会数据库专场圆满落幕,专场内容包括云数据库架构和演进、POLARDB、AliSQL 8.0的特性和改进、AnalyticDB for MySQL:PB级云数仓核心技术和场景解析、Cassandra技术架构及最佳实践、企业级数据库新型研发模式(数据管理DMS)等新品内容介绍,以及数据库平滑上云的最佳实践。
除专场外,大会还设置了“大师零距离”环节,现场讨论非常热烈;动手实验环节包括两个体验主题:1、POLARDB在读写分离情况下,动态增加只读节点的能力,能够做到线性扩展;2、AnalyticDB演示分析性能,对比同样数据集上同样的SQL语句,查询性能对比MySQL;
7月25日,阿里云峰会主论坛上虎扑CTO站台,讲述核心系统全量业务上云的故事,阿里云数据库的弹性资源助力虎扑轻松应对赛事决战时刻,重点强调“高性能、高可靠、低成本” 三大关键词,飞刀重点介绍了阿里云数据库核心数据库产品(POLARDB、DTS、RDS)。
开发者大会报道:https://mp.weixin.qq.com/s/dc6LxLe1ARztt5I2jKuc-g阿里云峰会主论坛报道:https://mp.weixin.qq.com/s/CRz_2MpOaqe7X5oK6Bf20Q
PostgresConf(7.3-7.7日):
阿里云作为钻石赞助商出席PostgresConf.CN2019大会,该大会代表全球最高级别的PG会议组织。会上,阿里云获得PG中国开源联盟的认可并斩获两项大奖:ADAM——Oracle迁移PostgreSQL评估改造方案获得“PG年度创新解决方案奖”, 德哥荣获“PG行业杰出贡献奖”。
飞刀在主论坛发表重要演讲,分享《下一代云原生数据库技术趋势及阿里云PostgreSQL生态》并接受了媒体专访,强调阿里云高度重视开源数据库的发展,长期贡献PostgreSQL社区;阿里云数据库产品是一个完整的生态体系,PostgreSQL相关产品更是阿里云数据库生态中不可或缺的重要组成;阿里将继续赋能PG社区,回馈开源。除此之外,阿里云数据库还有3场技术演讲以及1天的全天培训。
查看详情:https://mp.weixin.qq.com/s/fdLJo5oK0Rsz2kEq-dKLvw
阿里云峰会(7月31日@马来西亚):
7月31日,阿里云马来西亚峰会在吉隆坡召开。上午的主论坛上,飞刀代表核心技术互联网化发表主题演讲《Evolving Databases for the Cloud》,他表示:“作为亚太地区第一的云服务提供商,阿里云数据库已为多家马来西亚知名企业提供技术支持,助力企业用户和合作伙伴加速上云,推动交通、金融等多个行业的数字化转型。”
在下午的分论坛上,德迈就阿里云数据库典型客户遇到的挑战、解决方案和技术亮点、安全性进行详细解读。
查看详情:https://mp.weixin.qq.com/s/xtPUtHF_HnAdPPjpf1h_rw
HBaseCon Asia 2019 (7月20日):
HBaseCon Asia 2019峰会于7月20日在京顺利举行,活动规模超过500人,阿里云数据库通过近5场的Keynote和专场技术演讲,向社区阐述了阿里HBase、大数据/数据库技术能力(X-Pack)和生态布局,以及我们未来在云产品上演进方向。此次大会面向Hadoop、HBase等企业用户群体,通过联合Apache HBase社区官方,有效地提升了阿里在整个Hadoop生态圈的技术影响力,以及在开源上的发展和形象。
查看详情:https://mp.weixin.qq.com/s/LJLhcs-eVr4ucXrJjFYlQA
分析型数据库MySQL版 v3.0正式商业化(7月31日)
7.31⽇,阿⾥云PB级实时数据仓库AnalyticDB for MySQL 3.0版正式商业化。全新的AnalyticDB采⽤分布式云盘三副本机制,为企业客户提供99.9999999%的数据可靠性保证。此外,性能⼤幅度提升,基准测试写⼊性能提升50%,查询性能提升40%。实例存储空间可变,支持灵活控制CPU、存储 和内存配⽐,全⾯兼容MySQL、数据类型更完备。更简单易⽤,使得企业客户像开启MySQL⼀样,使⽤数据仓库!AnalyticDB for MySQL 3.0发布会于当天下午15:00-16:30举行,吸引了线上众多开发者观看,线上直播浏览6071人次。
发布会回放:https://yq.aliyun.com/live/1256查看详情:https://promotion.aliyun.com/ntms/act/analyticdbnew.html
二、重大产品更新
POLARDB:云原生数据库
POLARDB 全新推出存储资源包,灵活售卖进一步降低企业成本POLARDB的存储空间可实现自动、无损的弹性伸缩,且默认采用按实际使用量计费方式,对初创型企业非常友好。但随着服务的客户越来越多,有超大容量诉求的客户,以及需要预付费购买方式的传统企业越来越多,所以我们推出了这种预付费模式的存储资源包。
相比于普通的单实例存储空间,存储包在用户体验上也做了大量的改进。用户可以购买一个存储包,同时被POLARDB for MySQL、POLARDB for Oracle、POLARDB for PostgreSQL共享,也可以被分布在国内多个地域的实例共享,大大降低了用户的管理成本。存储包支持从100G到100T,共9个规格,容量不够可以随时升级。
参考文档:https://help.aliyun.com/document_detail/127290.htm
POLARDB 上线『临时升级』功能,应对用户短期的业务峰值
弹性快是POLARDB的云原生核心优势之一,为了更好地发挥弹性的优势,POLARDB结合类似于『双11』的大促场景,推出了临时升级的功能。临时升级只需要支付升级期间的费用,按小时折算差价,可大幅降低企业的运营成本。
参考文档:https://help.aliyun.com/document_detail/123826.html
POLARDB 新加坡开服,首个海外Region上线为满足客户在海外对大容量云原生数据库的需求,持续提升在国际范围的影响力和竞争力,POLARDB完成了海外第一个地域(新加坡)上线售卖。在接下来的几个月内,会持续开拓印尼、美国、印度、马来西亚等新地域,加深全球化布局。
OLAP:新一代在线交互式实时数仓
分析型数据库MySQL版 v3.0正式商业化
7.31⽇,阿⾥云PB级实时数据仓库AnalyticDB for MySQL 3.0版正式商业化。全新的AnalyticDB采⽤分布式云盘三副本机制,为企业客户提供99.9999999%的数据可靠性保证。此外,性能⼤幅度提升,基准测试写⼊性能提升50%,查询性能提升40%。实例存储空间可变,支持灵活控制CPU、存储 和内存配⽐,全⾯兼容MySQL、数据类型更完备。更简单易⽤,使得企业客户像开启MySQL⼀样,使⽤数据仓库!AnalyticDB for MySQL 3.0发布会于当天下午15:00-16:30举行,吸引了线上众多开发者观看,线上直播浏览6071人次。
发布会回放:https://yq.aliyun.com/live/1256查看详情:https://promotion.aliyun.com/ntms/act/analyticdbnew.html
分析型数据库PostgreSQL版发布列粗糙集索引支持(meta scan),重I/O查询性能提升3倍
分析型数据库AnalyticDB for PostgreSQL在列存储基础上,引入多种粗糙集过滤支持,在列存储扫描过程中,自动化实现多种预聚合和数据块过滤操作。其通过在既有实例的列存表上增加meta table,实现既有实例的就地升级。 TPC-H Benchmark 在 SATA实例规格下性能提升 30%,重 I/O查询场景下性能提升 3倍。
数据湖分析(Data Lake Analytics)“一键建仓”正式上线
Data Lake Analytics“一键建仓”方案正式上线,支持按日自动帮用户将RDS数据库(MySQL、PostgreSQL、SQL Server)和ECS自建数据库(MySQL、PostgreSQL、SQL Server、Oracle等)的数据同步到Data Lake Analytics,并自动生成对应Schema(映射源数据库中的表结构),消除了用户关于“直接分析生产数据库实例中的数据会影响线上业务”的顾虑,可以基于Data Lake Analytics上的数据进行更灵活自由的数据处理。
RDS & NoSQL & 管控工具
RDS 开放5年售卖RDS包年包月支持五年期售卖,数据库引擎包含MySQL、SQL Server、PPAS、PostgreSQL、MariaDB,目前三年期、四年期、五年期售卖统一5折优惠,个别渠道开放更高优惠。
RDS 全域开放ESSD售卖RDS 实现在所有地域开放ESSD存储,用户可直接在购买页选择ESSD云盘实例,目前MySQL 5.7&8.0 高可用版支持ESSD云盘,SQL Server 2012及以上版本支持 ESSD云盘。
RDS MySQL支持最大16TB空间RDS MySQL支持最大16TB存储空间,主要涵盖版本是 5.7 & 8.0 高可用版 ESSD云盘版实例。ESSD云盘版大空间在第一次快照备份时会占用比较大的时间,但后期的增量备份时间将会达到秒级,大大优化了客户实例备份恢复的效率。
RDS MySQL和MariaDB 专有网络实例支持修改端口RDS MySQL 和 MariaDB 专有网络实例支持修改端口,用户可以在数据库连接中修改网络端口,包括内网地址和外网地址。至本功能发布,RDS MySQL 和 MariaDB 支持用户在所有场景下修改数据库连接端口,满足客户不同端口的定制需求,大大优化体验。
RDS SQL Server 支持单机版升级到双机版RDS SQL Server 支持单机基础版实例升级到双机高可用版,涵盖版本中国站包括2012&2016 企业单机版、2012&2016 WEB单机版,国际站还包括2012&2016标准单机版。
RDS SQL Server 高可用版实例提供了更强的可靠性,支持秒级故障切换、CDC数据抓取、链接服务器、分布式事务、TDE加密等高级特性,为企业级用户提供更强更安全的数据库服务。升级过程中,最多会有20分钟业务不可用,因此要求业务系统必须具备重连机制,并且用户可选择在可维护时间段或者指定时间点切换,以降低对业务的影响。
RDS SQL Server 支持更多版本单机基础版实例RDS SQL Server支持更多版本的单机基础版本实例,其中中国站支持2016企业单机版实例,并且提供了极高性价比的通用型实例。国际站同时支持2012&2016 标准单机版实例、2016企业单机版实例。单机版实例相对高可用版本实例,价格大幅降低,但可用性没有高可用版高,一般情况约在30分钟时间内完成故障转移。
RDS SQL Server 2008r2 发布补充协议RDS SQL Server 针对2008r2版本发布补充协议,协议内容主要是增加针对微软自2019年7月9号后不再支持SQL Server 2008r2安全更新的规定方案,允许用户继续购买2008r2实例,但是用户需要自行购买微软提供的付费安全更新包,然后通过工单形式提供给阿里云安装补丁。其余场景,针对SQL Server内核问题,用户需要在控制台通过“升级版本”一键升级到2016版本解决,阿里云不独立提供2008r2的内核更新服务。
数据迁移DTS支持PolarDB数据同步及订阅DTS支持POLARDB至POLARDB/ADB/KAFKA/RDS等数据源的数据实时同步,满足POLARDB迁移回滚、异地灾备及基于ADB建设数据实时仓库的用户诉求。同时,DTS支持PolarDB Binlog实时订阅,通过这个功能,用户可以实时订阅并消费Binlog日志。
数据管理DMS企业在聚石塔正式售卖,同时在呼和浩特开服数据管理DMS企业版在聚石塔正式售卖,同时在呼和浩特开服。通过DMS企业版,用户有效保障数据库的访问数据安全及数据库变更稳定性。
混合云数据库管理 HDM 支持监控指标的异常发现和预测,支持PostgreSQL的运维管理混合云数据库管理 HDM支持监控指标异常发现和预测,通过机器学习和智能算法,支持数据库实例核心指标的异常检测和预测,并自动联动一键诊断模块,帮助用户快速定位根因。同时HDM支持自建PostgreSQL的统一监控、告警、性能诊断和优化。
数据库备份DBS支持RDS MySQL异地备份数据库备份DBS发布RDS For MySQL的备份异地转储功能,支持备份异地转储功能且备份集最长可保留5年。通过备份异地转储能力,有效满足企业客户的安全合规需求。
数据库网关DG正式公测上线数据库网关DG正式公测上线,数据库网关支持线下/其他云厂商私有网络数据库的连接访问。出于安全考虑,很多用户的数据库都只开放内网访问地址。用户为使用阿里云上的生态工具,需要通过专线或VPN网关设备接入阿里云,使用成本极高。借助数据库网关,用户只需在本地安装软网关,即可低成本得使用生态工具完成私有网络数据库的访问管理。
查看详情:https://www.aliyun.com/product/dg
三、开发者生态:
数据库分库分表Sharding中间件专场(7.27@杭州)
本次沙龙以“稳定可靠、极致扩展,解密 Sharding on MySQL业内最新发展动态”为主题,为Sharding on MySQL以及DRDS起到有效的推广作用,现场干货分享极大的影响改变了参与者对于该技术栈已有的认知。现场开发者积极踊跃,提问多偏向于技术原理及功能使用层面。
查看详情:https://yq.aliyun.com/articles/707309
四、客户案例:
客户案例:AnalyticDB for MySQL助力互金客户资产360实现高效的资产管理服务
资产360是新一代互联网金融资产管理公司,以AnalyticDB for MySQL 3.0为核心的资产管理分析平台,为上千家客户提供了全流程的高效的资产管理服务,实现标准化精准处理。相比客户之前使用的TiDB,在体验、兼容性和性价比上得到了客户的极大肯定。
客户案例:农业空间信息系统迁云
方案架构
方案演化过程:
1.二月份接触了解到线下机房即将到期,可能考虑迁云。客户线下业务是做农业空间信息化,重点依赖PostGIS与MongoDB,其中对于GIS(地理信息引擎)的依赖最大。
2.咨询云上PostgreSQL的性能与兼容性,重点是GIS的适配性问题,非常担心上云后数据库出现问题,而阿里云PostgreSQL兼容PG社区原生GIS,同时自研的Ganos也100%兼容PostGIS,且更加强大易用,支持多模型处理能力,支持GPU计算加速,同时云上RDS本身具有高可靠、可扩展、高安全的特性,对于快速增长的业务来说非常合适,客户比较感兴趣,期间不断咨询GIS细节问题,PD均给与专业解答。
3.RDS问题确认后,进入云上整体架构方案讨论阶段,客户预计采购ECS+PG+MongoDB,经与客户电话会议沟通,改造架构方案,在注册网关集群上采用负载均衡架构达到高可用,数据库均采用云化数据库,在网络规划方面,建议使用多个EIP+共享带宽的模式,一来节省成本,二来方便管理,同时客户线下有外部请求代理机,建议云上使用NAT网关设置SNAT实现,云MongoDB使用三节点副本集提高可用性。
4.本地物理机将来会做备份用,使用阿里云VPN网关与本地网络打通,云上云下要注意使用不同的网段,生产数据库PG和MongoDB均使用DTS上云,并且上云后继续使用DTS做增量同步备份到线下。
5.业务安全方面,客户本地使用的启明星辰防火墙,云上建议采用waf+云安全中心+云防火墙,但客户没有此方面预算,于是强烈建议云安全中心必须要做,最终采纳建议,采购三年云产品,共计68万。
客户价值:
1.充分了解客户的业务场景,抓住客户痛点,合理匹配云上产品打动客户,调动强大的支撑团队解决客户细节问题,排除上云顾虑。
2.经典的混合云架构,IDC迁云客户除了云端规划,也要为客户考虑线下机器的充分利用,包括在网段、路由和交换机规划上,都要做在采购前,避免采购后采坑。
客户案例:物流企业等保上云
客户背景:湖北省本地知名仓储物流企业,从事货物运输,货远代理业务。
客户痛点:
历史数据多、数据量大,多存放于本地电脑,导致稳定性差、可扩展性低,处理数据、响应请求慢,大幅度降低员工的工作效率,影响业务生产。
数据安全要求较高,本地机房安全投入成本高,效益却很低,且不可控,一旦出现安全事故,影响将不可预估,应急方案也无法快速响应。
以前本地服务服务器出过问题,有数据丢失情况。
解决方案:
首次和客户接触,了解到业务系统相对单一,系统主要是内部员工使用,对业务稳定性要求较高且针对安全要求非常高。业务端使用多台服务器做负载,后端数据存放到RDS进行数据分离,建立高可用架构。客户现在线下使用的是MySQL5.7,考虑兼容问题推荐客户云上也采用RDS For MySQL5.7,开通主备来进行数据备份,同时运用DBS进行数据传输和数据互通。
因是公司内部几十号人使用,对连接数和IOPS要求不高,但对存储空间要求较大,结合客户现有数据迁移上云和未来5年内可正常使用,建议客户选择到该规格所能购买的空间,未来如果对外提供服务,可再升级或增加只读节点,无缝升级保障业务不中断的同时,也保障数据的安全性。
在安全方面按照三级合规要求搭建安全架构,web层架构ssl证书、waf防火墙来保护用户正常的访问,过滤恶意访问流量给第一个出入窗口加上一道安全防护门,由于数据安全性要高且要满足合规要求,给客户配备了数据审计+云安全中心+堡垒机三大安全配件,来进一步保障数据的安全性,同时便捷运维管理人员的工作。
业务端建议客户使用EIP+ECS的方式进行绑定,增加系统安全性和灵活性。
在购买时长上,最开始只准备购买一年,结合3年5折的优惠,推荐购买3年可享受三年半价优惠,但因公司财务章程限制,MySQL最后购买了两年。
客户价值:
EIP增加维护灵活性,按业务维护需要可随时绑定或解绑公网IP
MySQL 5.7 性能稳定、使用方便,CloudDBA对资源利用、慢SQL情况一目了然,减小客户使用成本。
安全的架构既满足合规要求又保驾业务稳定开展。
购买时间越长,客户享受的折扣越高,减小客户上云成本。
MSSQL · 应用案例 · 构建死锁自动收集系统
摘要
这篇文章介绍SQL Server的一个典型的应用案例,即如何利用Event Notification与Service Broker技术相结合来实现死锁信息自动收集系统。通过这个系统,我们可以全面把控SQL Server数据库环境中所有实例上发生的死锁详细信息,供我们后期分析和解决死锁场景。
死锁自动收集系统需求分析
当 SQL Server 中某组资源的两个或多个线程或进程之间存在循环的依赖关系时,但因互相申请被其他进程所占用,而不会释放的资源处于的一种永久等待状态,将会发生死锁。SQL Server服务自动死锁检查进程默认每5分钟跑一次,当死锁发生时,会选择一个代价较小的进程做为死锁牺牲品,以此来避免死锁导致更大范围的影响。被选择做为死锁牺牲品的进程会报告如下错误:
Msg 1205, Level 13, State 51, Line 8
Transaction (Process ID 54) was deadlocked on lock resources with another process and has been chosen as the deadlock victim. Rerun the transaction.
如果进程间发生了死锁,对于用户业务系统,乃至整个SQL Server服务健康状况影响很大,轻者系统反应缓慢,服务假死;重者服务挂起,拒绝请求。那么,我们有没有一种方法可以完全自动、无人工干预的方式异步收集SQL Server系统死锁信息并远程保留死锁相关信息呢?这些信息包括但不仅限于:
死锁发生在哪些进程之间
各个进程执行的语句块是什么?死锁时,各个进程在执行哪条语句?
死锁的资源是什么?死锁发生在哪个数据库?哪张表?哪个数据页?哪个索引上?
死锁发生的具体时间点,包含语句块开始时间、语句执行时间等
用户进程使用的登录用户是什么?客户端驱动是什么?
……
如此的无人值守的自动死锁收集系统,就是我们今天要介绍的应用案例分享:利用SQL Server的Event Notification与Service Broker建立自动死锁信息收集系统。
Service Broker和Event Notification简介
在死锁自动收集系统介绍开始之前,先简要介绍下SQL Server Service Broker和Event Notification技术。
Service Broker简介
Service Broker是微软至SQL Server 2005开始集成到数据库引擎中的消息通讯组件,为 SQL Server提供队列和可靠的消息传递的能力,可以用来构建基于异步消息通讯为基础的应用程序。Service Broker既可用于单个 SQL Server 实例的应用程序,也可用于在多个实例间进行消息分发工作的应用程序。Service Broker使用TCP/IP端口在实例间交换消息,所包含的功能有助于防止未经授权的网络访问,并可以对通过网络发送的消息进行加密,以此来保证数据安全性。多实例之间使用Service Broker进行异步消息通讯的结构图如下所示(图片来自微软的官方文档):
Event Notification简介
Event Notification的中文名称叫事件通知,执行事件通知可对各种Transact-SQL数据定义语言(DDL)语句和SQL跟踪事件做出响应,采取的响应方式是将这些事件的相关信息发送到 Service Broker 服务。事件通知可以用来执行以下操作:
记录和检索发生在数据库上的更改或活动。
执行操作以异步方式而不是同步方式响应事件。
可以将事件通知用作替代DDL 触发器和SQL跟踪的编程方法。事件通知的信息媒介是以xml数据类型的信息传递给Service Broker服务,它提供了有关事件的发生时间、受影响的数据库对象、涉及的 Transact-SQL 批处理语句等详细信息。对于SQL Server死锁而言,可以使用Event Notification来跟踪死锁事件,来获取DEADLOCK_GRAPH XML信息,然后通过异步消息组件Service Broker发送到远端的Deadlock Center上的Service Broker队列,完成死锁信息收集到死锁中央服务。
死锁收集系统架构图
在介绍完Service Broker和Event Notification以后,我们来看看死锁手机系统的整体架构图。在这个系统中,存在两种类型角色:我们定义为死锁客户端(Deadlock Client)和死锁中央服务(Deadlock Center)。死锁客户端发生死锁后,首先会将Deadlock Graph XML通过Service Broker发送给死锁中央服务,死锁中央服务获取到Service Broker消息以后,解析这个XML就可以拿到客户端的死锁相关信息,最后存放到本地日志表中,供终端客户查询和分析使用。最终的死锁收集系统架构图如下所示:
详细的死锁信息收集过程介绍如下:死锁客户端通过本地SQL Server的Event Notification捕获发生在该实例上的Deadlock事件,并在死锁发生以后将Deadlock Graph XML数据存放到Event Notification绑定的队列中,然后通过绑定在该队列上的存储过程自动触发将Deadlock Graph XML通过Service Broker异步消息通讯的方式发送到死锁中央服务。中央服务在接收到Service Broker消息以后,首先放入Deadlock Center Service Broker队列中,该队列绑定了消息自动处理存储过程,用来解析Deadlock Graph XML信息,并将死锁相关的详细信息存入到Deadlock Center的Log Table中。最后,终端用户可以直接对Log Table来查询和分析所有Deadlock Client上发生的死锁信息。通过这系列的过程,最终达到了死锁信息的自动远程存储、收集,以提供后期死锁场景还原和复盘,达到死锁信息可追溯,及时监控,及时发现的目的。
Service Broker配置
系统架构设计完毕后,接下来是系统的配置和搭建过程,首先看看Service Broker的配置。这个配置还是相对比较繁琐的,包含了以下步骤:
创建Service Broker数据库(假设数据库名为DDLCenter)并开启Service Broker选项
创建Service Broker队列的激活存储过程和相关表对象
创建Master数据库下的Master Key
创建传输层本地和远程证书
创建基于证书的用户登录
创建Service Broker端口并授权用户连接
创建DDLCenter数据库下的Master Key
创建会话层本地及远程证书
创建Service Broker组件所需要的对象,包括:Message Type、Contact、Queue、Service、Remote Service Binding、Route
Deadlock Client Server
以下的配置请在Deadlock Client SQL Server实例上操作。
创建DDLCenter数据库并开启Service Broker选项
-- Run script on client server to gather deadlock graph xml
USE master
GO
-- Create Database
IF DB_ID('DDLCenter') IS NULL
CREATE DATABASE [DDLCenter];
GO
-- Change datbase to simple recovery model
ALTER DATABASE [DDLCenter] SET RECOVERY SIMPLE WITH NO_WAIT
GO
-- Enable Service Broker
ALTER DATABASE [DDLCenter] SET ENABLE_BROKER,TRUSTWORTHY ON
GO
-- Change database Owner to sa
ALTER AUTHORIZATION ON DATABASE::DDLCenter TO [sa]
GO
三个表和两个存储过程
表[DDLCollector].[Deadlock_Traced_Records]:从Event Notification队里接收的消息会记录到该表中。
表[DDLCollector].[Send_Records]:Deadlock Client成功发送Service Broker消息记录
表[DDLCollector].[Error_Records]:记录发生异常情况时的信息。
存储过程[DDLCollector].[UP_ProcessDeadlockEventMsg]:Deadlock Client绑定到队里的激活存储过程,一旦队列中有消息进入,这个存储过程会被自动调用。
存储过程[DDLCollector].[UP_SendDeadlockMsg]:Deadlock Client发送异步消息给Deadlock Center,这个存储过程会被上面的激活存储过程调用。
-- Run on Client Instance
USE [DDLCenter]
GO
-- Create Schema
IF NOT EXISTS(
SELECT TOP 1 *
FROM sys.schemas
WHERE name = 'DDLCollector'
)
BEGIN
EXEC('CREATE SCHEMA DDLCollector');
END
GO
-- Create table to log Traced Deadlock Records
IF OBJECT_ID('DDLCollector.Deadlock_Traced_Records', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Deadlock_Traced_Records]
GO
CREATE TABLE [DDLCollector].[Deadlock_Traced_Records](
[RowId] [BIGINT] IDENTITY(1,1) NOT NULL,
[Processed_Msg] [xml] NULL,
[Processed_Msg_CheckSum] INT,
[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Deadlock_Traced_Records_Record_Time DEFAULT(GETDATE()),
CONSTRAINT PK_Deadlock_Traced_Records_RowId PRIMARY KEY
(RowId ASC)
) ON [PRIMARY]
GO
-- Create table to record deadlock graph xml sent successfully log
IF OBJECT_ID('DDLCollector.Send_Records', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Send_Records]
GO
CREATE TABLE [DDLCollector].[Send_Records](
[RowId] [BIGINT] IDENTITY(1,1) NOT NULL,
[Send_Msg] [xml] NULL,
[Send_Msg_CheckSum] INT,
[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Send_Records_Record_Time DEFAULT(GETDATE()),
CONSTRAINT PK_Send_Records_RowId PRIMARY KEY
(RowId ASC)
) ON [PRIMARY]
GO
-- Create table to record error info when exception occurs
IF OBJECT_ID('DDLCollector.Error_Records', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Error_Records]
GO
CREATE TABLE [DDLCollector].[Error_Records](
[RowId] [int] IDENTITY(1,1) NOT NULL,
[Msg_Body] [xml] NULL,
[Conversation_handle] [uniqueidentifier] NULL,
[Message_Type] SYSNAME NULL,
[Service_Name] SYSNAME NULL,
[Contact_Name] SYSNAME NULL,
[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Error_Records_Record_Time DEFAULT(GETDATE()),
[Error_Details] [nvarchar](4000) NULL,
CONSTRAINT PK_Error_Records_RowId PRIMARY KEY
(RowId ASC)
) ON [PRIMARY]
GO
USE [DDLCenter]
GO
-- Create Store Procedure to Send Deadlock Graph xml to Center Server
IF OBJECT_ID('DDLCollector.UP_SendDeadlockMsg', 'P') IS NOT NULL
DROP PROC [DDLCollector].[UP_SendDeadlockMsg]
GO
CREATE PROCEDURE [DDLCollector].[UP_SendDeadlockMsg](
@DeadlockMsg XML
)
AS
BEGIN
SET NOCOUNT ON;
DECLARE
@handle UNIQUEIDENTIFIER
,@Proc_Name SYSNAME
,@Error_Details VARCHAR(2000)
;
-- get the store procedure name
SELECT
@Proc_Name = ISNULL(QUOTENAME(SCHEMA_NAME(SCHEMA_ID))
+ '.'
+ QUOTENAME(OBJECT_NAME(@@PROCID)),'')
FROM sys.procedures
WHERE OBJECT_ID = @@PROCID
;
BEGIN TRY
-- Begin Dialog
BEGIN DIALOG CONVERSATION @handle
FROM SERVICE [http://soa/deadlock/service/ClientService]
TO Service 'http://soa/deadlock/service/CenterService'
ON CONTRACT [http://soa/deadlock/contract/CheckContract]
;
-- Send deadlock graph xml as the message to Center Server
SEND ON CONVERSATION @handle
MESSAGE TYPE [http://soa/deadlock/MsgType/Request] (@DeadlockMsg);
-- Log it successfully
INSERT INTO [DDLCollector].[Send_Records]([Send_Msg], [Send_Msg_CheckSum])
VALUES( @DeadlockMsg, CHECKSUM(CAST(@DeadlockMsg as NVARCHAR(MAX))))
END TRY
BEGIN CATCH
-- Record the error info when exception occurs
SET @Error_Details=
' Error Number: ' + CAST(ERROR_NUMBER() AS VARCHAR(10)) +
' Error Message : ' + ERROR_MESSAGE() +
' Error Severity: ' + CAST(ERROR_SEVERITY() AS VARCHAR(10)) +
' Error State: ' + CAST(ERROR_STATE() AS VARCHAR(10)) +
' Error Line: ' + CAST(ERROR_LINE() AS VARCHAR(10)) +
' Exception Proc: ' + @Proc_Name
;
-- record into table
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@DeadlockMsg, @handle, 'http://soa/deadlock/MsgType/Request', 'http://soa/deadlock/service/ClientService', 'http://soa/deadlock/contract/CheckContract', @Error_Details);
END CATCH
END
GO
-- Create Store Procedure for Queue: when extend event notification queue message
-- this store procedure will be called.
IF OBJECT_ID('DDLCollector.UP_ProcessDeadlockEventMsg', 'P') IS NOT NULL
DROP PROC [DDLCollector].[UP_ProcessDeadlockEventMsg]
GO
CREATE PROCEDURE [DDLCollector].[UP_ProcessDeadlockEventMsg]
AS
/*
SELECT * FROM [DDLCollector].[Deadlock_Traced_Records]
SELECT * FROM [DDLCollector].[Send_Records]
SELECT * FROM [DDLCollector].[Error_Records]
*/
BEGIN
SET NOCOUNT ON;
DECLARE
@handle UNIQUEIDENTIFIER
, @Message_Type SYSNAME
, @Service_Name SYSNAME
, @Contact_Name SYSNAME
, @Error_Details VARCHAR(2000)
, @Message_Body XML
, @Proc_Name SYSNAME
;
-- Store Procedure Name
SELECT
@Proc_Name = ISNULL(QUOTENAME(SCHEMA_NAME(SCHEMA_ID))
+ '.'
+ QUOTENAME(OBJECT_NAME(@@PROCID)),'')
FROM sys.procedures
WHERE OBJECT_ID = @@PROCID
;
BEGIN TRY
-- Receive message from queue
WAITFOR(RECEIVE TOP(1)
@handle = conversation_handle
, @Message_Type = message_type_name
, @Service_Name = service_name
, @Contact_Name = service_contract_name
, @Message_Body = message_body
FROM dbo.[http://soa/deadlock/queue/ClientQueue]),Timeout 500
;
-- just return if there is no message needed to process
IF(@@Rowcount=0)
BEGIN
RETURN
END
-- Get data from message queue
ELSE IF @Message_Type = 'http://schemas.microsoft.com/SQL/Notifications/EventNotification'
BEGIN
-- Record message log first
INSERT INTO [DDLCollector].[Deadlock_Traced_Records](Processed_Msg, [Processed_Msg_CheckSum])
VALUES(@Message_Body, CHECKSUM(CAST(@Message_Body as NVARCHAR(MAX))))
-- BE NOTED HERE: PLEASE DO'T END CONVERSATION, OR ELSE EXCEPTION WILL BE THROWN OUTPUT
/*
Error: 17001, Severity: 16, State: 1.
Failure to send an event notification instance of type 'DEADLOCK_GRAPH' on conversation handle '{67419386-7C34-E711-A709-001C42099969}'. Error Code = '8429'.
Error: 17005, Severity: 16, State: 1.
Event notification 'DeadLockNotificationEvent' in database 'master' dropped due to send time service broker errors. Check to ensure the conversation handle, service broker contract, and service specified in the event notification are active.
*/
--END CONVERSATION @handle
--Here call another Store Procedure to send deadlock graph info to center server
EXEC [DDLCollector].[UP_SendDeadlockMsg] @Message_Body;
END
--End Diaglog Message Type, that means we should end this conversation
ELSE IF @Message_Type = N'http://schemas.microsoft.com/SQL/ServiceBroker/EndDialog'
BEGIN
END CONVERSATION @handle;
END
-- Konwn Service Broker Errors by System.
ELSE IF @Message_Type = N'http://schemas.microsoft.com/SQL/ServiceBroker/Error'
BEGIN
END CONVERSATION @handle
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, ' Exception Store Procedure: ' + @Proc_Name);
END
ELSE
-- unknown Message Types.
BEGIN
END CONVERSATION @handle
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, ' Received unexpected message type when executing Store Procedure: ' + @Proc_Name);
-- unexpected message type
RAISERROR (N' Received unknown message type: %s', 16, 1, @Message_Type) WITH LOG;
END
END TRY
BEGIN CATCH
BEGIN
SET @Error_Details=
' Error Number: ' + CAST(ERROR_NUMBER() AS VARCHAR(10)) +
' Error Details : ' + ERROR_MESSAGE() +
' Error Severity: ' + CAST(ERROR_SEVERITY() AS VARCHAR(10)) +
' Error State: ' + CAST(ERROR_STATE() AS VARCHAR(10)) +
' Error Line: ' + CAST(ERROR_LINE() AS VARCHAR(10)) +
' Exception Proc: ' + @Proc_Name
;
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, @Error_Details);
END
END CATCH
END
GO
创建Master库下Master Key
USE master
GO
-- If the master key is not available, create it.
IF NOT EXISTS (SELECT *
FROM sys.symmetric_keys
WHERE name LIKE '%MS_DatabaseMasterKey%')
BEGIN
CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'ClientMasterKey*';
END
GO
创建传输层本地证书并备份到本地文件系统
这里请注意证书的开始生效时间要略微早于当前时间,并设置合适的证书过期日期,我这里是设置的过期日期为9999年12月30号。
USE master
GO
-- Crete Transport Layer Certification
CREATE CERTIFICATE TrpCert_ClientLocal
AUTHORIZATION dbo
WITH SUBJECT = 'TrpCert_ClientLocal',
START_DATE = '05/07/2017',
EXPIRY_DATE = '12/30/9999'
GO
-- then backup it up to local path
-- and after that copy it to Center server
BACKUP CERTIFICATE TrpCert_ClientLocal
TO FILE = 'C:\Temp\TrpCert_ClientLocal.cer';
GO
创建传输层远程证书
这里的证书是通过证书文件来创建的,这个证书文件来自于远程通讯的另一端Deadlock Center SQL Server的证书文件的一份拷贝。
USE master
GO
-- Create certification came from Center Server.
CREATE CERTIFICATE TrpCert_RemoteCenter
FROM FILE = 'C:\Temp\TrpCert_RemoteCenter.cer'
GO
创建基于证书文件的用户登录
这里也可以创建带密码的常规用户登录,但是为了规避安全风险,这里最好创建基于证书文件的用户登录。
USE master
GO
-- Create user login
IF NOT EXISTS(SELECT *
FROM sys.syslogins
WHERE name='SSBDbo')
BEGIN
CREATE LOGIN SSBDbo FROM CERTIFICATE TrpCert_ClientLocal;
END
GO
创建Service Broker TCP/IP通讯端口并授权用户连接权限
这里需要注意的是,端口授权的证书一定本地实例创建的证书,而不是来自于远程服务器的那个证书。比如代码中的AUTHENTICATION = CERTIFICATE TrpCert_ClientLocal部分。
USE master
GO
--Creaet Tcp endpoint for SSB comunication and grant connect to users.
CREATE ENDPOINT EP_SSB_ClientLocal
STATE = STARTED
AS TCP
(
LISTENER_PORT = 4022
)
FOR SERVICE_BROKER (AUTHENTICATION = CERTIFICATE TrpCert_ClientLocal, ENCRYPTION = REQUIRED
)
GO
-- Grant Connect on Endpoint to User SSBDbo
GRANT CONNECT ON ENDPOINT::EP_SSB_ClientLocal TO SSBDbo
GO
创建DDLCenter数据库Master Key
-- Now, let's go inside to conversation database
USE DDLCenter
GO
-- Create Master Key
IF NOT EXISTS (SELECT *
FROM sys.symmetric_keys
WHERE name LIKE '%MS_DatabaseMasterKey%')
BEGIN
CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'DDLCenterMasterKey*';
END
GO
创建会话层本地证书
USE DDLCenter
GO
-- Create conversation layer certification
CREATE CERTIFICATE DlgCert_ClientLocal
AUTHORIZATION dbo
WITH SUBJECT = 'DlgCert_ClientLocal',
START_DATE = '05/07/2017',
EXPIRY_DATE = '12/30/9999'
GO
-- backup it up to local path
-- and then copy it to remote Center server
BACKUP CERTIFICATE DlgCert_ClientLocal
TO FILE = 'C:\Temp\DlgCert_ClientLocal.cer';
GO
创建DDLCenter用户,不需要和任何用户登录匹配
USE DDLCenter
GO
-- Create User for login under conversation database
IF NOT EXISTS(
SELECT TOP 1 *
FROM sys.database_principals
WHERE name = 'SSBDbo'
)
BEGIN
CREATE USER SSBDbo WITHOUT LOGIN;
END
GO
创建会话层远程证书,这个证书文件来自Deadlock Center SQL Server备份
USE DDLCenter
GO
-- Create converstaion layer certification came from remote Center server.
CREATE CERTIFICATE DlgCert_RemoteCenter
AUTHORIZATION SSBDbo
FROM FILE='C:\Temp\DlgCert_RemoteCenter.cer'
GO
GRANT CONNECT TO SSBDbo;
创建Service Broker组件对象
Deadlock Client与Deadlock Center在创建Service Broker组件对象时存在差异:第一个差异是创建Service的时候,需要包含Event Notification的Contract,名称为
http://schemas.microsoft.com/SQL/Notifications/PostEventNotification;第二个差异是需要多创建一个指向本地服务的路由http://soa/deadlock/route/LocalRoute。
USE DDLCenter
GO
-- Create Message Type
CREATE MESSAGE TYPE [http://soa/deadlock/MsgType/Request]
VALIDATION = WELL_FORMED_XML;
CREATE MESSAGE TYPE [http://soa/deadlock/MsgType/Response]
VALIDATION = WELL_FORMED_XML;
GO
-- Create Contact
CREATE CONTRACT [http://soa/deadlock/contract/CheckContract](
[http://soa/deadlock/MsgType/Request] SENT BY INITIATOR,
[http://soa/deadlock/MsgType/Response] SENT BY TARGET
);
GO
-- Create Queue
CREATE QUEUE dbo.[http://soa/deadlock/queue/ClientQueue]
WITH STATUS = ON, RETENTION = OFF
, ACTIVATION (STATUS = ON ,
PROCEDURE_NAME = [DDLCollector].[UP_ProcessDeadlockEventMsg] ,
MAX_QUEUE_READERS = 2 ,
EXECUTE AS N'dbo')
GO
-- Create Service
-- Here is very import, we have to create service for both contacts
-- to get extend event notification and SSB work.
CREATE SERVICE [http://soa/deadlock/service/ClientService]
ON QUEUE [http://soa/deadlock/queue/ClientQueue]
(
[http://soa/deadlock/contract/CheckContract],
[http://schemas.microsoft.com/SQL/Notifications/PostEventNotification]
);
GO
-- Grant Send on service
GRANT SEND ON SERVICE::[http://soa/deadlock/service/ClientService] to SSBDbo;
GO
-- Create Remote Service Bingding
CREATE REMOTE SERVICE BINDING [http://soa/deadlock/RSB/CenterRSB]
TO SERVICE 'http://soa/deadlock/service/CenterService'
WITH USER = [SSBDbo],
ANONYMOUS=Off
GO
-- Create Route
CREATE ROUTE [http://soa/deadlock/route/CenterRoute]
WITH SERVICE_NAME = 'http://soa/deadlock/service/CenterService',
ADDRESS = 'TCP://10.211.55.3:4024';
GO
-- Create route for the DeadlockNotificationSvc
CREATE ROUTE [http://soa/deadlock/route/LocalRoute]
WITH SERVICE_NAME = 'http://soa/deadlock/service/ClientService',
ADDRESS = 'LOCAL';
GO
Deadlock Center Server
创建DDLCenter数据库并开启Service Broker选项
-- Run script on center server to receive client deadlock xml
USE master
GO
-- Create Database
IF DB_ID('DDLCenter') IS NULL
CREATE DATABASE [DDLCenter];
GO
-- Change datbase to simple recovery model
ALTER DATABASE [DDLCenter] SET RECOVERY SIMPLE WITH NO_WAIT
GO
-- Enable Service Broker
ALTER DATABASE [DDLCenter] SET ENABLE_BROKER,TRUSTWORTHY ON
GO
-- Change database Owner to sa
ALTER AUTHORIZATION ON DATABASE::DDLCenter TO [sa]
GO
三张表和两个存储过程
表[DDLCollector].[Collect_Records]:Deadlock Center成功接收到的Service Broker消息。
表[DDLCollector].[Error_Records]:记录发生异常情况的详细信息。
表[DDLCollector].[Deadlock_Info]:记录所有Deadlock Client端发生的Deadlock详细信息。
存储过程[DDLCollector].[UP_ProcessDeadlockGraphEventMsg]:Deadlock Center上绑定到队列的激活存储过程,一旦队列中有消息进入,这个存储过程会被自动调用。
存储过程[DDLCollector].[UP_ParseDeadlockGraphEventMsg]:Deadlock Center上解析Deadlock Graph XML的存储过程对象,这个存储过程会被上面的激活存储过程调用来解析XML,然后放入表[DDLCollector].[Deadlock_Info]中。
USE [DDLCenter]
GO
-- Create Schema
IF NOT EXISTS(
SELECT TOP 1 *
FROM sys.schemas
WHERE name = 'DDLCollector'
)
BEGIN
EXEC('CREATE SCHEMA DDLCollector');
END
GO
-- Create table to log the received message
IF OBJECT_ID('DDLCollector.Collect_Records', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Collect_Records]
GO
CREATE TABLE [DDLCollector].[Collect_Records](
[RowId] [BIGINT] IDENTITY(1,1) NOT NULL,
[Deadlock_Graph_Msg] [xml] NULL,
[Deadlock_Graph_Msg_CheckSum] INT,
[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Collect_Records_Record_Time DEFAULT(GETDATE()),
CONSTRAINT PK_Collect_Records_RowId PRIMARY KEY
(RowId ASC)
) ON [PRIMARY]
GO
-- create table to record the exception when error occurs
IF OBJECT_ID('DDLCollector.Error_Records', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Error_Records]
GO
CREATE TABLE [DDLCollector].[Error_Records](
[RowId] [int] IDENTITY(1,1) NOT NULL,
[Msg_Body] [xml] NULL,
[Conversation_handle] [uniqueidentifier] NULL,
[Message_Type] SYSNAME NULL,
[Service_Name] SYSNAME NULL,
[Contact_Name] SYSNAME NULL,
[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Error_Records_Record_Time DEFAULT(GETDATE()),
[Error_Details] [nvarchar](4000) NULL,
CONSTRAINT PK_Error_Records_RowId PRIMARY KEY
(RowId ASC)
) ON [PRIMARY]
GO
-- create business table to record deadlock analysised info
IF OBJECT_ID('DDLCollector.Deadlock_Info', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Deadlock_Info]
GO
CREATE TABLE [DDLCollector].[Deadlock_Info](
RowId INT IDENTITY(1,1) NOT NULL
,SQLInstance sysname NULL
,SPid INT NULL
,is_Vitim BIT NULL
,DeadlockGraph XML NULL
,DeadlockGraphCheckSum INT NULL
,lasttranstarted DATETIME NULL
,lastbatchstarted DATETIME NULL
,lastbatchcompleted DATETIME NULL
,procname SYSNAME NULL
,Code NVARCHAR(max) NULL
,LockMode sysname NULL
,Indexname sysname NULL
,KeylockObject sysname NULL
,IndexLockMode sysname NULL
,Inputbuf NVARCHAR(max) NULL
,LoginName sysname NULL
,Clientapp sysname NULL
,Action varchar(1000) NULL
,status varchar(10) NULL
,[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Deadlock_Info_Record_Time DEFAULT(GETDATE()),
CONSTRAINT PK_Deadlock_Info_RowId PRIMARY KEY
(RowId ASC)
)
GO
USE [DDLCenter]
GO
-- Create store procedure to analysis deadlock graph xml
-- and log into business table
IF OBJECT_ID('DDLCollector.UP_ParseDeadlockGraphEventMsg', 'P') IS NOT NULL
DROP PROC [DDLCollector].[UP_ParseDeadlockGraphEventMsg]
GO
CREATE PROCEDURE [DDLCollector].[UP_ParseDeadlockGraphEventMsg](
@DeadlockGraph_Msg XML
)
AS
BEGIN
SET NOCOUNT ON;
;WITH deadlock
AS
(
SELECT
OwnerID = T.C.value('@id', 'varchar(50)')
,SPid = T.C.value('(./@spid)[1]','int')
,status = T.C.value('(./@status)[1]','varchar(10)')
,Victim = case
when T.C.value('@id', 'varchar(50)') = T.C.value('./../../@victim','varchar(50)') then 1
else 0 end
,LockMode = T.C.value('@lockMode', 'sysname')
,Inputbuf = T.C.value('(./inputbuf/text())[1]','nvarchar(max)')
,Code = T.C.value('(./executionStack/frame/text())[1]','nvarchar(max)')
,SPName = T.C.value('(./executionStack/frame/@procname)[1]','sysname')
,Hostname = T.C.value('(./@hostname)[1]','sysname')
,Clientapp = T.C.value('(./@clientapp)[1]','varchar(1000)')
,lasttranstarted = T.C.value('(./@lasttranstarted)[1]','datetime')
,lastbatchstarted = T.C.value('(./@lastbatchstarted)[1]','datetime')
,lastbatchcompleted = T.C.value('(./@lastbatchcompleted)[1]','datetime')
,LoginName = T.C.value('@loginname', 'sysname')
,Action = T.C.value('(./@transactionname)[1]','varchar(1000)')
FROM @DeadlockGraph_Msg.nodes('EVENT_INSTANCE/TextData/deadlock-list/deadlock/process-list/process') AS T(C)
)
,
keylock
AS
(
SELECT
OwnerID = T.C.value('./owner[1]/@id', 'varchar(50)')
,KeylockObject = T.C.value('./../@objectname', 'sysname')
,Indexname = T.C.value('./../@indexname', 'sysname')
,IndexLockMode = T.C.value('./../@mode', 'sysname')
FROM @DeadlockGraph_Msg.nodes('EVENT_INSTANCE/TextData/deadlock-list/deadlock/resource-list/keylock/owner-list') AS T(C)
)
SELECT
SQLInstance = A.Hostname
,A.SPid
,is_Vitim = A.Victim
,DeadlockGraph = @DeadlockGraph_Msg.query('EVENT_INSTANCE/TextData/deadlock-list')
,DeadlockGraphCheckSum = CHECKSUM(CAST(@DeadlockGraph_Msg AS NVARCHAR(MAX)))
,A.lasttranstarted
,A.lastbatchstarted
,A.lastbatchcompleted
,A.SPName
,A.Code
,A.LockMode
,B.Indexname
,B.KeylockObject
,B.IndexLockMode
,A.Inputbuf
,A.LoginName
,A.Clientapp
,A.Action
,status
,[Record_Time] = GETDATE()
FROM deadlock AS A
LEFT JOIN keylock AS B
ON A.OwnerID = B.OwnerID
ORDER BY A.SPid, A.Victim
;
END
GO
-- Create store Procedure for Center server service queue to process deadlock xml
-- when message sending from client server.
IF OBJECT_ID('DDLCollector.UP_ProcessDeadlockGraphEventMsg', 'P') IS NOT NULL
DROP PROC [DDLCollector].[UP_ProcessDeadlockGraphEventMsg]
GO
CREATE PROCEDURE [DDLCollector].[UP_ProcessDeadlockGraphEventMsg]
AS
/*
EXEC [DDLCollector].[UP_ProcessDeadlockGraphEventMsg]
SELECT * FROM [DDLCollector].[Collect_Records]
SELECT * FROM [DDLCollector].[Error_Records]
SELECT * FROM [DDLCollector].[Deadlock_Info]
*/
BEGIN
SET NOCOUNT ON;
DECLARE
@handle UNIQUEIDENTIFIER
, @Message_Type SYSNAME
, @Service_Name SYSNAME
, @Contact_Name SYSNAME
, @Error_Details VARCHAR(2000)
, @Message_Body XML
, @Proc_Name SYSNAME
;
-- Store Procedure name
SELECT
@Proc_Name = ISNULL(QUOTENAME(SCHEMA_NAME(SCHEMA_ID))
+ '.'
+ QUOTENAME(OBJECT_NAME(@@PROCID)),'')
FROM sys.procedures
WHERE OBJECT_ID = @@PROCID
;
BEGIN TRY
-- Receive deadlock message from service queue
WAITFOR(RECEIVE TOP(1)
@handle = conversation_handle
, @Message_Type = message_type_name
, @Service_Name = service_name
, @Contact_Name = service_contract_name
, @Message_Body = message_body
FROM dbo.[http://soa/deadlock/queue/CenterQueue]),Timeout 500
;
IF(@@Rowcount=0)
BEGIN
RETURN
END
-- Message type is the very correct one
ELSE IF @Message_Type = N'http://soa/deadlock/MsgType/Request'
BEGIN
-- Record message log first
INSERT INTO [DDLCollector].[Collect_Records](Deadlock_Graph_Msg, [Deadlock_Graph_Msg_CheckSum])
VALUES(@Message_Body, CHECKSUM(cast(@Message_Body as NVARCHAR(MAX))))
END CONVERSATION @handle
--Here call another Store Procedure to process our message to record deadlock relation info
INSERT INTO [DDLCollector].[Deadlock_Info]
EXEC [DDLCollector].[UP_ParseDeadlockGraphEventMsg] @Message_Body;
END
--End Diaglog Message Type, that means we should end this conversation
ELSE IF @Message_Type = N'http://schemas.microsoft.com/SQL/ServiceBroker/EndDialog'
BEGIN
END CONVERSATION @handle;
END
-- Konwn Service Broker Errors by System.
ELSE IF @Message_Type = N'http://schemas.microsoft.com/SQL/ServiceBroker/Error'
BEGIN
END CONVERSATION @handle
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, ' Exception Store Procedure: ' + @Proc_Name);
END
ELSE
-- unknown Message Types.
BEGIN
END CONVERSATION @handle
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, ' Received unexpected message type when executing Store Procedure: ' + @Proc_Name);
-- unexpected message type
RAISERROR (N' Received unexpected message type: %s', 16, 1, @Message_Type) WITH LOG;
END
END TRY
BEGIN CATCH
BEGIN
-- record exception record
SET @Error_Details=
' Error Number: ' + CAST(ERROR_NUMBER() AS VARCHAR(10)) +
' Error Message : ' + ERROR_MESSAGE() +
' Error Severity: ' + CAST(ERROR_SEVERITY() AS VARCHAR(10)) +
' Error State: ' + CAST(ERROR_STATE() AS VARCHAR(10)) +
' Error Line: ' + CAST(ERROR_LINE() AS VARCHAR(10)) +
' Exception Proc: ' + @Proc_Name
;
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, @Error_Details);
END
END CATCH
END
GO
创建Master库下Master Key
USE master
GO
-- If the master key is not available, create it.
IF NOT EXISTS (SELECT *
FROM sys.symmetric_keys
WHERE name LIKE '%MS_DatabaseMasterKey%')
BEGIN
CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'CenterMasterKey*';
END
GO
创建传输层本地证书并备份到本地文件系统
USE master
GO
-- Crete Transport Layer Certification
CREATE CERTIFICATE TrpCert_RemoteCenter
AUTHORIZATION dbo
WITH SUBJECT = 'TrpCert_RemoteCenter',
START_DATE = '05/07/2017',
EXPIRY_DATE = '12/30/9999'
GO
-- then backup it up to local path
-- and after that copy it to Client server
BACKUP CERTIFICATE TrpCert_RemoteCenter
TO FILE = 'C:\Temp\TrpCert_RemoteCenter.cer';
GO
创建传输层远程证书,这个证书文件来至于Deadlock Client SQL Server
USE master
GO
-- Create certification came from client Server.
CREATE CERTIFICATE TrpCert_ClientLocal
FROM FILE = 'C:\Temp\TrpCert_ClientLocal.cer'
GO
创建基于证书文件的用户登录
USE master
GO
-- Create user login
IF NOT EXISTS(SELECT *
FROM sys.syslogins
WHERE name='SSBDbo')
BEGIN
CREATE LOGIN SSBDbo FROM CERTIFICATE TrpCert_RemoteCenter;
END
GO
创建Service Broker TCP/IP通讯端口并授权用户连接权限
USE master
GO
-- Creaet Tcp endpoint for SSB comunication and grant connect to users.
CREATE ENDPOINT EP_SSB_RemoteCenter
STATE = STARTED
AS TCP
(
LISTENER_PORT = 4024
)
FOR SERVICE_BROKER (AUTHENTICATION = CERTIFICATE TrpCert_RemoteCenter, ENCRYPTION = REQUIRED
)
GO
-- Grant Connect on Endpoint to User SSBDbo
GRANT CONNECT ON ENDPOINT::EP_SSB_RemoteCenter TO SSBDbo
GO
创建DDLCenter数据库Master Key
-- Now, let's go inside to conversation database
USE DDLCenter
GO
-- Create Master Key
IF NOT EXISTS (SELECT *
FROM sys.symmetric_keys
WHERE name LIKE '%MS_DatabaseMasterKey%')
BEGIN
CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'DDLCenterMasterKey*';
END
GO
创建会话层本地证书
USE DDLCenter
GO
-- Create conversation layer certification
CREATE CERTIFICATE DlgCert_RemoteCenter
AUTHORIZATION dbo
WITH SUBJECT = 'DlgCert_RemoteCenter',
START_DATE = '05/07/2017',
EXPIRY_DATE = '12/30/9999'
GO
-- backup it up to local path
-- and then copy it to remote client server
BACKUP CERTIFICATE DlgCert_RemoteCenter
TO FILE = 'C:\Temp\DlgCert_RemoteCenter.cer';
GO
创建DDLCenter用户,不需要和任何用户登录匹配
USE DDLCenter
GO
-- Create User for login under conversation database
IF NOT EXISTS(
SELECT TOP 1 *
FROM sys.database_principals
WHERE name = 'SSBDbo'
)
BEGIN
--CREATE USER SSBDbo FOR LOGIN SSBDbo;
CREATE USER SSBDbo WITHOUT LOGIN;
END
GO
创建会话层远程证书,这个证书文件来自Deadlock Center SQL Server备份
USE DDLCenter
GO
-- Create converstaion layer certification came from remote client server.
CREATE CERTIFICATE DlgCert_ClientLocal
AUTHORIZATION SSBDbo
FROM FILE='C:\Temp\DlgCert_ClientLocal.cer'
GO
GRANT CONNECT TO SSBDbo;
创建Service Broker组件对象
USE DDLCenter
GO
-- Create Message Type
CREATE MESSAGE TYPE [http://soa/deadlock/MsgType/Request]
VALIDATION = WELL_FORMED_XML;
CREATE MESSAGE TYPE [http://soa/deadlock/MsgType/Response]
VALIDATION = WELL_FORMED_XML;
GO
-- Create Contact
CREATE CONTRACT [http://soa/deadlock/contract/CheckContract](
[http://soa/deadlock/MsgType/Request] SENT BY INITIATOR,
[http://soa/deadlock/MsgType/Response] SENT BY TARGET
);
GO
-- Create Queue
CREATE QUEUE [dbo].[http://soa/deadlock/queue/CenterQueue]
WITH STATUS = ON , RETENTION = OFF
, ACTIVATION (STATUS = ON ,
PROCEDURE_NAME = [DDLCollector].[UP_ProcessDeadlockGraphEventMsg] ,
MAX_QUEUE_READERS = 3 ,
EXECUTE AS N'dbo')
GO
-- Create Service
CREATE SERVICE [http://soa/deadlock/service/CenterService]
ON QUEUE [http://soa/deadlock/queue/CenterQueue]
(
[http://soa/deadlock/contract/CheckContract]
);
GO
-- Grant Send on service to User SSBDbo
GRANT SEND ON SERVICE::[http://soa/deadlock/service/CenterService] to SSBDbo;
GO
-- Create Remote Service Bingding
CREATE REMOTE SERVICE BINDING [http://soa/deadlock/RSB/ClientRSB]
TO SERVICE 'http://soa/deadlock/service/ClientService'
WITH USER = SSBDbo,
ANONYMOUS=Off
GO
-- Create Route
CREATE ROUTE [http://soa/deadlock/route/ClientRoute]
WITH SERVICE_NAME = 'http://soa/deadlock/service/ClientService',
ADDRESS = 'TCP://10.211.55.3:4022';
GO
Event Notification配置
Event Notification只需要在Deadlock Client Server创建即可,因为只需要在Deadlock Client上跟踪死锁事件。在为Deadlock Client 配置Service Broker章节,我们已经为Event Notification创建了队列、服务和路由。因此,在这里我们只需要创建Event Notification对象即可。方法参见如下的代码:
USE DDLCenter
GO
-- Create Event Notification for the deadlock_graph event.
IF EXISTS(
SELECT * FROM sys.server_event_notifications
WHERE name = 'DeadLockNotificationEvent'
)
BEGIN
DROP EVENT NOTIFICATION DeadLockNotificationEvent
ON SERVER;
END
GO
CREATE EVENT NOTIFICATION DeadLockNotificationEvent
ON SERVER
WITH FAN_IN
FOR DEADLOCK_GRAPH
TO SERVICE
'http://soa/deadlock/service/ClientService',
'current database'
GO
模拟死锁
至此为止,所有对象和准备工作已经准备完成,万事俱备只欠东风,让我们在Deadlock Client实例上模拟死锁场景。首先,我们在Test数据库下创建两个测试表,表名分别为:dbo.test_deadlock1和dbo.test_deadlock2,代码如下:
IF DB_ID('Test') IS NULL
CREATE DATABASE Test;
GO
USE Test
GO
-- create two test tables
IF OBJECT_ID('dbo.test_deadlock1','u') IS NOT NULL
DROP TABLE dbo.test_deadlock1
GO
CREATE TABLE dbo.test_deadlock1(
id INT IDENTITY(1,1) not null PRIMARY KEY
,name VARCHAR(20) null
);
IF OBJECT_ID('dbo.test_deadlock2','u') IS NOT NULL
DROP TABLE dbo.test_deadlock2
GO
CREATE TABLE dbo.test_deadlock2(
id INT IDENTITY(1,1) not null PRIMARY KEY
,name VARCHAR(20) null
);
INSERT INTO dbo.test_deadlock1
SELECT 'AA'
UNION ALL
SELECT 'BB';
INSERT INTO dbo.test_deadlock2
SELECT 'AA'
UNION ALL
SELECT 'BB';
GO
接下来,我们使用SSMS打开一个新的连接,我们假设叫session 1,执行如下语句:
--session 1
USE Test
GO
BEGIN TRAN
UPDATE dbo.test_deadlock1
SET name = 'CC'
WHERE id = 1
;
WAITFOR DELAY '00:00:05'
UPDATE dbo.test_deadlock2
SET name = 'CC'
WHERE id = 1
;
ROLLBACK
紧接着,我们使用SSMS打开第二个连接,假设叫Session 2,执行下面的语句:
--session 2
USE Test
GO
BEGIN TRAN
UPDATE dbo.test_deadlock2
SET name = 'CC'
WHERE id = 1
;
UPDATE dbo.test_deadlock1
SET name = 'CC'
WHERE id = 1
;
COMMIT
等待一会儿功夫以后,死锁发生,并且Session 2做为了死锁的牺牲品,我们会在Session 2的SSMS信息窗口中看到如下的死锁信息:
Msg 1205, Level 13, State 51, Line 8
Transaction (Process ID 60) was deadlocked on lock resources with another process and has been chosen as the deadlock victim. Rerun the transaction.
用户查询死锁信息
根据上面的模拟死锁小节,说明死锁已经真真切切的发生了,那么,死锁信息到底有没有被捕获到呢?如果终端用户想要查看和分析所有客户端的死锁信息,只需要连接Deadlock Center SQL Server,执行下面的语句:
-- Run on Deadlock Center Server
USE DDLCenter
GO
SELECT * FROM [DDLCollector].[Deadlock_Info]
由于结果集宽度太宽,人为将查询结果分两段截图,第一段结果集展示如下:
第二段结果集截图如下:
从这个结果集,我们可以清楚的看到Deadlock Client发生死锁的详细信息,包含:
死锁发生的Deadlock Client实例名称:CHERISH-PC
被死锁进程号60,死锁进程57号
死锁相关进程的事务开始时间,最后一个Batch开始执行时间和完成时间
死锁进程执行的代码和Batch语句
死锁发生时锁的类型
表和索引名称
死锁相关进程的登录用户
……
等等。
踩过的坑
当Deadlock Client 上SQL Server发生两次或者两次以上的Deadlock事件以后,自建的Event Notification对象(名为:DeadLockNotificationEvent)会被SQL Server系统自动删除,从而导致整个死锁收集系统无法工作。
表象
SQL Server在错误日志中会抛出如下4个错误信息:两个错误编号为17004,一个编号为17001的错误,最后是一个编号为17005错误,其中17005明确说明了,Event Notification对象被删除了。如下:
Error: 17004, Severity: 16, State: 1.
Event notification conversation on dialog handle '{4A6A0FBD-7A34-E711-A709-001C42099969}' closed without an error.
Error: 17004, Severity: 16, State: 1.
Event notification conversation on dialog handle '{476A0FBD-7A34-E711-A709-001C42099969}' closed without an error.
Error: 17001, Severity: 16, State: 1.
Failure to send an event notification instance of type 'DEADLOCK_GRAPH' on conversation handle '{F711A404-7934-E711-A709-001C42099969}'. Error Code = '8429'.
Error: 17005, Severity: 16, State: 1.
Event notification 'DeadLockNotificationEvent' in database 'master' dropped due to send time service broker errors. Check to ensure the conversation handle, service broker contract, and service specified in the event notification are active.
错误日志截图如下:
问题分析
从错误提示信息due to send time service broker errors来看,最开始花了很长时间来排查Service Broker方面的问题,在长达数小时的问题排查无果后,静下心来仔细想想:如果是Service Broker有问题的话,我们不可能完成第一、第二条死锁信息的收集,所以问题应该与Service Broker没有直接关系。于是,注意到了错误提示信息的后半部分Check to ensure the conversation handle, service broker contract, and service specified in the event notification are active,再次以可以成功收集两条deadlock错误信息为由,排除Contact和Service的问题可能性,所以最有可能出问题的地方猜测应该是conversation handle,继续排查与conversation handle相关操作的地方,发现存储过程[DDLCollector].[UP_ProcessDeadlockEventMsg]的中的代码:
...
ELSE IF @Message_Type = 'http://schemas.microsoft.com/SQL/Notifications/EventNotification'
BEGIN
-- Record message log first
INSERT INTO [DDLCollector].[Deadlock_Traced_Records](Processed_Msg, [Processed_Msg_CheckSum])
VALUES(@Message_Body, CHECKSUM(CAST(@Message_Body as NVARCHAR(MAX))))
END CONVERSATION @handle
--Here call another Store Procedure to send deadlock graph info to center server
EXEC [DDLCollector].[UP_SendDeadlockMsg] @Message_Body;
END
...
这个逻辑分支不应该有End Conversation的操作,因为这里是与Event Notification相关的Message Type操作,而不是Service Broker相关的Message Type操作。
解决问题
问题分析清楚了,解决方法就非常简单了,注释掉这条语句END CONVERSATION @handle后,重新创建存储过程。再多次模拟死锁操作,再也没有出现Event Notification被系统自动删除的情况了,说明这个问题已经被彻底解决,坑已经被填上了。
解决问题的代码修改和注释如下截图,以此纪念下踩过的这个坑:
福利发放
以下是关于SQL Server死锁相关的系列文章,可以帮助我们全面了解、分析和解决死锁问题,其中第一个是这篇文章的视频演示。
使用Event Notification和Service Broker自动跟踪SQL Server Deadlock的Youku视频:使用事件通知和Service Broker自动跟踪SQL Server死锁
使用DBCC捕获死锁:RDS SQL Server死锁(Deadlock)系列之一使用DBCC捕获死锁
使用Profiler捕获死锁:RDS SQL Server死锁(Deadlock)系列之二使用Profiler捕获死锁
自动部署Profiler捕获死锁:RDS SQL Server死锁(Deadlock)系列之三自动部署Profiler捕获死锁
利用Service Broker事件通知捕获死锁:RDS SQL Server死锁(Deadlock)系列之四利用Service Broker事件通知捕获死锁
利用Extended Events获取死锁信息:RDS SQL Server死锁(Deadlock)系列之五利用Extended Events获取死锁信息
最后总结
这篇文章是一个完整的SQL Server死锁收集系统典型案例介绍,你甚至可以很轻松简单的将这个方案应用到你的产品环境,来收集产品环境所有SQL Server实例发生死锁的详细信息,并根据该系统收集到的场景来改进和改善死锁发生的概率,从而降低死应用发生异常错误的可能性。因此这篇文章有着非常重要的现实价值和意义。
海量数据库的查询优化及分页算法方案[转]
海量数据库的
查询优化及分页算法方案
随着“金盾工程”建设的逐步深入和公安信息化的高速发展,公安计算机应用系统被广泛应用在各警种、各部门。与此同时,应用系统体系的核心、系统数据的存放地――数据库也随着实际应用而急剧膨胀,一些大规模的系统,如人口系统的数据甚至超过了1000万条,可谓海量。那么,如何实现快速地从这些超大容量的数据库中提取数据(查询)、分析、统计以及提取数据后进行数据分页已成为各地系统管理员和数据库管理员亟待解决的难题。
在以下的文章中,我将以“办公自动化”系统为例,探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页。以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构:
CREATE TABLE [dbo].[TGongwen] ( --TGongwen是红头文件表名
[Gid] [int] IDENTITY (1, 1) NOT NULL ,
--本表的id号,也是主键
[title] [varchar] (80) COLLATE Chinese_PRC_CI_AS NULL ,
--红头文件的标题
[fariqi] [datetime] NULL ,
--发布日期
[neibuYonghu] [varchar] (70) COLLATE Chinese_PRC_CI_AS NULL ,
--发布用户
[reader] [varchar] (900) COLLATE Chinese_PRC_CI_AS NULL ,
--需要浏览的用户。每个用户中间用分隔符“,”分开
) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY]
GO
下面,我们来往数据库中添加1000万条数据:
declare @i int
set @i=1
while @i<=250000
begin
insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-2-5','通信科','通信科,办公室,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,治安支队,外事科','这是最先的25万条记录')
set @i=@i+1
end
GO
declare @i int
set @i=1
while @i<=250000
begin
insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-9-16','办公室','办公室,通信科,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,外事科','这是中间的25万条记录')
set @i=@i+1
end
GO
declare @h int
set @h=1
while @h<=100
begin
declare @i int
set @i=2002
while @i<=2003
begin
declare @j int
set @j=0
while @j<50
begin
declare @k int
set @k=0
while @k<50
begin
insert into Tgongwen(fariqi,neibuyonghu,reader,title) values(cast(@i as varchar(4))+'-8-15 3:'+cast(@j as varchar(2))+':'+cast(@j as varchar(2)),'通信科','办公室,通信科,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,外事科','这是最后的50万条记录')
set @k=@k+1
end
set @j=@j+1
end
set @i=@i+1
end
set @h=@h+1
end
GO
declare @i int
set @i=1
while @i<=9000000
begin
insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-5-5','通信科','通信科,办公室,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,治安支队,外事科','这是最后添加的900万条记录')
set @i=@i+1000000
end
GO
通过以上语句,我们创建了25万条由通信科于2004年2月5日发布的记录,25万条由办公室于2004年9月6日发布的记录,2002年和2003年各100个2500条相同日期、不同分秒的由通信科发布的记录(共50万条),还有由通信科于2004年5月5日发布的900万条记录,合计1000万条。
一、因情制宜,建立“适当”的索引
建立“适当”的索引是实现查询优化的首要前提。
索引(index)是除表之外另一重要的、用户定义的存储在物理介质上的数据结构。当根据索引码的值搜索数据时,索引提供了对数据的快速访问。事实上,没有索引,数据库也能根据SELECT语句成功地检索到结果,但随着表变得越来越大,使用“适当”的索引的效果就越来越明显。注意,在这句话中,我们用了“适当”这个词,这是因为,如果使用索引时不认真考虑其实现过程,索引既可以提高也会破坏数据库的工作性能。
(一)深入浅出理解索引结构
实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别:
其实,我们的汉语字典的正文本身就是一个聚集索引。比如,我们要查“安”字,就会很自然地翻开字典的前几页,因为“安”的拼音是“an”,而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的,那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字,那么就说明您的字典中没有这个字;同样的,如果查“张”字,那您也会将您的字典翻到最后部分,因为“张”的拼音是“zhang”。也就是说,字典的正文部分本身就是一个目录,您不需要再去查其他目录来找到您需要找的内容。
我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。
如果您认识某个字,您可以快速地从自动中查到这个字。但您也可能会遇到您不认识的字,不知道它的发音,这时候,您就不能按照刚才的方法找到您要查的字,而需要去根据“偏旁部首”查到您要找的字,然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真正的正文的排序方法,比如您查“张”字,我们可以看到在查部首之后的检字表中“张”的页码是672页,检字表中“张”的上面是“驰”字,但页码却是63页,“张”的下面是“弩”字,页面是390页。很显然,这些字并不是真正的分别位于“张”字的上下方,现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序,是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字,但它需要两个过程,先找到目录中的结果,然后再翻到您所需要的页码。
我们把这种目录纯粹是目录,正文纯粹是正文的排序方式称为“非聚集索引”。
通过以上例子,我们可以理解到什么是“聚集索引”和“非聚集索引”。
进一步引申一下,我们可以很容易的理解:每个表只能有一个聚集索引,因为目录只能按照一种方法进行排序。
(二)何时使用聚集索引或非聚集索引
下面的表总结了何时使用聚集索引或非聚集索引(很重要)。
动作描述
使用聚集索引
使用非聚集索引
列经常被分组排序
应
应
返回某范围内的数据
应
不应
一个或极少不同值
不应
不应
小数目的不同值
应
不应
大数目的不同值
不应
应
频繁更新的列
不应
应
外键列
应
应
主键列
应
应
频繁修改索引列
不应
应
事实上,我们可以通过前面聚集索引和非聚集索引的定义的例子来理解上表。如:返回某范围内的数据一项。比如您的某个表有一个时间列,恰好您把聚合索引建立在了该列,这时您查询2004年1月1日至2004年10月1日之间的全部数据时,这个速度就将是很快的,因为您的这本字典正文是按日期进行排序的,聚类索引只需要找到要检索的所有数据中的开头和结尾数据即可;而不像非聚集索引,必须先查到目录中查到每一项数据对应的页码,然后再根据页码查到具体内容。
(三)结合实际,谈索引使用的误区
理论的目的是应用。虽然我们刚才列出了何时应使用聚集索引或非聚集索引,但在实践中以上规则却很容易被忽视或不能根据实际情况进行综合分析。下面我们将根据在实践中遇到的实际问题来谈一下索引使用的误区,以便于大家掌握索引建立的方法。
1、主键就是聚集索引
这种想法笔者认为是极端错误的,是对聚集索引的一种浪费。虽然SQL SERVER默认是在主键上建立聚集索引的。
通常,我们会在每个表中都建立一个ID列,以区分每条数据,并且这个ID列是自动增大的,步长一般为1。我们的这个办公自动化的实例中的列Gid就是如此。此时,如果我们将这个列设为主键,SQL SERVER会将此列默认为聚集索引。这样做有好处,就是可以让您的数据在数据库中按照ID进行物理排序,但笔者认为这样做意义不大。
显而易见,聚集索引的优势是很明显的,而每个表中只能有一个聚集索引的规则,这使得聚集索引变得更加珍贵。
从我们前面谈到的聚集索引的定义我们可以看出,使用聚集索引的最大好处就是能够根据查询要求,迅速缩小查询范围,避免全表扫描。在实际应用中,因为ID号是自动生成的,我们并不知道每条记录的ID号,所以我们很难在实践中用ID号来进行查询。这就使让ID号这个主键作为聚集索引成为一种资源浪费。其次,让每个ID号都不同的字段作为聚集索引也不符合“大数目的不同值情况下不应建立聚合索引”规则;当然,这种情况只是针对用户经常修改记录内容,特别是索引项的时候会负作用,但对于查询速度并没有影响。
在办公自动化系统中,无论是系统首页显示的需要用户签收的文件、会议还是用户进行文件查询等任何情况下进行数据查询都离不开字段的是“日期”还有用户本身的“用户名”。
通常,办公自动化的首页会显示每个用户尚未签收的文件或会议。虽然我们的where语句可以仅仅限制当前用户尚未签收的情况,但如果您的系统已建立了很长时间,并且数据量很大,那么,每次每个用户打开首页的时候都进行一次全表扫描,这样做意义是不大的,绝大多数的用户1个月前的文件都已经浏览过了,这样做只能徒增数据库的开销而已。事实上,我们完全可以让用户打开系统首页时,数据库仅仅查询这个用户近3个月来未阅览的文件,通过“日期”这个字段来限制表扫描,提高查询速度。如果您的办公自动化系统已经建立的2年,那么您的首页显示速度理论上将是原来速度8倍,甚至更快。
在这里之所以提到“理论上”三字,是因为如果您的聚集索引还是盲目地建在ID这个主键上时,您的查询速度是没有这么高的,即使您在“日期”这个字段上建立的索引(非聚合索引)。下面我们就来看一下在1000万条数据量的情况下各种查询的速度表现(3个月内的数据为25万条):
(1)仅在主键上建立聚集索引,并且不划分时间段:
Select gid,fariqi,neibuyonghu,title from tgongwen
用时:128470毫秒(即:128秒)
(2)在主键上建立聚集索引,在fariq上建立非聚集索引:
select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi> dateadd(day,-90,getdate())
用时:53763毫秒(54秒)
(3)将聚合索引建立在日期列(fariqi)上:
select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi> dateadd(day,-90,getdate())
用时:2423毫秒(2秒)
虽然每条语句提取出来的都是25万条数据,各种情况的差异却是巨大的,特别是将聚集索引建立在日期列时的差异。事实上,如果您的数据库真的有1000万容量的话,把主键建立在ID列上,就像以上的第1、2种情况,在网页上的表现就是超时,根本就无法显示。这也是我摒弃ID列作为聚集索引的一个最重要的因素。
得出以上速度的方法是:在各个select语句前加:declare @d datetime
set @d=getdate()
并在select语句后加:
select [语句执行花费时间(毫秒)]=datediff(ms,@d,getdate())
2、只要建立索引就能显著提高查询速度
事实上,我们可以发现上面的例子中,第2、3条语句完全相同,且建立索引的字段也相同;不同的仅是前者在fariqi字段上建立的是非聚合索引,后者在此字段上建立的是聚合索引,但查询速度却有着天壤之别。所以,并非是在任何字段上简单地建立索引就能提高查询速度。
从建表的语句中,我们可以看到这个有着1000万数据的表中fariqi字段有5003个不同记录。在此字段上建立聚合索引是再合适不过了。在现实中,我们每天都会发几个文件,这几个文件的发文日期就相同,这完全符合建立聚集索引要求的:“既不能绝大多数都相同,又不能只有极少数相同”的规则。由此看来,我们建立“适当”的聚合索引对于我们提高查询速度是非常重要的。
3、把所有需要提高查询速度的字段都加进聚集索引,以提高查询速度
上面已经谈到:在进行数据查询时都离不开字段的是“日期”还有用户本身的“用户名”。既然这两个字段都是如此的重要,我们可以把他们合并起来,建立一个复合索引(compound index)。
很多人认为只要把任何字段加进聚集索引,就能提高查询速度,也有人感到迷惑:如果把复合的聚集索引字段分开查询,那么查询速度会减慢吗?带着这个问题,我们来看一下以下的查询速度(结果集都是25万条数据):(日期列fariqi首先排在复合聚集索引的起始列,用户名neibuyonghu排在后列)
(1)select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-5-5'
查询速度:2513毫秒
(2)select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-5-5' and neibuyonghu='办公室'
查询速度:2516毫秒
(3)select gid,fariqi,neibuyonghu,title from Tgongwen where neibuyonghu='办公室'
查询速度:60280毫秒
从以上试验中,我们可以看到如果仅用聚集索引的起始列作为查询条件和同时用到复合聚集索引的全部列的查询速度是几乎一样的,甚至比用上全部的复合索引列还要略快(在查询结果集数目一样的情况下);而如果仅用复合聚集索引的非起始列作为查询条件的话,这个索引是不起任何作用的。当然,语句1、2的查询速度一样是因为查询的条目数一样,如果复合索引的所有列都用上,而且查询结果少的话,这样就会形成“索引覆盖”,因而性能可以达到最优。同时,请记住:无论您是否经常使用聚合索引的其他列,但其前导列一定要是使用最频繁的列。
(四)其他书上没有的索引使用经验总结
1、用聚合索引比用不是聚合索引的主键速度快
下面是实例语句:(都是提取25万条数据)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'
使用时间:3326毫秒
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid<=250000
使用时间:4470毫秒
这里,用聚合索引比用不是聚合索引的主键速度快了近1/4。
2、用聚合索引比用一般的主键作order by时速度快,特别是在小数据量情况下
select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by fariqi
用时:12936
select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by gid
用时:18843
这里,用聚合索引比用一般的主键作order by时,速度快了3/10。事实上,如果数据量很小的话,用聚集索引作为排序列要比使用非聚集索引速度快得明显的多;而数据量如果很大的话,如10万以上,则二者的速度差别不明显。
3、使用聚合索引内的时间段,搜索时间会按数据占整个数据表的百分比成比例减少,而无论聚合索引使用了多少个
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1'
用时:6343毫秒(提取100万条)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-6-6'
用时:3170毫秒(提取50万条)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'
用时:3326毫秒(和上句的结果一模一样。如果采集的数量一样,那么用大于号和等于号是一样的)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1' and fariqi<'2004-6-6'
用时:3280毫秒
4 、日期列不会因为有分秒的输入而减慢查询速度
下面的例子中,共有100万条数据,2004年1月1日以后的数据有50万条,但只有两个不同的日期,日期精确到日;之前有数据50万条,有5000个不同的日期,日期精确到秒。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1' order by fariqi
用时:6390毫秒
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi<'2004-1-1' order by fariqi
用时:6453毫秒
(五)其他注意事项
“水可载舟,亦可覆舟”,索引也一样。索引有助于提高检索性能,但过多或不当的索引也会导致系统低效。因为用户在表中每加进一个索引,数据库就要做更多的工作。过多的索引甚至会导致索引碎片。
所以说,我们要建立一个“适当”的索引体系,特别是对聚合索引的创建,更应精益求精,以使您的数据库能得到高性能的发挥。
当然,在实践中,作为一个尽职的数据库管理员,您还要多测试一些方案,找出哪种方案效率最高、最为有效。
二、改善SQL语句
很多人不知道SQL语句在SQL SERVER中是如何执行的,他们担心自己所写的SQL语句会被SQL SERVER误解。比如:
select * from table1 where name='zhangsan' and tID > 10000
和执行:
select * from table1 where tID > 10000 and name='zhangsan'
一些人不知道以上两条语句的执行效率是否一样,因为如果简单的从语句先后上看,这两个语句的确是不一样,如果tID是一个聚合索引,那么后一句仅仅从表的10000条以后的记录中查找就行了;而前一句则要先从全表中查找看有几个name='zhangsan'的,而后再根据限制条件条件tID>10000来提出查询结果。
事实上,这样的担心是不必要的。SQL SERVER中有一个“查询分析优化器”,它可以计算出where子句中的搜索条件并确定哪个索引能缩小表扫描的搜索空间,也就是说,它能实现自动优化。
虽然查询优化器可以根据where子句自动的进行查询优化,但大家仍然有必要了解一下“查询优化器”的工作原理,如非这样,有时查询优化器就会不按照您的本意进行快速查询。
在查询分析阶段,查询优化器查看查询的每个阶段并决定限制需要扫描的数据量是否有用。如果一个阶段可以被用作一个扫描参数(SARG),那么就称之为可优化的,并且可以利用索引快速获得所需数据。
SARG的定义:用于限制搜索的一个操作,因为它通常是指一个特定的匹配,一个值得范围内的匹配或者两个以上条件的AND连接。形式如下:
列名 操作符 <常数 或 变量>
或
<常数 或 变量> 操作符列名
列名可以出现在操作符的一边,而常数或变量出现在操作符的另一边。如:
Name=’张三’
价格>5000
5000<价格
Name=’张三’ and 价格>5000
如果一个表达式不能满足SARG的形式,那它就无法限制搜索的范围了,也就是SQL SERVER必须对每一行都判断它是否满足WHERE子句中的所有条件。所以一个索引对于不满足SARG形式的表达式来说是无用的。
介绍完SARG后,我们来总结一下使用SARG以及在实践中遇到的和某些资料上结论不同的经验:
1、Like语句是否属于SARG取决于所使用的通配符的类型
如:name like ‘张%’ ,这就属于SARG
而:name like ‘%张’ ,就不属于SARG。
原因是通配符%在字符串的开通使得索引无法使用。
2、or 会引起全表扫描
Name=’张三’ and 价格>5000 符号SARG,而:Name=’张三’ or 价格>5000 则不符合SARG。使用or会引起全表扫描。
3、非操作符、函数引起的不满足SARG形式的语句
不满足SARG形式的语句最典型的情况就是包括非操作符的语句,如:NOT、!=、<>、!<、!>、NOT EXISTS、NOT IN、NOT LIKE等,另外还有函数。下面就是几个不满足SARG形式的例子:
ABS(价格)<5000
Name like ‘%三’
有些表达式,如:
WHERE 价格*2>5000
SQL SERVER也会认为是SARG,SQL SERVER会将此式转化为:
WHERE 价格>2500/2
但我们不推荐这样使用,因为有时SQL SERVER不能保证这种转化与原始表达式是完全等价的。
4、IN 的作用相当与OR
语句:
Select * from table1 where tid in (2,3)
和
Select * from table1 where tid=2 or tid=3
是一样的,都会引起全表扫描,如果tid上有索引,其索引也会失效。
5、尽量少用NOT
6、exists 和 in 的执行效率是一样的
很多资料上都显示说,exists要比in的执行效率要高,同时应尽可能的用not exists来代替not in。但事实上,我试验了一下,发现二者无论是前面带不带not,二者之间的执行效率都是一样的。因为涉及子查询,我们试验这次用SQL SERVER自带的pubs数据库。运行前我们可以把SQL SERVER的statistics I/O状态打开。
(1)select title,price from titles where title_id in (select title_id from sales where qty>30)
该句的执行结果为:
表 'sales'。扫描计数 18,逻辑读 56 次,物理读 0 次,预读 0 次。
表 'titles'。扫描计数 1,逻辑读 2 次,物理读 0 次,预读 0 次。
(2)select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty>30)
第二句的执行结果为:
表 'sales'。扫描计数 18,逻辑读 56 次,物理读 0 次,预读 0 次。
表 'titles'。扫描计数 1,逻辑读 2 次,物理读 0 次,预读 0 次。
我们从此可以看到用exists和用in的执行效率是一样的。
7、用函数charindex()和前面加通配符%的LIKE执行效率一样
前面,我们谈到,如果在LIKE前面加上通配符%,那么将会引起全表扫描,所以其执行效率是低下的。但有的资料介绍说,用函数charindex()来代替LIKE速度会有大的提升,经我试验,发现这种说明也是错误的:
select gid,title,fariqi,reader from tgongwen where charindex('刑侦支队',reader)>0 and fariqi>'2004-5-5'
用时:7秒,另外:扫描计数 4,逻辑读 7155 次,物理读 0 次,预读 0 次。
select gid,title,fariqi,reader from tgongwen where reader like '%' + '刑侦支队' + '%' and fariqi>'2004-5-5'
用时:7秒,另外:扫描计数 4,逻辑读 7155 次,物理读 0 次,预读 0 次。
8、union并不绝对比or的执行效率高
我们前面已经谈到了在where子句中使用or会引起全表扫描,一般的,我所见过的资料都是推荐这里用union来代替or。事实证明,这种说法对于大部分都是适用的。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or gid>9990000
用时:68秒。扫描计数 1,逻辑读 404008 次,物理读 283 次,预读 392163 次。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'
union
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000
用时:9秒。扫描计数 8,逻辑读 67489 次,物理读 216 次,预读 7499 次。
看来,用union在通常情况下比用or的效率要高的多。
但经过试验,笔者发现如果or两边的查询列是一样的话,那么用union则反倒和用or的执行速度差很多,虽然这里union扫描的是索引,而or扫描的是全表。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or fariqi='2004-2-5'
用时:6423毫秒。扫描计数 2,逻辑读 14726 次,物理读 1 次,预读 7176 次。
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'
union
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-2-5'
用时:11640毫秒。扫描计数 8,逻辑读 14806 次,物理读 108 次,预读 1144 次。
9、字段提取要按照“需多少、提多少”的原则,避免“select *”
我们来做一个试验:
select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc
用时:4673毫秒
select top 10000 gid,fariqi,title from tgongwen order by gid desc
用时:1376毫秒
select top 10000 gid,fariqi from tgongwen order by gid desc
用时:80毫秒
由此看来,我们每少提取一个字段,数据的提取速度就会有相应的提升。提升的速度还要看您舍弃的字段的大小来判断。
10、count(*)不比count(字段)慢
某些资料上说:用*会统计所有列,显然要比一个世界的列名效率低。这种说法其实是没有根据的。我们来看:
select count(*) from Tgongwen
用时:1500毫秒
select count(gid) from Tgongwen
用时:1483毫秒
select count(fariqi) from Tgongwen
用时:3140毫秒
select count(title) from Tgongwen
用时:52050毫秒
从以上可以看出,如果用count(*)和用count(主键)的速度是相当的,而count(*)却比其他任何除主键以外的字段汇总速度要快,而且字段越长,汇总的速度就越慢。我想,如果用count(*), SQL SERVER可能会自动查找最小字段来汇总的。当然,如果您直接写count(主键)将会来的更直接些。
11、order by按聚集索引列排序效率最高
我们来看:(gid是主键,fariqi是聚合索引列)
select top 10000 gid,fariqi,reader,title from tgongwen
用时:196 毫秒。 扫描计数 1,逻辑读 289 次,物理读 1 次,预读 1527 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc
用时:4720毫秒。 扫描计数 1,逻辑读 41956 次,物理读 0 次,预读 1287 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc
用时:4736毫秒。 扫描计数 1,逻辑读 55350 次,物理读 10 次,预读 775 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc
用时:173毫秒。 扫描计数 1,逻辑读 290 次,物理读 0 次,预读 0 次。
select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc
用时:156毫秒。 扫描计数 1,逻辑读 289 次,物理读 0 次,预读 0 次。
从以上我们可以看出,不排序的速度以及逻辑读次数都是和“order by 聚集索引列” 的速度是相当的,但这些都比“order by 非聚集索引列”的查询速度是快得多的。
同时,按照某个字段进行排序的时候,无论是正序还是倒序,速度是基本相当的。
12、高效的TOP
事实上,在查询和提取超大容量的数据集时,影响数据库响应时间的最大因素不是数据查找,而是物理的I/0操作。如:
select top 10 * from (
select top 10000 gid,fariqi,title from tgongwen
where neibuyonghu='办公室'
order by gid desc) as a
order by gid asc
这条语句,从理论上讲,整条语句的执行时间应该比子句的执行时间长,但事实相反。因为,子句执行后返回的是10000条记录,而整条语句仅返回10条语句,所以影响数据库响应时间最大的因素是物理I/O操作。而限制物理I/O操作此处的最有效方法之一就是使用TOP关键词了。TOP关键词是SQL SERVER中经过系统优化过的一个用来提取前几条或前几个百分比数据的词。经笔者在实践中的应用,发现TOP确实很好用,效率也很高。但这个词在另外一个大型数据库ORACLE中却没有,这不能说不是一个遗憾,虽然在ORACLE中可以用其他方法(如:rownumber)来解决。在以后的关于“实现千万级数据的分页显示存储过程”的讨论中,我们就将用到TOP这个关键词。
到此为止,我们上面讨论了如何实现从大容量的数据库中快速地查询出您所需要的数据方法。当然,我们介绍的这些方法都是“软”方法,在实践中,我们还要考虑各种“硬”因素,如:网络性能、服务器的性能、操作系统的性能,甚至网卡、交换机等。
三、实现小数据量和海量数据的通用分页显示存储过程
建立一个web 应用,分页浏览功能必不可少。这个问题是数据库处理中十分常见的问题。经典的数据分页方法是:ADO 纪录集分页法,也就是利用ADO自带的分页功能(利用游标)来实现分页。但这种分页方法仅适用于较小数据量的情形,因为游标本身有缺点:游标是存放在内存中,很费内存。游标一建立,就将相关的记录锁住,直到取消游标。游标提供了对特定集合中逐行扫描的手段,一般使用游标来逐行遍历数据,根据取出数据条件的不同进行不同的操作。而对于多表和大表中定义的游标(大的数据集合)循环很容易使程序进入一个漫长的等待甚至死机。
更重要的是,对于非常大的数据模型而言,分页检索时,如果按照传统的每次都加载整个数据源的方法是非常浪费资源的。现在流行的分页方法一般是检索页面大小的块区的数据,而非检索所有的数据,然后单步执行当前行。
最早较好地实现这种根据页面大小和页码来提取数据的方法大概就是“俄罗斯存储过程”。这个存储过程用了游标,由于游标的局限性,所以这个方法并没有得到大家的普遍认可。
后来,网上有人改造了此存储过程,下面的存储过程就是结合我们的办公自动化实例写的分页存储过程:
CREATE procedure pagination1
(@pagesize int, --页面大小,如每页存储20条记录
@pageindex int --当前页码
)
as
set nocount on
begin
declare @indextable table(id int identity(1,1),nid int) --定义表变量
declare @PageLowerBound int --定义此页的底码
declare @PageUpperBound int --定义此页的顶码
set @PageLowerBound=(@pageindex-1)*@pagesize
set @PageUpperBound=@PageLowerBound+@pagesize
set rowcount @PageUpperBound
insert into @indextable(nid) select gid from TGongwen where fariqi >dateadd(day,-365,getdate()) order by fariqi desc
select O.gid,O.mid,O.title,O.fadanwei,O.fariqi from TGongwen O,@indextable t where O.gid=t.nid
and t.id>@PageLowerBound and t.id<=@PageUpperBound order by t.id
end
set nocount off
以上存储过程运用了SQL SERVER的最新技术――表变量。应该说这个存储过程也是一个非常优秀的分页存储过程。当然,在这个过程中,您也可以把其中的表变量写成临时表:CREATE TABLE #Temp。但很明显,在SQL SERVER中,用临时表是没有用表变量快的。所以笔者刚开始使用这个存储过程时,感觉非常的不错,速度也比原来的ADO的好。但后来,我又发现了比此方法更好的方法。
笔者曾在网上看到了一篇小短文《从数据表中取出第n条到第m条的记录的方法》,全文如下:
从publish 表中取出第 n 条到第 m 条的记录:
SELECT TOP m-n+1 *
FROM publish
WHERE (id NOT IN
(SELECT TOP n-1 id
FROM publish))
id 为publish 表的关键字
我当时看到这篇文章的时候,真的是精神为之一振,觉得思路非常得好。等到后来,我在作办公自动化系统(ASP.NET+ C#+SQL SERVER)的时候,忽然想起了这篇文章,我想如果把这个语句改造一下,这就可能是一个非常好的分页存储过程。于是我就满网上找这篇文章,没想到,文章还没找到,却找到了一篇根据此语句写的一个分页存储过程,这个存储过程也是目前较为流行的一种分页存储过程,我很后悔没有争先把这段文字改造成存储过程:
CREATE PROCEDURE pagination2
( @SQL nVARCHAR(4000), --不带排序语句的SQL语句 @Page int, --页码 @RecsPerPage int, --每页容纳的记录数 @ID VARCHAR(255), --需要排序的不重复的ID号 @Sort VARCHAR(255) --排序字段及规则
)
AS
DECLARE @Str nVARCHAR(4000)
SET @Str='SELECT TOP '+CAST(@RecsPerPage AS VARCHAR(20))+' * FROM ('+@SQL+') T WHERE T.'+@ID+'NOT IN
(SELECT TOP '+CAST((@RecsPerPage*(@Page-1)) AS VARCHAR(20))+' '+@ID+' FROM ('+@SQL+') T9 ORDER BY '+@Sort+') ORDER BY '+@Sort
PRINT @Str
EXEC sp_ExecuteSql @Str
GO
其实,以上语句可以简化为:
SELECT TOP 页大小 *
FROM Table1
WHERE (ID NOT IN
(SELECT TOP 页大小*页数 id
FROM 表
ORDER BY id))
ORDER BY ID
但这个存储过程有一个致命的缺点,就是它含有NOT IN字样。虽然我可以把它改造为:
SELECT TOP 页大小 *
FROM Table1
WHERE not exists
(select * from (select top (页大小*页数) * from table1 order by id) b where b.id=a.id )
order by id
即,用not exists来代替not in,但我们前面已经谈过了,二者的执行效率实际上是没有区别的。
既便如此,用TOP 结合NOT IN的这个方法还是比用游标要来得快一些。
虽然用not exists并不能挽救上个存储过程的效率,但使用SQL SERVER中的TOP关键字却是一个非常明智的选择。因为分页优化的最终目的就是避免产生过大的记录集,而我们在前面也已经提到了TOP的优势,通过TOP 即可实现对数据量的控制。
在分页算法中,影响我们查询速度的关键因素有两点:TOP和NOT IN。TOP可以提高我们的查询速度,而NOT IN会减慢我们的查询速度,所以要提高我们整个分页算法的速度,就要彻底改造NOT IN,同其他方法来替代它。
我们知道,几乎任何字段,我们都可以通过max(字段)或min(字段)来提取某个字段中的最大或最小值,所以如果这个字段不重复,那么就可以利用这些不重复的字段的max或min作为分水岭,使其成为分页算法中分开每页的参照物。在这里,我们可以用操作符“>”或“<”号来完成这个使命,使查询语句符合SARG形式。如:
Select top 10 * from table1 where id>200
于是就有了如下分页方案:
select top 页大小 *
from table1
where id>
(select max (id) from
(select top ((页码-1)*页大小) id from table1 order by id) as T
)
order by id
在选择即不重复值,又容易分辨大小的列时,我们通常会选择主键。下表列出了笔者用有着1000万数据的办公自动化系统中的表,在以GID(GID是主键,但并不是聚集索引。)为排序列、提取gid,fariqi,title字段,分别以第1、10、100、500、1000、1万、10万、25万、50万页为例,测试以上三种分页方案的执行速度:(单位:毫秒)
页 码
方案1
方案2
方案3
1
60
30
76
10
46
16
63
100
1076
720
130
500
540
12943
83
1000
17110
470
250
1万
24796
4500
140
10万
38326
42283
1553
25万
28140
128720
2330
50万
121686
127846
7168
从上表中,我们可以看出,三种存储过程在执行100页以下的分页命令时,都是可以信任的,速度都很好。但第一种方案在执行分页1000页以上后,速度就降了下来。第二种方案大约是在执行分页1万页以上后速度开始降了下来。而第三种方案却始终没有大的降势,后劲仍然很足。
在确定了第三种分页方案后,我们可以据此写一个存储过程。大家知道SQL SERVER的存储过程是事先编译好的SQL语句,它的执行效率要比通过WEB页面传来的SQL语句的执行效率要高。下面的存储过程不仅含有分页方案,还会根据页面传来的参数来确定是否进行数据总数统计。
-- 获取指定页的数据
CREATE PROCEDURE pagination3
@tblName varchar(255), -- 表名
@strGetFields varchar(1000) = '*', -- 需要返回的列
@fldName varchar(255)='', -- 排序的字段名
@PageSize int = 10, -- 页尺寸
@PageIndex int = 1, -- 页码
@doCount bit = 0, -- 返回记录总数, 非 0 值则返回
@OrderType bit = 0, -- 设置排序类型, 非 0 值则降序
@strWhere varchar(1500) = '' -- 查询条件 (注意: 不要加 where)
AS
declare @strSQL varchar(5000) -- 主语句
declare @strTmp varchar(110) -- 临时变量
declare @strOrder varchar(400) -- 排序类型
if @doCount != 0
begin
if @strWhere !=''
set @strSQL = "select count(*) as Total from [" + @tblName + "] where "+@strWhere
else
set @strSQL = "select count(*) as Total from [" + @tblName + "]"
end
--以上代码的意思是如果@doCount传递过来的不是0,就执行总数统计。以下的所有代码都是@doCount为0的情况
else
begin
if @OrderType != 0
begin
set @strTmp = "<(select min"
set @strOrder = " order by [" + @fldName +"] desc"
--如果@OrderType不是0,就执行降序,这句很重要!
end
else
begin
set @strTmp = ">(select max"
set @strOrder = " order by [" + @fldName +"] asc"
end
if @PageIndex = 1
begin
if @strWhere != ''
set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from [" + @tblName + "] where " + @strWhere + " " + @strOrder
else
set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["+ @tblName + "] "+ @strOrder
--如果是第一页就执行以上代码,这样会加快执行速度
end
else
begin
--以下代码赋予了@strSQL以真正执行的SQL代码
set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["
+ @tblName + "] where [" + @fldName + "]" + @strTmp + "(["+ @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["+ @fldName + "] from [" + @tblName + "]" + @strOrder + ") as tblTmp)"+ @strOrder
if @strWhere != ''
set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["
+ @tblName + "] where [" + @fldName + "]" + @strTmp + "(["
+ @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["
+ @fldName + "] from [" + @tblName + "] where " + @strWhere + " "
+ @strOrder + ") as tblTmp) and " + @strWhere + " " + @strOrder
end
end
exec (@strSQL)
GO
上面的这个存储过程是一个通用的存储过程,其注释已写在其中了。
在大数据量的情况下,特别是在查询最后几页的时候,查询时间一般不会超过9秒;而用其他存储过程,在实践中就会导致超时,所以这个存储过程非常适用于大容量数据库的查询。
笔者希望能够通过对以上存储过程的解析,能给大家带来一定的启示,并给工作带来一定的效率提升,同时希望同行提出更优秀的实时数据分页算法。
四、聚集索引的重要性和如何选择聚集索引
在上一节的标题中,笔者写的是:实现小数据量和海量数据的通用分页显示存储过程。这是因为在将本存储过程应用于“办公自动化”系统的实践中时,笔者发现这第三种存储过程在小数据量的情况下,有如下现象:
1、分页速度一般维持在1秒和3秒之间。
2、在查询最后一页时,速度一般为5秒至8秒,哪怕分页总数只有3页或30万页。
虽然在超大容量情况下,这个分页的实现过程是很快的,但在分前几页时,这个1-3秒的速度比起第一种甚至没有经过优化的分页方法速度还要慢,借用户的话说就是“还没有ACCESS数据库速度快”,这个认识足以导致用户放弃使用您开发的系统。
笔者就此分析了一下,原来产生这种现象的症结是如此的简单,但又如此的重要:排序的字段不是聚集索引!
本篇文章的题目是:“查询优化及分页算法方案”。笔者只所以把“查询优化”和“分页算法”这两个联系不是很大的论题放在一起,就是因为二者都需要一个非常重要的东西――聚集索引。
在前面的讨论中我们已经提到了,聚集索引有两个最大的优势:
1、以最快的速度缩小查询范围。
2、以最快的速度进行字段排序。
第1条多用在查询优化时,而第2条多用在进行分页时的数据排序。
而聚集索引在每个表内又只能建立一个,这使得聚集索引显得更加的重要。聚集索引的挑选可以说是实现“查询优化”和“高效分页”的最关键因素。
但要既使聚集索引列既符合查询列的需要,又符合排序列的需要,这通常是一个矛盾。
笔者前面“索引”的讨论中,将fariqi,即用户发文日期作为了聚集索引的起始列,日期的精确度为“日”。这种作法的优点,前面已经提到了,在进行划时间段的快速查询中,比用ID主键列有很大的优势。
但在分页时,由于这个聚集索引列存在着重复记录,所以无法使用max或min来最为分页的参照物,进而无法实现更为高效的排序。而如果将ID主键列作为聚集索引,那么聚集索引除了用以排序之外,没有任何用处,实际上是浪费了聚集索引这个宝贵的资源。
为解决这个矛盾,笔者后来又添加了一个日期列,其默认值为getdate()。用户在写入记录时,这个列自动写入当时的时间,时间精确到毫秒。即使这样,为了避免可能性很小的重合,还要在此列上创建UNIQUE约束。将此日期列作为聚集索引列。
有了这个时间型聚集索引列之后,用户就既可以用这个列查找用户在插入数据时的某个时间段的查询,又可以作为唯一列来实现max或min,成为分页算法的参照物。
经过这样的优化,笔者发现,无论是大数据量的情况下还是小数据量的情况下,分页速度一般都是几十毫秒,甚至0毫秒。而用日期段缩小范围的查询速度比原来也没有任何迟钝。
聚集索引是如此的重要和珍贵,所以笔者总结了一下,一定要将聚集索引建立在:
1、您最频繁使用的、用以缩小查询范围的字段上;
2、您最频繁使用的、需要排序的字段上。
结束语:
本篇文章汇集了笔者近段在使用数据库方面的心得,是在做“办公自动化”系统时实践经验的积累。希望这篇文章不仅能够给大家的工作带来一定的帮助,也希望能让大家能够体会到分析问题的方法;最重要的是,希望这篇文章能够抛砖引玉,掀起大家的学习和讨论的兴趣,以共同促进,共同为公安科技强警事业和金盾工程做出自己最大的努力。
最后需要说明的是,在试验中,我发现用户在进行大数据量查询的时候,对数据库速度影响最大的不是内存大小,而是CPU。在我的P4 2.4机器上试验的时候,查看“资源管理器”,CPU经常出现持续到100%的现象,而内存用量却并没有改变或者说没有大的改变。即使在我们的HP ML 350 G3服务器上试验时,CPU峰值也能达到90%,一般持续在70%左右。
本文的试验数据都是来自我们的HP ML 350服务器。服务器配置:双Inter Xeon 超线程 CPU 2.4G,内存1G,操作系统Windows Server 2003 Enterprise Edition,数据库SQL Server 2000 SP3。
参考文献:
[1]《SQL SERVER 7编程技术内幕》,(美)John Papa,Matthew Shepker著,机械工业出版社
[2]《SQL SERVER数据库原理 ——设计与实现》,微软亚洲研究院著,清华大学出版社
[3] http://community.csdn.net/Expert/topic/2987/2987172.xml?temp=9.089297E-02,邹建,CSDN论坛
[4]互联网
MSSQL - 应用案例 - Event Notification + Service Broker构建死锁自动收集系统
title: MSSQL - 应用案例 - Event Notification + Service Broker构建死锁自动收集系统
author: 风移
摘要
这篇文章介绍SQL Server的一个典型的应用案例,即如何利用Event Notification与Service Broker技术相结合来实现死锁信息自动收集系统。通过这个系统,我们可以全面把控SQL Server数据库环境中所有实例上发生的死锁详细信息,供我们后期分析和解决死锁场景。
死锁自动收集系统需求分析
当 SQL Server 中某组资源的两个或多个线程或进程之间存在循环的依赖关系时,但因互相申请被其他进程所占用,而不会释放的资源处于的一种永久等待状态,将会发生死锁。SQL Server服务自动死锁检查进程默认每5分钟跑一次,当死锁发生时,会选择一个代价较小的进程做为死锁牺牲品,以此来避免死锁导致更大范围的影响。被选择做为死锁牺牲品的进程会报告如下错误:
Msg 1205, Level 13, State 51, Line 8
Transaction (Process ID 54) was deadlocked on lock resources with another process and has been chosen as the deadlock victim. Rerun the transaction.
如果进程间发生了死锁,对于用户业务系统,乃至整个SQL Server服务健康状况影响很大,轻者系统反应缓慢,服务假死;重者服务挂起,拒绝请求。那么,我们有没有一种方法可以完全自动、无人工干预的方式异步收集SQL Server系统死锁信息并远程保留死锁相关信息呢?这些信息包括但不仅限于:死锁发生在哪些进程之间各个进程执行的语句块是什么?死锁时,各个进程在执行哪条语句?死锁的资源是什么?死锁发生在哪个数据库?哪张表?哪个数据页?哪个索引上?死锁发生的具体时间点,包含语句块开始时间、语句执行时间等用户进程使用的登录用户是什么?客户端驱动是什么?......如此的无人值守的自动死锁收集系统,就是我们今天要介绍的应用案例分享:利用SQL Server的Event Notification与Service Broker建立自动死锁信息收集系统。
Service Broker和Event Notification简介
在死锁自动收集系统介绍开始之前,先简要介绍下SQL Server Service Broker和Event Notification技术。
Service Broker简介
Service Broker是微软至SQL Server 2005开始集成到数据库引擎中的消息通讯组件,为 SQL Server提供队列和可靠的消息传递的能力,可以用来构建基于异步消息通讯为基础的应用程序。Service Broker既可用于单个 SQL Server 实例的应用程序,也可用于在多个实例间进行消息分发工作的应用程序。Service Broker使用TCP/IP端口在实例间交换消息,所包含的功能有助于防止未经授权的网络访问,并可以对通过网络发送的消息进行加密,以此来保证数据安全性。多实例之间使用Service Broker进行异步消息通讯的结构图如下所示(图片来自微软的官方文档):
Event Notification简介
Event Notification的中文名称叫事件通知,执行事件通知可对各种Transact-SQL数据定义语言(DDL)语句和SQL跟踪事件做出响应,采取的响应方式是将这些事件的相关信息发送到 Service Broker 服务。事件通知可以用来执行以下操作:记录和检索发生在数据库上的更改或活动。执行操作以异步方式而不是同步方式响应事件。可以将事件通知用作替代DDL 触发器和SQL跟踪的编程方法。事件通知的信息媒介是以xml数据类型的信息传递给Service Broker服务,它提供了有关事件的发生时间、受影响的数据库对象、涉及的 Transact-SQL 批处理语句等详细信息。对于SQL Server死锁而言,可以使用Event Notification来跟踪死锁事件,来获取DEADLOCK_GRAPH XML信息,然后通过异步消息组件Service Broker发送到远端的Deadlock Center上的Service Broker队列,完成死锁信息收集到死锁中央服务。
死锁收集系统架构图
在介绍完Service Broker和Event Notification以后,我们来看看死锁手机系统的整体架构图。在这个系统中,存在两种类型角色:我们定义为死锁客户端(Deadlock Client)和死锁中央服务(Deadlock Center)。死锁客户端发生死锁后,首先会将Deadlock Graph XML通过Service Broker发送给死锁中央服务,死锁中央服务获取到Service Broker消息以后,解析这个XML就可以拿到客户端的死锁相关信息,最后存放到本地日志表中,供终端客户查询和分析使用。最终的死锁收集系统架构图如下所示:
详细的死锁信息收集过程介绍如下:死锁客户端通过本地SQL Server的Event Notification捕获发生在该实例上的Deadlock事件,并在死锁发生以后将Deadlock Graph XML数据存放到Event Notification绑定的队列中,然后通过绑定在该队列上的存储过程自动触发将Deadlock Graph XML通过Service Broker异步消息通讯的方式发送到死锁中央服务。中央服务在接收到Service Broker消息以后,首先放入Deadlock Center Service Broker队列中,该队列绑定了消息自动处理存储过程,用来解析Deadlock Graph XML信息,并将死锁相关的详细信息存入到Deadlock Center的Log Table中。最后,终端用户可以直接对Log Table来查询和分析所有Deadlock Client上发生的死锁信息。通过这系列的过程,最终达到了死锁信息的自动远程存储、收集,以提供后期死锁场景还原和复盘,达到死锁信息可追溯,及时监控,及时发现的目的。
Service Broker配置
系统架构设计完毕后,接下来是系统的配置和搭建过程,首先看看Service Broker的配置。这个配置还是相对比较繁琐的,包含了以下步骤:创建Service Broker数据库(假设数据库名为DDLCenter)并开启Service Broker选项创建Service Broker队列的激活存储过程和相关表对象创建Master数据库下的Master Key创建传输层本地和远程证书创建基于证书的用户登录创建Service Broker端口并授权用户连接创建DDLCenter数据库下的Master Key创建会话层本地及远程证书创建Service Broker组件所需要的对象,包括:Message Type、Contact、Queue、Service、Remote Service Binding、Route
Deadlock Client Server
以下的配置请在Deadlock Client SQL Server实例上操作。创建DDLCenter数据库并开启Service Broker选项
-- Run script on client server to gather deadlock graph xml
USE master
GO
-- Create Database
IF DB_ID('DDLCenter') IS NULL
CREATE DATABASE [DDLCenter];
GO
-- Change datbase to simple recovery model
ALTER DATABASE [DDLCenter] SET RECOVERY SIMPLE WITH NO_WAIT
GO
-- Enable Service Broker
ALTER DATABASE [DDLCenter] SET ENABLE_BROKER,TRUSTWORTHY ON
GO
-- Change database Owner to sa
ALTER AUTHORIZATION ON DATABASE::DDLCenter TO [sa]
GO
三个表和两个存储过程表[DDLCollector].[Deadlock_Traced_Records]:从Event Notification队里接收的消息会记录到该表中。表[DDLCollector].[Send_Records]:Deadlock Client成功发送Service Broker消息记录表[DDLCollector].[Error_Records]:记录发生异常情况时的信息。存储过程[DDLCollector].[UP_ProcessDeadlockEventMsg]:Deadlock Client绑定到队里的激活存储过程,一旦队列中有消息进入,这个存储过程会被自动调用。存储过程[DDLCollector].[UP_SendDeadlockMsg]:Deadlock Client发送异步消息给Deadlock Center,这个存储过程会被上面的激活存储过程调用。
-- Run on Client Instance
USE [DDLCenter]
GO
-- Create Schema
IF NOT EXISTS(
SELECT TOP 1 *
FROM sys.schemas
WHERE name = 'DDLCollector'
)
BEGIN
EXEC('CREATE SCHEMA DDLCollector');
END
GO
-- Create table to log Traced Deadlock Records
IF OBJECT_ID('DDLCollector.Deadlock_Traced_Records', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Deadlock_Traced_Records]
GO
CREATE TABLE [DDLCollector].[Deadlock_Traced_Records](
[RowId] [BIGINT] IDENTITY(1,1) NOT NULL,
[Processed_Msg] [xml] NULL,
[Processed_Msg_CheckSum] INT,
[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Deadlock_Traced_Records_Record_Time DEFAULT(GETDATE()),
CONSTRAINT PK_Deadlock_Traced_Records_RowId PRIMARY KEY
(RowId ASC)
) ON [PRIMARY]
GO
-- Create table to record deadlock graph xml sent successfully log
IF OBJECT_ID('DDLCollector.Send_Records', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Send_Records]
GO
CREATE TABLE [DDLCollector].[Send_Records](
[RowId] [BIGINT] IDENTITY(1,1) NOT NULL,
[Send_Msg] [xml] NULL,
[Send_Msg_CheckSum] INT,
[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Send_Records_Record_Time DEFAULT(GETDATE()),
CONSTRAINT PK_Send_Records_RowId PRIMARY KEY
(RowId ASC)
) ON [PRIMARY]
GO
-- Create table to record error info when exception occurs
IF OBJECT_ID('DDLCollector.Error_Records', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Error_Records]
GO
CREATE TABLE [DDLCollector].[Error_Records](
[RowId] [int] IDENTITY(1,1) NOT NULL,
[Msg_Body] [xml] NULL,
[Conversation_handle] [uniqueidentifier] NULL,
[Message_Type] SYSNAME NULL,
[Service_Name] SYSNAME NULL,
[Contact_Name] SYSNAME NULL,
[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Error_Records_Record_Time DEFAULT(GETDATE()),
[Error_Details] [nvarchar](4000) NULL,
CONSTRAINT PK_Error_Records_RowId PRIMARY KEY
(RowId ASC)
) ON [PRIMARY]
GO
USE [DDLCenter]
GO
-- Create Store Procedure to Send Deadlock Graph xml to Center Server
IF OBJECT_ID('DDLCollector.UP_SendDeadlockMsg', 'P') IS NOT NULL
DROP PROC [DDLCollector].[UP_SendDeadlockMsg]
GO
CREATE PROCEDURE [DDLCollector].[UP_SendDeadlockMsg](
@DeadlockMsg XML
)
AS
BEGIN
SET NOCOUNT ON;
DECLARE
@handle UNIQUEIDENTIFIER
,@Proc_Name SYSNAME
,@Error_Details VARCHAR(2000)
;
-- get the store procedure name
SELECT
@Proc_Name = ISNULL(QUOTENAME(SCHEMA_NAME(SCHEMA_ID))
+ '.'
+ QUOTENAME(OBJECT_NAME(@@PROCID)),'')
FROM sys.procedures
WHERE OBJECT_ID = @@PROCID
;
BEGIN TRY
-- Begin Dialog
BEGIN DIALOG CONVERSATION @handle
FROM SERVICE [http://soa/deadlock/service/ClientService]
TO Service 'http://soa/deadlock/service/CenterService'
ON CONTRACT [http://soa/deadlock/contract/CheckContract]
;
-- Send deadlock graph xml as the message to Center Server
SEND ON CONVERSATION @handle
MESSAGE TYPE [http://soa/deadlock/MsgType/Request](@DeadlockMsg);
-- Log it successfully
INSERT INTO [DDLCollector].[Send_Records]([Send_Msg], [Send_Msg_CheckSum])
VALUES( @DeadlockMsg, CHECKSUM(CAST(@DeadlockMsg as NVARCHAR(MAX))))
END TRY
BEGIN CATCH
-- Record the error info when exception occurs
SET @Error_Details=
' Error Number: ' + CAST(ERROR_NUMBER() AS VARCHAR(10)) +
' Error Message : ' + ERROR_MESSAGE() +
' Error Severity: ' + CAST(ERROR_SEVERITY() AS VARCHAR(10)) +
' Error State: ' + CAST(ERROR_STATE() AS VARCHAR(10)) +
' Error Line: ' + CAST(ERROR_LINE() AS VARCHAR(10)) +
' Exception Proc: ' + @Proc_Name
;
-- record into table
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@DeadlockMsg, @handle, 'http://soa/deadlock/MsgType/Request', 'http://soa/deadlock/service/ClientService', 'http://soa/deadlock/contract/CheckContract', @Error_Details);
END CATCH
END
GO
-- Create Store Procedure for Queue: when extend event notification queue message
-- this store procedure will be called.
IF OBJECT_ID('DDLCollector.UP_ProcessDeadlockEventMsg', 'P') IS NOT NULL
DROP PROC [DDLCollector].[UP_ProcessDeadlockEventMsg]
GO
CREATE PROCEDURE [DDLCollector].[UP_ProcessDeadlockEventMsg]
AS
/*
SELECT * FROM [DDLCollector].[Deadlock_Traced_Records]
SELECT * FROM [DDLCollector].[Send_Records]
SELECT * FROM [DDLCollector].[Error_Records]
*/
BEGIN
SET NOCOUNT ON;
DECLARE
@handle UNIQUEIDENTIFIER
, @Message_Type SYSNAME
, @Service_Name SYSNAME
, @Contact_Name SYSNAME
, @Error_Details VARCHAR(2000)
, @Message_Body XML
, @Proc_Name SYSNAME
;
-- Store Procedure Name
SELECT
@Proc_Name = ISNULL(QUOTENAME(SCHEMA_NAME(SCHEMA_ID))
+ '.'
+ QUOTENAME(OBJECT_NAME(@@PROCID)),'')
FROM sys.procedures
WHERE OBJECT_ID = @@PROCID
;
BEGIN TRY
-- Receive message from queue
WAITFOR(RECEIVE TOP(1)
@handle = conversation_handle
, @Message_Type = message_type_name
, @Service_Name = service_name
, @Contact_Name = service_contract_name
, @Message_Body = message_body
FROM dbo.[http://soa/deadlock/queue/ClientQueue]),Timeout 500
;
-- just return if there is no message needed to process
IF(@@Rowcount=0)
BEGIN
RETURN
END
-- Get data from message queue
ELSE IF @Message_Type = 'http://schemas.microsoft.com/SQL/Notifications/EventNotification'
BEGIN
-- Record message log first
INSERT INTO [DDLCollector].[Deadlock_Traced_Records](Processed_Msg, [Processed_Msg_CheckSum])
VALUES(@Message_Body, CHECKSUM(CAST(@Message_Body as NVARCHAR(MAX))))
-- BE NOTED HERE: PLEASE DO'T END CONVERSATION, OR ELSE EXCEPTION WILL BE THROWN OUTPUT
/*
Error: 17001, Severity: 16, State: 1.
Failure to send an event notification instance of type 'DEADLOCK_GRAPH' on conversation handle '{67419386-7C34-E711-A709-001C42099969}'. Error Code = '8429'.
Error: 17005, Severity: 16, State: 1.
Event notification 'DeadLockNotificationEvent' in database 'master' dropped due to send time service broker errors. Check to ensure the conversation handle, service broker contract, and service specified in the event notification are active.
*/
--END CONVERSATION @handle
--Here call another Store Procedure to send deadlock graph info to center server
EXEC [DDLCollector].[UP_SendDeadlockMsg] @Message_Body;
END
--End Diaglog Message Type, that means we should end this conversation
ELSE IF @Message_Type = N'http://schemas.microsoft.com/SQL/ServiceBroker/EndDialog'
BEGIN
END CONVERSATION @handle;
END
-- Konwn Service Broker Errors by System.
ELSE IF @Message_Type = N'http://schemas.microsoft.com/SQL/ServiceBroker/Error'
BEGIN
END CONVERSATION @handle
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, ' Exception Store Procedure: ' + @Proc_Name);
END
ELSE
-- unknown Message Types.
BEGIN
END CONVERSATION @handle
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, ' Received unexpected message type when executing Store Procedure: ' + @Proc_Name);
-- unexpected message type
RAISERROR (N' Received unknown message type: %s', 16, 1, @Message_Type) WITH LOG;
END
END TRY
BEGIN CATCH
BEGIN
SET @Error_Details=
' Error Number: ' + CAST(ERROR_NUMBER() AS VARCHAR(10)) +
' Error Details : ' + ERROR_MESSAGE() +
' Error Severity: ' + CAST(ERROR_SEVERITY() AS VARCHAR(10)) +
' Error State: ' + CAST(ERROR_STATE() AS VARCHAR(10)) +
' Error Line: ' + CAST(ERROR_LINE() AS VARCHAR(10)) +
' Exception Proc: ' + @Proc_Name
;
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, @Error_Details);
END
END CATCH
END
GO
创建Master库下Master Key
USE master
GO
-- If the master key is not available, create it.
IF NOT EXISTS (SELECT *
FROM sys.symmetric_keys
WHERE name LIKE '%MS_DatabaseMasterKey%')
BEGIN
CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'ClientMasterKey*';
END
GO
创建传输层本地证书并备份到本地文件系统这里请注意证书的开始生效时间要略微早于当前时间,并设置合适的证书过期日期,我这里是设置的过期日期为9999年12月30号。
USE master
GO
-- Crete Transport Layer Certification
CREATE CERTIFICATE TrpCert_ClientLocal
AUTHORIZATION dbo
WITH SUBJECT = 'TrpCert_ClientLocal',
START_DATE = '05/07/2017',
EXPIRY_DATE = '12/30/9999'
GO
-- then backup it up to local path
-- and after that copy it to Center server
BACKUP CERTIFICATE TrpCert_ClientLocal
TO FILE = 'C:\Temp\TrpCert_ClientLocal.cer';
GO
创建传输层远程证书这里的证书是通过证书文件来创建的,这个证书文件来自于远程通讯的另一端Deadlock Center SQL Server的证书文件的一份拷贝。
USE master
GO
-- Create certification came from Center Server.
CREATE CERTIFICATE TrpCert_RemoteCenter
FROM FILE = 'C:\Temp\TrpCert_RemoteCenter.cer'
GO
创建基于证书文件的用户登录这里也可以创建带密码的常规用户登录,但是为了规避安全风险,这里最好创建基于证书文件的用户登录。
USE master
GO
-- Create user login
IF NOT EXISTS(SELECT *
FROM sys.syslogins
WHERE name='SSBDbo')
BEGIN
CREATE LOGIN SSBDbo FROM CERTIFICATE TrpCert_ClientLocal;
END
GO
创建Service Broker TCP/IP通讯端口并授权用户连接权限这里需要注意的是,端口授权的证书一定本地实例创建的证书,而不是来自于远程服务器的那个证书。比如代码中的AUTHENTICATION = CERTIFICATE TrpCert_ClientLocal部分。
USE master
GO
--Creaet Tcp endpoint for SSB comunication and grant connect to users.
CREATE ENDPOINT EP_SSB_ClientLocal
STATE = STARTED
AS TCP
(
LISTENER_PORT = 4022
)
FOR SERVICE_BROKER (AUTHENTICATION = CERTIFICATE TrpCert_ClientLocal, ENCRYPTION = REQUIRED
)
GO
-- Grant Connect on Endpoint to User SSBDbo
GRANT CONNECT ON ENDPOINT::EP_SSB_ClientLocal TO SSBDbo
GO
创建DDLCenter数据库Master Key
-- Now, let's go inside to conversation database
USE DDLCenter
GO
-- Create Master Key
IF NOT EXISTS (SELECT *
FROM sys.symmetric_keys
WHERE name LIKE '%MS_DatabaseMasterKey%')
BEGIN
CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'DDLCenterMasterKey*';
END
GO
创建会话层本地证书
USE DDLCenter
GO
-- Create conversation layer certification
CREATE CERTIFICATE DlgCert_ClientLocal
AUTHORIZATION dbo
WITH SUBJECT = 'DlgCert_ClientLocal',
START_DATE = '05/07/2017',
EXPIRY_DATE = '12/30/9999'
GO
-- backup it up to local path
-- and then copy it to remote Center server
BACKUP CERTIFICATE DlgCert_ClientLocal
TO FILE = 'C:\Temp\DlgCert_ClientLocal.cer';
GO
创建DDLCenter用户,不需要和任何用户登录匹配
USE DDLCenter
GO
-- Create User for login under conversation database
IF NOT EXISTS(
SELECT TOP 1 *
FROM sys.database_principals
WHERE name = 'SSBDbo'
)
BEGIN
CREATE USER SSBDbo WITHOUT LOGIN;
END
GO
创建会话层远程证书,这个证书文件来自Deadlock Center SQL Server备份
USE DDLCenter
GO
-- Create converstaion layer certification came from remote Center server.
CREATE CERTIFICATE DlgCert_RemoteCenter
AUTHORIZATION SSBDbo
FROM FILE='C:\Temp\DlgCert_RemoteCenter.cer'
GO
GRANT CONNECT TO SSBDbo;
创建Service Broker组件对象Deadlock Client与Deadlock Center在创建Service Broker组件对象时存在差异:第一个差异是创建Service的时候,需要包含Event Notification的Contract,名称为http://schemas.microsoft.com/SQL/Notifications/PostEventNotification;第二个差异是需要多创建一个指向本地服务的路由http://soa/deadlock/route/LocalRoute。
USE DDLCenter
GO
-- Create Message Type
CREATE MESSAGE TYPE [http://soa/deadlock/MsgType/Request]
VALIDATION = WELL_FORMED_XML;
CREATE MESSAGE TYPE [http://soa/deadlock/MsgType/Response]
VALIDATION = WELL_FORMED_XML;
GO
-- Create Contact
CREATE CONTRACT [http://soa/deadlock/contract/CheckContract](
[http://soa/deadlock/MsgType/Request] SENT BY INITIATOR,
[http://soa/deadlock/MsgType/Response] SENT BY TARGET
);
GO
-- Create Queue
CREATE QUEUE dbo.[http://soa/deadlock/queue/ClientQueue]
WITH STATUS = ON, RETENTION = OFF
, ACTIVATION (STATUS = ON ,
PROCEDURE_NAME = [DDLCollector].[UP_ProcessDeadlockEventMsg] ,
MAX_QUEUE_READERS = 2 ,
EXECUTE AS N'dbo')
GO
-- Create Service
-- Here is very import, we have to create service for both contacts
-- to get extend event notification and SSB work.
CREATE SERVICE [http://soa/deadlock/service/ClientService]
ON QUEUE [http://soa/deadlock/queue/ClientQueue]
(
[http://soa/deadlock/contract/CheckContract],
[http://schemas.microsoft.com/SQL/Notifications/PostEventNotification]
);
GO
-- Grant Send on service
GRANT SEND ON SERVICE::[http://soa/deadlock/service/ClientService] to SSBDbo;
GO
-- Create Remote Service Bingding
CREATE REMOTE SERVICE BINDING [http://soa/deadlock/RSB/CenterRSB]
TO SERVICE 'http://soa/deadlock/service/CenterService'
WITH USER = [SSBDbo],
ANONYMOUS=Off
GO
-- Create Route
CREATE ROUTE [http://soa/deadlock/route/CenterRoute]
WITH SERVICE_NAME = 'http://soa/deadlock/service/CenterService',
ADDRESS = 'TCP://10.211.55.3:4024';
GO
-- Create route for the DeadlockNotificationSvc
CREATE ROUTE [http://soa/deadlock/route/LocalRoute]
WITH SERVICE_NAME = 'http://soa/deadlock/service/ClientService',
ADDRESS = 'LOCAL';
GO
Deadlock Center Server
创建DDLCenter数据库并开启Service Broker选项
-- Run script on center server to receive client deadlock xml
USE master
GO
-- Create Database
IF DB_ID('DDLCenter') IS NULL
CREATE DATABASE [DDLCenter];
GO
-- Change datbase to simple recovery model
ALTER DATABASE [DDLCenter] SET RECOVERY SIMPLE WITH NO_WAIT
GO
-- Enable Service Broker
ALTER DATABASE [DDLCenter] SET ENABLE_BROKER,TRUSTWORTHY ON
GO
-- Change database Owner to sa
ALTER AUTHORIZATION ON DATABASE::DDLCenter TO [sa]
GO
三张表和两个存储过程表[DDLCollector].[Collect_Records]:Deadlock Center成功接收到的Service Broker消息。表[DDLCollector].[Error_Records]:记录发生异常情况的详细信息。表[DDLCollector].[Deadlock_Info]:记录所有Deadlock Client端发生的Deadlock详细信息。存储过程[DDLCollector].[UP_ProcessDeadlockGraphEventMsg]:Deadlock Center上绑定到队列的激活存储过程,一旦队列中有消息进入,这个存储过程会被自动调用。存储过程[DDLCollector].[UP_ParseDeadlockGraphEventMsg]:Deadlock Center上解析Deadlock Graph XML的存储过程对象,这个存储过程会被上面的激活存储过程调用来解析XML,然后放入表[DDLCollector].[Deadlock_Info]中。
USE [DDLCenter]
GO
-- Create Schema
IF NOT EXISTS(
SELECT TOP 1 *
FROM sys.schemas
WHERE name = 'DDLCollector'
)
BEGIN
EXEC('CREATE SCHEMA DDLCollector');
END
GO
-- Create table to log the received message
IF OBJECT_ID('DDLCollector.Collect_Records', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Collect_Records]
GO
CREATE TABLE [DDLCollector].[Collect_Records](
[RowId] [BIGINT] IDENTITY(1,1) NOT NULL,
[Deadlock_Graph_Msg] [xml] NULL,
[Deadlock_Graph_Msg_CheckSum] INT,
[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Collect_Records_Record_Time DEFAULT(GETDATE()),
CONSTRAINT PK_Collect_Records_RowId PRIMARY KEY
(RowId ASC)
) ON [PRIMARY]
GO
-- create table to record the exception when error occurs
IF OBJECT_ID('DDLCollector.Error_Records', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Error_Records]
GO
CREATE TABLE [DDLCollector].[Error_Records](
[RowId] [int] IDENTITY(1,1) NOT NULL,
[Msg_Body] [xml] NULL,
[Conversation_handle] [uniqueidentifier] NULL,
[Message_Type] SYSNAME NULL,
[Service_Name] SYSNAME NULL,
[Contact_Name] SYSNAME NULL,
[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Error_Records_Record_Time DEFAULT(GETDATE()),
[Error_Details] [nvarchar](4000) NULL,
CONSTRAINT PK_Error_Records_RowId PRIMARY KEY
(RowId ASC)
) ON [PRIMARY]
GO
-- create business table to record deadlock analysised info
IF OBJECT_ID('DDLCollector.Deadlock_Info', 'U') IS NOT NULL
DROP TABLE [DDLCollector].[Deadlock_Info]
GO
CREATE TABLE [DDLCollector].[Deadlock_Info](
RowId INT IDENTITY(1,1) NOT NULL
,SQLInstance sysname NULL
,SPid INT NULL
,is_Vitim BIT NULL
,DeadlockGraph XML NULL
,DeadlockGraphCheckSum INT NULL
,lasttranstarted DATETIME NULL
,lastbatchstarted DATETIME NULL
,lastbatchcompleted DATETIME NULL
,procname SYSNAME NULL
,Code NVARCHAR(max) NULL
,LockMode sysname NULL
,Indexname sysname NULL
,KeylockObject sysname NULL
,IndexLockMode sysname NULL
,Inputbuf NVARCHAR(max) NULL
,LoginName sysname NULL
,Clientapp sysname NULL
,Action varchar(1000) NULL
,status varchar(10) NULL
,[Record_Time] [datetime] NOT NULL
CONSTRAINT DF_Deadlock_Info_Record_Time DEFAULT(GETDATE()),
CONSTRAINT PK_Deadlock_Info_RowId PRIMARY KEY
(RowId ASC)
)
GO
USE [DDLCenter]
GO
-- Create store procedure to analysis deadlock graph xml
-- and log into business table
IF OBJECT_ID('DDLCollector.UP_ParseDeadlockGraphEventMsg', 'P') IS NOT NULL
DROP PROC [DDLCollector].[UP_ParseDeadlockGraphEventMsg]
GO
CREATE PROCEDURE [DDLCollector].[UP_ParseDeadlockGraphEventMsg](
@DeadlockGraph_Msg XML
)
AS
BEGIN
SET NOCOUNT ON;
;WITH deadlock
AS
(
SELECT
OwnerID = T.C.value('@id', 'varchar(50)')
,SPid = T.C.value('(./@spid)[1]','int')
,status = T.C.value('(./@status)[1]','varchar(10)')
,Victim = case
when T.C.value('@id', 'varchar(50)') = T.C.value('./../../@victim','varchar(50)') then 1
else 0 end
,LockMode = T.C.value('@lockMode', 'sysname')
,Inputbuf = T.C.value('(./inputbuf/text())[1]','nvarchar(max)')
,Code = T.C.value('(./executionStack/frame/text())[1]','nvarchar(max)')
,SPName = T.C.value('(./executionStack/frame/@procname)[1]','sysname')
,Hostname = T.C.value('(./@hostname)[1]','sysname')
,Clientapp = T.C.value('(./@clientapp)[1]','varchar(1000)')
,lasttranstarted = T.C.value('(./@lasttranstarted)[1]','datetime')
,lastbatchstarted = T.C.value('(./@lastbatchstarted)[1]','datetime')
,lastbatchcompleted = T.C.value('(./@lastbatchcompleted)[1]','datetime')
,LoginName = T.C.value('@loginname', 'sysname')
,Action = T.C.value('(./@transactionname)[1]','varchar(1000)')
FROM @DeadlockGraph_Msg.nodes('EVENT_INSTANCE/TextData/deadlock-list/deadlock/process-list/process') AS T(C)
)
,
keylock
AS
(
SELECT
OwnerID = T.C.value('./owner[1]/@id', 'varchar(50)')
,KeylockObject = T.C.value('./../@objectname', 'sysname')
,Indexname = T.C.value('./../@indexname', 'sysname')
,IndexLockMode = T.C.value('./../@mode', 'sysname')
FROM @DeadlockGraph_Msg.nodes('EVENT_INSTANCE/TextData/deadlock-list/deadlock/resource-list/keylock/owner-list') AS T(C)
)
SELECT
SQLInstance = A.Hostname
,A.SPid
,is_Vitim = A.Victim
,DeadlockGraph = @DeadlockGraph_Msg.query('EVENT_INSTANCE/TextData/deadlock-list')
,DeadlockGraphCheckSum = CHECKSUM(CAST(@DeadlockGraph_Msg AS NVARCHAR(MAX)))
,A.lasttranstarted
,A.lastbatchstarted
,A.lastbatchcompleted
,A.SPName
,A.Code
,A.LockMode
,B.Indexname
,B.KeylockObject
,B.IndexLockMode
,A.Inputbuf
,A.LoginName
,A.Clientapp
,A.Action
,status
,[Record_Time] = GETDATE()
FROM deadlock AS A
LEFT JOIN keylock AS B
ON A.OwnerID = B.OwnerID
ORDER BY A.SPid, A.Victim
;
END
GO
-- Create store Procedure for Center server service queue to process deadlock xml
-- when message sending from client server.
IF OBJECT_ID('DDLCollector.UP_ProcessDeadlockGraphEventMsg', 'P') IS NOT NULL
DROP PROC [DDLCollector].[UP_ProcessDeadlockGraphEventMsg]
GO
CREATE PROCEDURE [DDLCollector].[UP_ProcessDeadlockGraphEventMsg]
AS
/*
EXEC [DDLCollector].[UP_ProcessDeadlockGraphEventMsg]
SELECT * FROM [DDLCollector].[Collect_Records]
SELECT * FROM [DDLCollector].[Error_Records]
SELECT * FROM [DDLCollector].[Deadlock_Info]
*/
BEGIN
SET NOCOUNT ON;
DECLARE
@handle UNIQUEIDENTIFIER
, @Message_Type SYSNAME
, @Service_Name SYSNAME
, @Contact_Name SYSNAME
, @Error_Details VARCHAR(2000)
, @Message_Body XML
, @Proc_Name SYSNAME
;
-- Store Procedure name
SELECT
@Proc_Name = ISNULL(QUOTENAME(SCHEMA_NAME(SCHEMA_ID))
+ '.'
+ QUOTENAME(OBJECT_NAME(@@PROCID)),'')
FROM sys.procedures
WHERE OBJECT_ID = @@PROCID
;
BEGIN TRY
-- Receive deadlock message from service queue
WAITFOR(RECEIVE TOP(1)
@handle = conversation_handle
, @Message_Type = message_type_name
, @Service_Name = service_name
, @Contact_Name = service_contract_name
, @Message_Body = message_body
FROM dbo.[http://soa/deadlock/queue/CenterQueue]),Timeout 500
;
IF(@@Rowcount=0)
BEGIN
RETURN
END
-- Message type is the very correct one
ELSE IF @Message_Type = N'http://soa/deadlock/MsgType/Request'
BEGIN
-- Record message log first
INSERT INTO [DDLCollector].[Collect_Records](Deadlock_Graph_Msg, [Deadlock_Graph_Msg_CheckSum])
VALUES(@Message_Body, CHECKSUM(cast(@Message_Body as NVARCHAR(MAX))))
END CONVERSATION @handle
--Here call another Store Procedure to process our message to record deadlock relation info
INSERT INTO [DDLCollector].[Deadlock_Info]
EXEC [DDLCollector].[UP_ParseDeadlockGraphEventMsg] @Message_Body;
END
--End Diaglog Message Type, that means we should end this conversation
ELSE IF @Message_Type = N'http://schemas.microsoft.com/SQL/ServiceBroker/EndDialog'
BEGIN
END CONVERSATION @handle;
END
-- Konwn Service Broker Errors by System.
ELSE IF @Message_Type = N'http://schemas.microsoft.com/SQL/ServiceBroker/Error'
BEGIN
END CONVERSATION @handle
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, ' Exception Store Procedure: ' + @Proc_Name);
END
ELSE
-- unknown Message Types.
BEGIN
END CONVERSATION @handle
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, ' Received unexpected message type when executing Store Procedure: ' + @Proc_Name);
-- unexpected message type
RAISERROR (N' Received unexpected message type: %s', 16, 1, @Message_Type) WITH LOG;
END
END TRY
BEGIN CATCH
BEGIN
-- record exception record
SET @Error_Details=
' Error Number: ' + CAST(ERROR_NUMBER() AS VARCHAR(10)) +
' Error Message : ' + ERROR_MESSAGE() +
' Error Severity: ' + CAST(ERROR_SEVERITY() AS VARCHAR(10)) +
' Error State: ' + CAST(ERROR_STATE() AS VARCHAR(10)) +
' Error Line: ' + CAST(ERROR_LINE() AS VARCHAR(10)) +
' Exception Proc: ' + @Proc_Name
;
INSERT INTO [DDLCollector].[Error_Records]([Msg_Body], [Conversation_handle], [Message_Type], [Service_Name], [Contact_Name], [Error_Details])
VALUES(@Message_Body, @handle, @Message_Type, @Service_Name, @Contact_Name, @Error_Details);
END
END CATCH
END
GO
创建Master库下Master Key
USE master
GO
-- If the master key is not available, create it.
IF NOT EXISTS (SELECT *
FROM sys.symmetric_keys
WHERE name LIKE '%MS_DatabaseMasterKey%')
BEGIN
CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'CenterMasterKey*';
END
GO
创建传输层本地证书并备份到本地文件系统
USE master
GO
-- Crete Transport Layer Certification
CREATE CERTIFICATE TrpCert_RemoteCenter
AUTHORIZATION dbo
WITH SUBJECT = 'TrpCert_RemoteCenter',
START_DATE = '05/07/2017',
EXPIRY_DATE = '12/30/9999'
GO
-- then backup it up to local path
-- and after that copy it to Client server
BACKUP CERTIFICATE TrpCert_RemoteCenter
TO FILE = 'C:\Temp\TrpCert_RemoteCenter.cer';
GO
创建传输层远程证书,这个证书文件来至于Deadlock Client SQL Server
USE master
GO
-- Create certification came from client Server.
CREATE CERTIFICATE TrpCert_ClientLocal
FROM FILE = 'C:\Temp\TrpCert_ClientLocal.cer'
GO
创建基于证书文件的用户登录
USE master
GO
-- Create user login
IF NOT EXISTS(SELECT *
FROM sys.syslogins
WHERE name='SSBDbo')
BEGIN
CREATE LOGIN SSBDbo FROM CERTIFICATE TrpCert_RemoteCenter;
END
GO
创建Service Broker TCP/IP通讯端口并授权用户连接权限
USE master
GO
-- Creaet Tcp endpoint for SSB comunication and grant connect to users.
CREATE ENDPOINT EP_SSB_RemoteCenter
STATE = STARTED
AS TCP
(
LISTENER_PORT = 4024
)
FOR SERVICE_BROKER (AUTHENTICATION = CERTIFICATE TrpCert_RemoteCenter, ENCRYPTION = REQUIRED
)
GO
-- Grant Connect on Endpoint to User SSBDbo
GRANT CONNECT ON ENDPOINT::EP_SSB_RemoteCenter TO SSBDbo
GO
创建DDLCenter数据库Master Key
-- Now, let's go inside to conversation database
USE DDLCenter
GO
-- Create Master Key
IF NOT EXISTS (SELECT *
FROM sys.symmetric_keys
WHERE name LIKE '%MS_DatabaseMasterKey%')
BEGIN
CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'DDLCenterMasterKey*';
END
GO
创建会话层本地证书
USE DDLCenter
GO
-- Create conversation layer certification
CREATE CERTIFICATE DlgCert_RemoteCenter
AUTHORIZATION dbo
WITH SUBJECT = 'DlgCert_RemoteCenter',
START_DATE = '05/07/2017',
EXPIRY_DATE = '12/30/9999'
GO
-- backup it up to local path
-- and then copy it to remote client server
BACKUP CERTIFICATE DlgCert_RemoteCenter
TO FILE = 'C:\Temp\DlgCert_RemoteCenter.cer';
GO
创建DDLCenter用户,不需要和任何用户登录匹配
USE DDLCenter
GO
-- Create User for login under conversation database
IF NOT EXISTS(
SELECT TOP 1 *
FROM sys.database_principals
WHERE name = 'SSBDbo'
)
BEGIN
--CREATE USER SSBDbo FOR LOGIN SSBDbo;
CREATE USER SSBDbo WITHOUT LOGIN;
END
GO
创建会话层远程证书,这个证书文件来自Deadlock Center SQL Server备份
USE DDLCenter
GO
-- Create converstaion layer certification came from remote client server.
CREATE CERTIFICATE DlgCert_ClientLocal
AUTHORIZATION SSBDbo
FROM FILE='C:\Temp\DlgCert_ClientLocal.cer'
GO
GRANT CONNECT TO SSBDbo;
创建Service Broker组件对象
USE DDLCenter
GO
-- Create Message Type
CREATE MESSAGE TYPE [http://soa/deadlock/MsgType/Request]
VALIDATION = WELL_FORMED_XML;
CREATE MESSAGE TYPE [http://soa/deadlock/MsgType/Response]
VALIDATION = WELL_FORMED_XML;
GO
-- Create Contact
CREATE CONTRACT [http://soa/deadlock/contract/CheckContract](
[http://soa/deadlock/MsgType/Request] SENT BY INITIATOR,
[http://soa/deadlock/MsgType/Response] SENT BY TARGET
);
GO
-- Create Queue
CREATE QUEUE [dbo].[http://soa/deadlock/queue/CenterQueue]
WITH STATUS = ON , RETENTION = OFF
, ACTIVATION (STATUS = ON ,
PROCEDURE_NAME = [DDLCollector].[UP_ProcessDeadlockGraphEventMsg] ,
MAX_QUEUE_READERS = 3 ,
EXECUTE AS N'dbo')
GO
-- Create Service
CREATE SERVICE [http://soa/deadlock/service/CenterService]
ON QUEUE [http://soa/deadlock/queue/CenterQueue]
(
[http://soa/deadlock/contract/CheckContract]
);
GO
-- Grant Send on service to User SSBDbo
GRANT SEND ON SERVICE::[http://soa/deadlock/service/CenterService] to SSBDbo;
GO
-- Create Remote Service Bingding
CREATE REMOTE SERVICE BINDING [http://soa/deadlock/RSB/ClientRSB]
TO SERVICE 'http://soa/deadlock/service/ClientService'
WITH USER = SSBDbo,
ANONYMOUS=Off
GO
-- Create Route
CREATE ROUTE [http://soa/deadlock/route/ClientRoute]
WITH SERVICE_NAME = 'http://soa/deadlock/service/ClientService',
ADDRESS = 'TCP://10.211.55.3:4022';
GO
Event Notification配置
Event Notification只需要在Deadlock Client Server创建即可,因为只需要在Deadlock Client上跟踪死锁事件。在为Deadlock Client 配置Service Broker章节,我们已经为Event Notification创建了队列、服务和路由。因此,在这里我们只需要创建Event Notification对象即可。方法参见如下的代码:
USE DDLCenter
GO
-- Create Event Notification for the deadlock_graph event.
IF EXISTS(
SELECT * FROM sys.server_event_notifications
WHERE name = 'DeadLockNotificationEvent'
)
BEGIN
DROP EVENT NOTIFICATION DeadLockNotificationEvent
ON SERVER;
END
GO
CREATE EVENT NOTIFICATION DeadLockNotificationEvent
ON SERVER
WITH FAN_IN
FOR DEADLOCK_GRAPH
TO SERVICE
'http://soa/deadlock/service/ClientService',
'current database'
GO
模拟死锁
至此为止,所有对象和准备工作已经准备完成,万事俱备只欠东风,让我们在Deadlock Client实例上模拟死锁场景。首先,我们在Test数据库下创建两个测试表,表名分别为:dbo.test_deadlock1和dbo.test_deadlock2,代码如下:
IF DB_ID('Test') IS NULL
CREATE DATABASE Test;
GO
USE Test
GO
-- create two test tables
IF OBJECT_ID('dbo.test_deadlock1','u') IS NOT NULL
DROP TABLE dbo.test_deadlock1
GO
CREATE TABLE dbo.test_deadlock1(
id INT IDENTITY(1,1) not null PRIMARY KEY
,name VARCHAR(20) null
);
IF OBJECT_ID('dbo.test_deadlock2','u') IS NOT NULL
DROP TABLE dbo.test_deadlock2
GO
CREATE TABLE dbo.test_deadlock2(
id INT IDENTITY(1,1) not null PRIMARY KEY
,name VARCHAR(20) null
);
INSERT INTO dbo.test_deadlock1
SELECT 'AA'
UNION ALL
SELECT 'BB';
INSERT INTO dbo.test_deadlock2
SELECT 'AA'
UNION ALL
SELECT 'BB';
GO
接下来,我们使用SSMS打开一个新的连接,我们假设叫session 1,执行如下语句:
--session 1
USE Test
GO
BEGIN TRAN
UPDATE dbo.test_deadlock1
SET name = 'CC'
WHERE id = 1
;
WAITFOR DELAY '00:00:05'
UPDATE dbo.test_deadlock2
SET name = 'CC'
WHERE id = 1
;
ROLLBACK
紧接着,我们使用SSMS打开第二个连接,假设叫Session 2,执行下面的语句:
--session 2
USE Test
GO
BEGIN TRAN
UPDATE dbo.test_deadlock2
SET name = 'CC'
WHERE id = 1
;
UPDATE dbo.test_deadlock1
SET name = 'CC'
WHERE id = 1
;
COMMIT
等待一会儿功夫以后,死锁发生,并且Session 2做为了死锁的牺牲品,我们会在Session 2的SSMS信息窗口中看到如下的死锁信息:
Msg 1205, Level 13, State 51, Line 8
Transaction (Process ID 60) was deadlocked on lock resources with another process and has been chosen as the deadlock victim. Rerun the transaction.
用户查询死锁信息
根据上面的模拟死锁小节,说明死锁已经真真切切的发生了,那么,死锁信息到底有没有被捕获到呢?如果终端用户想要查看和分析所有客户端的死锁信息,只需要连接Deadlock Center SQL Server,执行下面的语句:
-- Run on Deadlock Center Server
USE DDLCenter
GO
SELECT * FROM [DDLCollector].[Deadlock_Info]
由于结果集宽度太宽,人为将查询结果分两段截图,第一段结果集展示如下:
第二段结果集截图如下:
从这个结果集,我们可以清楚的看到Deadlock Client发生死锁的详细信息,包含:死锁发生的Deadlock Client实例名称:CHERISH-PC被死锁进程号60,死锁进程57号死锁相关进程的事务开始时间,最后一个Batch开始执行时间和完成时间死锁进程执行的代码和Batch语句死锁发生时锁的类型表和索引名称死锁相关进程的登录用户......等等。
踩过的坑
当Deadlock Client 上SQL Server发生两次或者两次以上的Deadlock事件以后,自建的Event Notification对象(名为:DeadLockNotificationEvent)会被SQL Server系统自动删除,从而导致整个死锁收集系统无法工作。
表象
SQL Server在错误日志中会抛出如下4个错误信息:两个错误编号为17004,一个编号为17001的错误,最后是一个编号为17005错误,其中17005明确说明了,Event Notification对象被删除了。如下:
Error: 17004, Severity: 16, State: 1.
Event notification conversation on dialog handle '{4A6A0FBD-7A34-E711-A709-001C42099969}' closed without an error.
Error: 17004, Severity: 16, State: 1.
Event notification conversation on dialog handle '{476A0FBD-7A34-E711-A709-001C42099969}' closed without an error.
Error: 17001, Severity: 16, State: 1.
Failure to send an event notification instance of type 'DEADLOCK_GRAPH' on conversation handle '{F711A404-7934-E711-A709-001C42099969}'. Error Code = '8429'.
Error: 17005, Severity: 16, State: 1.
Event notification 'DeadLockNotificationEvent' in database 'master' dropped due to send time service broker errors. Check to ensure the conversation handle, service broker contract, and service specified in the event notification are active.
错误日志截图如下:
问题分析
从错误提示信息due to send time service broker errors来看,最开始花了很长时间来排查Service Broker方面的问题,在长达数小时的问题排查无果后,静下心来仔细想想:如果是Service Broker有问题的话,我们不可能完成第一、第二条死锁信息的收集,所以问题应该与Service Broker没有直接关系。于是,注意到了错误提示信息的后半部分Check to ensure the conversation handle, service broker contract, and service specified in the event notification are active,再次以可以成功收集两条deadlock错误信息为由,排除Contact和Service的问题可能性,所以最有可能出问题的地方猜测应该是conversation handle,继续排查与conversation handle相关操作的地方,发现存储过程[DDLCollector].[UP_ProcessDeadlockEventMsg]的中的代码:
...
ELSE IF @Message_Type = 'http://schemas.microsoft.com/SQL/Notifications/EventNotification'
BEGIN
-- Record message log first
INSERT INTO [DDLCollector].[Deadlock_Traced_Records](Processed_Msg, [Processed_Msg_CheckSum])
VALUES(@Message_Body, CHECKSUM(CAST(@Message_Body as NVARCHAR(MAX))))
END CONVERSATION @handle
--Here call another Store Procedure to send deadlock graph info to center server
EXEC [DDLCollector].[UP_SendDeadlockMsg] @Message_Body;
END
...
这个逻辑分支不应该有End Conversation的操作,因为这里是与Event Notification相关的Message Type操作,而不是Service Broker相关的Message Type操作。
解决问题
问题分析清楚了,解决方法就非常简单了,注释掉这条语句END CONVERSATION @handle后,重新创建存储过程。再多次模拟死锁操作,再也没有出现Event Notification被系统自动删除的情况了,说明这个问题已经被彻底解决,坑已经被填上了。解决问题的代码修改和注释如下截图,以此纪念下踩过的这个坑:
福利发放
以下是关于SQL Server死锁相关的系列文章,可以帮助我们全面了解、分析和解决死锁问题,其中第一个是这篇文章的视频演示。使用Event Notification和Service Broker自动跟踪SQL Server Deadlock的Youku视频:使用事件通知和Service Broker自动跟踪SQL Server死锁使用DBCC捕获死锁:RDS SQL Server死锁(Deadlock)系列之一使用DBCC捕获死锁使用Profiler捕获死锁:RDS SQL Server死锁(Deadlock)系列之二使用Profiler捕获死锁自动部署Profiler捕获死锁:RDS SQL Server死锁(Deadlock)系列之三自动部署Profiler捕获死锁利用Service Broker事件通知捕获死锁:RDS SQL Server死锁(Deadlock)系列之四利用Service Broker事件通知捕获死锁利用Extended Events获取死锁信息:RDS SQL Server死锁(Deadlock)系列之五利用Extended Events获取死锁信息
最后总结
这篇文章是一个完整的SQL Server死锁收集系统典型案例介绍,你甚至可以很轻松简单的将这个方案应用到你的产品环境,来收集产品环境所有SQL Server实例发生死锁的详细信息,并根据该系统收集到的场景来改进和改善死锁发生的概率,从而降低死应用发生异常错误的可能性。因此这篇文章有着非常重要的现实价值和意义。