尽管LightDB中的索引并不需要维护或调优,但是检查真实的查询负载实际使用了哪些索引仍然非常重要。检查一个独立查询的索引使用情况可以使用EXPLAIN命令,它应用于这种目的的内容在Section 15.1中有介绍。也可以在一个运行中的服务器上收集有关索引使用的总体统计情况,如Section 26.2所述。
很难明确地表达决定创建哪些索引的通用过程。在之前的小节中的例子里有一些典型的情况。通常需要大量的实验才能决定应该创建哪些索引。本小节剩余的部分将给出一些创建索引的提示:
总是先运行ANALYZE。这个命令会收集有关表中值分布情况的统计信息。估计一个查询将要返回的行数需要这些信息,而结果行数则被优化器用来为每一个可能的查询计划分配实际的代价。如果没有任何真实的统计信息,将会假定一些默认值,这几乎肯定是不准确的。在没有运行的情况下检查一个应用的索引使用情况是注定要失败的。详见Section 23.1.3和Section 23.1.6。
使用真实数据进行实验。使用测试数据来建立索引将会告诉你测试数据需要什么样的索引,但这并不代表真实数据的需要。
使用非常小的测试数据集是特别致命的。在从100000行中选出1000行时可能会用到索引,但是从100行里选出1行是很难用到索引的,因为100行完全可能放入到一个磁盘页面中,而没有任何计划能够比得上从一个磁盘页面顺序获取的计划。
在创建测试数据时也要小心,特别是当应用还没有产生时通常是不可避免的。值非常相似、完全随机或以排好序的方式被插入都将使得统计信息倾斜于真实数据中的值分布。
如果索引没有被用到,强制使用它们将会对测试非常有用。有一些运行时参数可以关闭多种计划类型(参见Section 18.7.1)。例如,关闭顺序扫描(enable_seqscan
)以及嵌套循环连接(enable_nestloop
)将强制系统使用一种不同的计划。如果系统仍然选择使用一个顺序扫描或嵌套循环连接,则索引没有被使用的原因可能更加根本,例如查询条件不匹配索引(哪种查询能够使用哪种索引已经在前面的小节中解释过了)。
如果强制索引使用确实使用了索引,则有两种可能性:系统是正确的并且索引确实不合适,或者查询计划的代价估计并没有反映真实情况。因此你应该对用索引的查询和不用索引的查询计时。此时EXPLAIN ANALYZE
命令就能发挥作用了。
如果发现代价估计是错误的,也分为两种可能性。总代价是用每个计划节点的每行代价乘以计划节点的选择度估计来计算的。计划节点的代价估计可以通过运行时参数调整(如Section 18.7.2所述)。不准确的选择度估计可能是由于缺乏统计信息,可以通过调节统计信息收集参数(见ALTER TABLE)来改进。
如果你不能成功地把代价调整得更合适,那么你可能必须依靠显式地强制索引使用。你也可能希望联系LightDB开发者来检查该问题。