GIN提示与技巧
创建和插入
由于可能要为每个项目插入很多键,所以GIN索引的插入可能比较慢。对于向表中大量插入的操作,我们建议先删除GIN索引,在完成插入之后再重建索引。与GIN索引创建、查询性能相关的GUC参数如下:
-
GIN索引的构建时间对maintenance_work_mem的设置非常敏感。
-
在向启用了FASTUPDATE的GIN索引执行插入操作的期间,只要待处理实体列表的大小超过了work_mem,系统就会清理这个列表。为了避免可观察到的响应时间的大起大落,让待处理实体列表在后台被清理是比较合适的(比如通过autovacuum)。前端清理操作可以通过增加work_mem或者执行autovacuum来避免。然而,扩大work_mem意味着如果发生了前端清理,那么他的执行时间将更长。
-
开发GIN索引的主要目的是让Vastbase支持高度可伸缩的全文索引。
全文索引返回海量结果的情形常常出现,且这经常发生在查询高频词的时候,但这样的结果集没什么用处。因为从磁盘读取大量记录并对其进行排序会消耗大量资源,这在产品环境下是不能接受的。
为了控制这种情况,GIN索引有一个可配置的返回结果行数的软上限的配置参数gin_fuzzy_search_limit。缺省值0表示没有限制。如果设置了非零值,那么返回结果就是从完整结果集中随机选择的一部分。软上限的意思是返回结果的实际数量可能与指定的限制有偏差,这取决于查询和系统随机数生成器的质量。