倒排索引在“分片 (Shard) 内部的 Segment 层级”使用。它是 Lucene 这个底层库提供的核心数据结构,不属于 ES 集群或索引的元数据范畴1. 核心组成部分词项字典 (Term Dictionary):索引中所有“词”的有序集合。因为是二进制的有序列表,所以支持二分查找。这个字典通常很大,无法完全放在内存中。倒排表 (Posting List):每个词项对应的文档ID列表(Doc ID List)。它还包含了丰富的附加信息:词频 (Term Frequency, TF):该词在当前文档中出现了几次。用于计算相关性得分。位置信息 (Position):该词在文档中的第几个位置。用于支持match_phrase短语查询(如搜索“深度学习”,必须保证“深度”和“学习”相邻)。偏移量 (Offset):该词在原始文本中的起始和结束字符位置。用于高亮显示搜索结果。词项索引 (Term Index):为了解决“词项字典太大无法放入内存”的问题,ES 为它建立了一个“索引”。它采用FST (Finite State Transducer, 有限状态转换器)