最近的研究表明,平均检索有效性(例如MAP)的提高可能会牺牲整个查询的检索稳定性,这意味着在有效性和稳定性之间进行权衡。 有效性和稳定性的评估通常基于基线模型,该模型可能是弱的或有偏见的。 此外,尚未通过TREC参与的系统对有效性-稳定性的权衡进行系统或定量的评估。 以上两个问题在一定程度上限制了我们对这种权衡及其对开发未来IR模型的影响的认识。 在本文中,受最近提出的基于偏差方差的评估的启发,我们采用了强大且无偏见的“基准”,这是一个由检索任务中所有参与系统中最佳性能(针对每个查询)构造的虚拟