FDR(False Discovery Rate,假发现率)是一种用于评估统计显著性并控制错误发现概率的方法。在基因表达数据、蛋白质组学、医学研究等领域中,FDR常被用于筛选出真正显著的表达式或发现。
FDR的计算涉及到多个步骤,主要包括:
- 假设检验:首先,根据研究目的,对每个基因或特征设定一个原假设(例如,基因表达不存在显著差异)和一个备择假设(例如,基因表达存在显著差异)。然后,通过统计检验(如t检验、ANOVA等)来评估原假设是否成立。
- 计算p值:对于每个基因或特征,基于样本数据计算出一个p值。p值表示在原假设为真的情况下,观察到当前数据或更极端数据的概率。通常,p值越小,说明观察到的差异越显著。
- 设定FDR阈值:研究者通常会设定一个FDR阈值(如0.05、0.01等),用于判断p值是否足够小,以便拒绝原假设。如果p值小于或等于FDR阈值,则认为该基因或特征是显著的。
- 计算FDR:FDR是指在所有被拒绝的原假设中,真正显著(即实际为真)的比例。计算FDR的方法有多种,其中一种常用的方法是基于控制错误发现率。具体地,可以通过调整p值阈值来控制FDR,使得在保持一定的假阳性率(即错误发现的概率)的***尽可能多地检测到真正的显著差异。
需要注意的是,FDR控制方法(如Benjamini-Hochberg流程)旨在提供一种系统的方式来调整p值阈值以控制FDR,同时保持假阳性率的可控性。这种方法在多重比较的情况下特别有用,因为它允许研究者根据先验信息或研究背景来调整每个比较的p值阈值。
***FDR是一种在统计显著性评估中广泛使用的方法,它帮助研究者控制错误发现率,并确定哪些基因或特征在研究中具有实际意义。