1. 研究目的与意义
线性混合效应模型(linear mixed effects model)在参数估计和统计推断等方面得到了迅速发展,加之计算机和有效统计软件的普遍使用,使得混合效应模型已经成为处理非独立结构数据(例如重复测量数据和纵向数据)的强有力统计分析工具,在医学、经济学和社会学等领域得到了广泛应用[1-4]。实际应用中建立混合效应模型的主要目的之一就是识别对应变量有实质性影响的协变量以及评价其效应大小,这一问题称为变量选择(variable selection)。与广义线性模型不同,混合效应模型不但包括固定效应(fixed effects)还包括随机效应(random effects),因此其变量选择也更具有挑战性。传统的变量选择方法包括基于信息准则的 AIC(Akaike InformationCriterion,AIC) 或BIC(BayesianInformation Criterion,BIC)等最优子集法和逐步筛选方法 [5]。
线性效应模型通常会将因变量Y分解成固定效应和误差项,比如:Y=βX 在这里所有不感兴趣、非系统性或不可测的因素都可以作为误差项[6]。
但是线性模型要求每个样本之间互相独立(还要求数据满足多元正态分布),而在分析时往往会出现时间相关或者空间相关的样本,因此人们就在线性回归模型的基础上建立了线性混合模型,所谓“混合”就是将固定效应与随机效应进行混合了的意思,形如:Y=βX Zγ 模型中多出来的Zγ便是随机效应。
2. 研究内容和问题
当数据存在重复观测时,线性混合效应模型是一种常用的统计建模方法。
由于混合效应模型不仅能抓住总体效应且能刻画个体间差异特征,混合效应模型受到广大统计应用者的偏好和广泛应用。
然而由于混合效应模型的复杂性,目前关于广义混合效应模型选择问题没有特别满意的结果。
3. 设计方案和技术路线
研究方法:
在模型选择过程中使用贝叶斯信息标准(BIC)是在假设观测是独立的且不完全分布的情况下进行的。有效样本的概念是通过将样本替换为具有有效样本的原始表达而产生和改进的,这将在混合效应模型的情况下为我们提供更好的理论基础。
技术路线:
4. 研究的条件和基础
统计专业的学生已学过概率论与数理统计、应用回归分析、统计软件等课程,对统计学习方法有一定的理解;学校图书馆有相关方面的书籍以及丰富的数字资源可供查询;指导教师本人一直从事数理统计方面的研究且对模型有较深的研究。
