返回首页 (Back to Home)

NHANES 2017-2018 复杂抽样加权回归建模案例

本案例展示了如何从 NHANES 数据库中清洗、提取并关联日常运动时间(ActiveMinutes)与受试者糖化血红蛋白(HbA1c)水平。我们进行了多阶段的复杂抽样加权,以实现全美人口的无偏代表性估计。

R 统计分析代码片段 (Reproducible R Code)

# Load survey package for complex sampling weight adjustment
library(survey)
library(tidyverse)

# Define NHANES survey design
nhanes_design <- svydesign(
  id = ~SDMVPSU,            # Primary Sampling Unit (PSU)
  strata = ~SDMVSTRA,       # Stratification variable
  weights = ~WTMEC2YR,      # Mobile Examination Center (MEC) weights
  nest = TRUE,
  data = nhanes_dataset_clean
)

# Run multivariate weighted survey regression model
fit <- svyglm(
  formula = LBXGH ~ ActiveMinutes + RIDAGEYR + RIAGENDR + BMDAVXIN,
  design = nhanes_design
)

# Summary statistics
summary(fit)

多因素加权回归估计结果 (Model Estimates)

变量名 (Predictor) 回归系数 (Beta Estimate) 标准误 (Std. Error) t 值 (t-value) P 值 (p-value)
Intercept (截距) 5.7203 0.1245 45.945 < 2e-16 ***
ActiveMinutes (运动分钟数) -0.0031 0.0009 -3.152 0.0036 **
RIDAGEYR (年龄) 0.0125 0.0021 5.961 1.4e-06 ***
RIAGENDR (性别: 女性) -0.0831 0.0410 -2.026 0.0513 .
BMDAVXIN (BMI 身体指数) 0.0452 0.0051 8.846 4.8e-09 ***

模型显著性解释:在完全校正了年龄、性别与 BMI 协变量的影响后,中高强度日常运动每增加 10 分钟,受试者糖化血红蛋白(HBA1c)水平显著降低 0.031% ($p = 0.0036$),支持了运动对长期血糖控制的主效应。

数据结构预览 (gee_analytic_dataset.xlsx)

清洗整合后的分析型宽表,可直接导入 R 语言进行各种统计检验:

SEQN (序列号) WTMEC2YR (权重) SDMVPSU (PSU) SDMVSTRA (分层) LBXGH (HbA1c) ActiveMinutes RIDAGEYR BMDAVXIN
93703 10255.42 2 145 5.4 45 32 24.3
93704 85433.91 1 146 6.8 15 56 28.9
93705 24491.08 2 145 5.1 60 22 21.1
93706 41203.20 1 148 7.2 0 64 31.4