Skip to content

方法

TWAS 流水线

MyoScore 通过将全基因组关联研究(GWAS)与组织特异性基因表达的全转录组关联研究(TWAS)整合构建。

27 个肌肉相关 GWAS(>100 万参与者)


    FUSION TWAS (v1.1.0)

    GTEx v8 骨骼肌 eQTL 权重 (n = 803)
    1000 Genomes Phase 3 EUR LD 参考面板 (n = 503)


    1,116 个 TWAS 显著基因 (Bonferroni P < 1.68 × 10⁻⁵)

    417 个在 bulk RNA-seq 中可检测(591 条基因-维度记录)


    5 个维度 → MyoScore (0–100)

GWAS 表型(共 27 个)

维度表型数量方向
Strength握力、步速、肌肉无力、握力横截面积5直接
Mass全身去脂体重、四肢瘦体重、躯干/腿/臂去脂体重等15直接
LeanMuscle大腿前/后脂肪浸润2反转(脂肪越少分越高)
Youth端粒长度1直接
Resilience肌营养不良、其他肌病、肌病 phecode、肌酸激酶5反转(疾病越少分越高)

GWAS 汇总统计数据来自 OpenGWAS(IEU)、UK Biobank(Neale Lab)和 FinnGen release 9。均统一至 GRCh37/hg19,过滤 MAF > 1% 和插补质量 > 0.8。

基因权重和方向赋值

  • 基因权重log10(PTWAS)
  • 效应方向:由 TWAS Z-score 确定,对负向表型(脂肪浸润、肌病诊断、CK)进行反转,确保正向权重基因的高表达一致指向更好的肌肉健康

MyoScore 计算

  1. 归一化:原始 count → TMM 归一化 (edgeR) → log₂(CPM + 1)
  2. 标准化:基因级 Z-score(跨所有输入样本)
  3. 维度评分:各维度内加权平均:
维度评分=(zi×di×wi)wi

其中 zi = Z-score,di = 方向(+1 或 −1),wi = 基因权重 4. 缩放:每个维度 min-max 归一化至 0–100 5. 复合评分MyoScore=0.252×Strength+0.177×Mass+0.243×LeanMuscle+0.242×Youth+0.087×Resilience

数学框架

基因权重

基因 g 在维度 d 中的权重:

wg,d=log10(Pg,d)

其中 Pg,d 为基因 g 在维度 d 所有表型中的最小 TWAS P 值。

方向赋值

由 TWAS Z-score 确定效应方向:

δg={+1若 Zg>0(正向表型,如握力)1若 Zg<0(正向表型)

对于负向表型(脂肪浸润、CK、肌病诊断),方向反转:δgfinal=δg,确保 +1 始终表示高表达 → 更好的肌肉健康。

表达预处理

给定原始 count 矩阵 XRG×N

CPMg,s=Xg,sg=1GXg,s×106,Eg,s=log2(CPMg,s+1)

基因级 Z-score

zg,s=Eg,sE¯gσg

维度子评分

Sd,sraw=gGdzg,sδgwg,dgGdwg,d

通过 min–max 归一化缩放至 [0, 100]:

Sd,s=Sd,srawmins(Sd,sraw)maxs(Sd,sraw)mins(Sd,sraw)×100

复合 MyoScore

MyoScores=d=15αdSd,s

数据驱动权重

维度权重由与二元疾病严重度的绝对 Spearman 相关性推导:

αd=|ρd|d=15|ρd|
维度权重 (αd)Spearman |ρ|
Strength0.2520.482
Mass0.1770.338
LeanMuscle0.2430.465
Youth0.2420.462
Resilience0.0870.166

各维度基因数

维度TWAS 总基因数Bulk RNA-seq 可检测来源表型数
Strength67315
Mass38221915
LeanMuscle2721472
Youth81371
Resilience3141575
合计1,116591 条记录(417 个唯一基因)28

关键符号

符号定义
gsd基因、样本、维度索引
Pg,dTWAS P 值
wg,d基因权重:log10(Pg,d)
δg方向(+1 = 健康,−1 = 疾病)
zg,sZ-score 标准化表达
Sd,s维度子评分(0–100)
αd维度权重(数据驱动)
Gd维度 d 中可检测基因集合

各维度通路富集

维度关键富集通路代表基因
Strength乙酰辅酶 A 代谢、乙醇代谢、丙酸代谢ACSS2、ACSS3、SULT1A1
Mass高尔基体-质膜转运
LeanMuscle蛋白定位至中心体;囊泡转运(不健康方向)NUDCD3、DCTN2、CEP250
YouthmRNA 甲基转移酶活性、MHC I 类蛋白结合METTL16、TRMT61B、PILRA
Resilience铁硫簇结合(疾病方向)CISD1、CISD2、ISCU

数据来源

队列n来源描述
GTEx v8803基因型-组织表达计划尸检骨骼肌
GEO668NCBI GEO(15 项研究)多种肌病和肌肉研究
Helsinki Myofin154赫尔辛基大学Titinopathy、IBM、对照
华山队列97复旦大学附属华山医院DM1、LGMD、对照

总计:来自四个独立队列的 1,722 个人类骨骼肌 RNA-seq 转录组

技术稳健性

  • 跨平台:DNBSEQ-T7 和 NovaSeq 6000 之间无显著差异(P = 0.37)
  • 文库制备:polyA 选择与核糖体去除评分一致(P = 0.29)
  • 个体内:股直肌 vs 股外侧肌相关性 r = 0.60(P = 0.032)
  • 缺血时间:表观相关性(r = 0.40)为 Simpson 悖论;控制死亡类型后偏相关 r = 0.14

孟德尔随机化

以骨骼肌 cis-eQTL(GTEx v8,n = 803)为工具变量、UK Biobank GWAS 为结局的双样本 MR:

  • 28/36 基因-结局对(78%)方向与 MyoScore 预测一致
  • 组织特异性至关重要:血液 eQTL(eQTLGen)对 ACSS2 和 GGT7 给出相反方向,使用肌肉 eQTL 后恢复为 4/4 一致

UK Biobank 血液生物标志物替代

生物标志物基因替代n关键发现
血浆乙酸ACSS2272,474所有肌肉表型方向 100% 一致
血清 GGTGGT7467,123方向 75% 一致
最近更新