PROJECT 2605136 · DEEP RESEARCH · 生信工具选型

子痫前期胎盘多组学整合
生信软件与 GitHub 工具选型调研报告

面向 PE 胎盘多组学项目(scRNA-seq + 10x Visium 空间转录组 + MALDI-MSI 空间代谢组 + TMT 蛋白组 + 母血/脐血代谢组),按 17 个分析阶段调研 GitHub 等平台的最优开源工具,逐项验证当前已锁定工具栈并给出保留 / 升级 / 替换 / 填补空白结论。

🤖 107 调研智能体 📐 5 检索角度 📄 25 来源精读 🧪 119→25→19 论断(抽取→验证→确认) ⚖️ 3 票对抗式验证(2/3 反驳即剔除) 🗓️ 2026-06-17

01执行摘要

总体结论:当前锁定工具栈大体稳健、方向正确,但有 5 处需要调整或重新评估,并有 6 个分析阶段仍是工具空白需补充选型。最关键的发现是——存在一篇同病种(晚发型 PE 胎盘)空间多组学论文,其空间代谢↔空间转录的配准与 MSI 处理方案,与本项目当前设定(elastix 同切片配准)不同,提供了直接可借鉴的实证范式。

✅ 经检验应保留 / 加强

  • RCTD 空间去卷积——两个独立同行评审基准均列入最优梯队,且最快、支持 CPU 并行(无需 GPU)。建议同时跑 cell2location 交叉比对
  • Scanpy / squidpy / Snakemake / WGCNA / AUCell + GSVA / CMap 原理——主流程合理,保留。

🔼 应升级 / 调整

  • 批次整合:scIB 基准显示 Harmony 在"复杂真实数据"非顶档;EVT/SCT 高异质场景考虑 scVI/scANVI(scvi-tools v1.4.3 活跃)或 Scanorama(稀有亚群)。需按 11 例样本规模实测
  • 双细胞剔除:流程应新增该步骤,工具倾向 scDblFinder(而非已过时的 DoubletFinder)。

🔁 应重新评估 / 替换

  • 空间配准:同病种 PE 论文用「相邻切片 + 自研 landmark spot-match(≥6 点缩放+旋转)」,而非 elastix 同切片仿射+B-spline。当前设定面临同场景反例,需评估。
  • 空间域识别:以 BANKSY(统一细胞分型+组织域分割,多基准胜 SpaGCN)或 GraphST 增强/替换 SpaGCN。

填补空白(已有同病种实证)

  • MALDI-MSI 处理/注释Cardinal 3(R)+ pySM(METASPACE 引擎)——同病种 PE 空间代谢组研究已采用。
  • 细胞注释参考图谱Vento-Tormo 2018(~7 万细胞母胎界面图谱,含 EVT/SCT,亦是 CellPhoneDB 来源)。
  • 滋养层分化轨迹CellRank(速率核+连通核高维转移矩阵,更鲁棒)。
仍为空白、本轮未做对抗验证的环节:TMT 蛋白组搜库/差异、血清 LC-MS/GC-MS 代谢组处理、跨组学纵向整合框架(MOFA+ 等)、药物逆转现代实现(signatureSearch/cmapPy)、细胞间通讯工具基准。详见 「待补空白」——已列候选工具,但需后续专门评估。

02分析阶段 → 推荐工具总览

17 个分析阶段的推荐主用工具与备选,及其对当前锁定工具栈的结论。状态列标明该行结论是否经本轮对抗式验证。

✓ 已验证 经 3 票对抗核查确认 ⚠ 候选 合理候选,本轮未独立验证 保留 升级 替换/重评 新增/填补 Py Python · R R
#分析阶段推荐主用备选对锁定栈状态
1单细胞 QC / 双细胞剔除scDblFinder RDoubletDetection, Scrublet新增步骤
2批次整合 / 去批次scVI / scANVI Py (scvi-tools)Scanorama;Harmony(小数据/简单批次)升级·条件
3细胞类型注释(滋养层亚群)CellTypist + Vento-Tormo 2018 参考 PySingleR, Azimuth新增·参考图谱图谱
4滋养层分化轨迹 / RNA 速率CellRank 2 PyscVelo, Monocle3, Palantir, PAGA新增
5细胞间通讯(EVT/SCT↔内皮/免疫)CellPhoneDB / LIANA PyCellChat, NicheNet候选
6Visium 空间去卷积RCTD Rcell2location 交叉 PyTangram, CARD保留+交叉
7空间域识别 / 空间可变基因BANKSY RPyGraphST, STAGATE;SpatialDE替换/增强 SpaGCN
8空间转录↔空间代谢 配准landmark spot-match(相邻切片·同病种实证)elastix / SimpleITK / ANTsPy(同切片)重新评估
9MALDI-MSI 处理 / 代谢物注释Cardinal 3 R + pySM/METASPACE PySCiLS(商业), pyimzML填补空白med
10血清非靶向 LC-MS + GC-MSMS-DIAL / XCMS RMZmine 3, asari;MetaboAnalystR, GNPS候选
11TMT Bulk 蛋白质组FragPipe-TMT + MSstatsTMT RMaxQuant;limma候选
12跨组学纵向整合框架 (已专题深化 ↓07)MOFAcell Py + DIABLO RMOFA+/MEFISTO, SNF(snfpy);WNN/totalVI 不适用专题结论
13富集 / 通路 / 基因集decoupleR / clusterProfiler / fgsea RGSEA;AUCell + GSVA(保留)保留+补充
14铁死亡 / 特定机制基因集FerrDb V2 + AUCell 打分MSigDB HALLMARK_*;WikiPathways候选
15药物重定位 / 逆转打分(CMap)signatureSearch R / cmapPy Py + LINCS L1000CLUE / connectopedia候选
16发表级矢量图表(SVG/PDF 300DPI)ggplot2+ComplexHeatmap R / matplotlib Pypatchwork, UpSetR;Cytoscape/igraph补充自研 SVG
17可重复流程与环境Snakemake(保留)/ nf-coreNextflow;Docker/Singularity/Apptainer + conda 锁定保留合理

注:#13 的 AUCell/GSVA、#17 的 Snakemake、#6 的 RCTD 等"保留"结论中,仅 RCTD 与去卷积梯队经本轮验证(✓);其余"保留合理"为基于来源的合理判断但未单列对抗论断(⚠)。

03已验证选型详情(9 条综合论断)

以下每条均附置信度、投票结果与逐字证据引文。原文关键引文以 蓝色斜体标注。

阶段 #6 · 空间去卷积保留 + 交叉验证高置信3-0

保留 RCTD(最优梯队·最快·CPU 并行),并同时跑 cell2location 交叉比对

两个独立同行评审基准一致将 RCTDcell2location 列为去卷积最优梯队;针对 55μm 高混杂胎盘 spot 可补充 Tangram/CARD,而 SPOTlight 整体较弱。

Nat Commun 2023(18 方法/50 数据集):"In general, CARD, Cell2location, Tangram, and RCTD were the best performing methods";SPOTlight "performed poorly overall"。eLife Spotless 2024(11 方法):"RCTD and cell2location were the top two performers across all metrics",并建议 "We recommend RCTD as a good starting point ... one of the best and fastest methods ... allows CPU parallelization ... for users that may not have access to a GPU",同时 "comparing the result of multiple deconvolution methods, especially between cell2location and RCTD"
阶段 #2 · 批次整合升级·条件高置信3-0 / 2-1

Harmony 对高复杂度胎盘整合可能次优;考虑升级 scVI/scANVI 或 Scanorama

权威 scIB 基准(16 方法/14 指标)显示 Harmony 在复杂真实数据非顶档;EVT/SCT 高异质亚群建议 scVI/scANVI(有标签时)或 Scanorama(检测稀有亚群)。但 11 例样本可能属"较小任务",升级需结合真实细胞数实测。

Luecken et al. 2022(Nature Methods, scIB):"Harmony ranked outside the top third of methods for more complex real data tasks, but was favorable for ... less complex biological variation""scANVI, Scanorama, scVI and scGen perform well, particularly on complex integration tasks""In the absence of labels ... we recommend ... Scanorama and scVI""if the aim is to find rare cell types ... we recommend Scanorama"
注:"有标签时 scANVI/scGen 必胜"这一更强论断被 3 票否决,故应表述为综合候选而非单点断言。
阶段 #2 · 版本现状可放心采用高置信3-0

scvi-tools 活跃维护,最新稳定版 v1.4.3(2026-05-12)

承载 scVI/scANVI 的 scvi-tools 版本不过时、可放心采用为整合主用工具。

GitHub API:tag_name=1.4.3, published_at=2026-05-12,prerelease=false;PyPI 独立确认同版本同日上传。最近 push 2026-06-17,archived=false,约 1644 stars(scverse/NumFOCUS)。版本链单调:1.4.2(2026-02)、1.4.1(2025-12)、1.4.0(2025-09)。
对比:项目当前 Scanpy 1.9.8 / squidpy 1.2.3 偏旧,建议评估随 scverse 生态升级以与 scvi-tools 1.4.3 配套。
阶段 #8 · 空间配准重新评估高置信3-0

同病种 PE 论文用「相邻切片 + landmark spot-match」,而非 elastix 同切片配准

一篇晚发型 PE 胎盘空间多组学论文并未在同一切片做图像配准,而是用相邻切片(~10μm)+ 自研 landmark 点对点匹配(≥6 点、缩放+旋转坐标变换)。这是与本项目同场景的直接实证,当前 elastix 仿射+B-spline 同切片设定面临反例。

Front. Cell Dev. Biol. 2025(晚发型 PE 胎盘 空间代谢+转录):"At present, SM and ST analyses can only be conducted separately on adjacent placental sections ... small distance of 10 μm""we developed a novel method for point-to-point matching ... selecting at least six evenly distributed spots ... obtaining their corresponding barcodes ... converted into a unified coordinate system"
差异说明:该论文用 DESI-MSI(本项目为 MALDI-MSI),但本论断只涉及配准方法、与电离平台无关。
阶段 #9 · MSI 处理/注释填补空白中置信3-0

MALDI-MSI 用 Cardinal 3 重建+聚类,pySM/METASPACE 做 FDR 控制的代谢物注释

开源 Cardinal 3(R/Bioconductor)用于离子图像重建/背景扣除/聚类,pySM(EMBL Alexandrov 团队,METASPACE 注释引擎)用于代谢物注释——同病种 PE 胎盘空间代谢组研究已采用,填补项目 MSI 空白。

同上 PE 论文:"Ion images were reconstructed after background subtraction via the Cardinal 3 software package""Spatial shrunk centroid clustering (SSCC) was utilized for clustering MSI data""annotated via the pySM pipeline and an in-house SmetDB database"。Cardinal v3.10.0(2025-09)原生支持 MALDI/DESI/imzML。
限定(故中置信):该研究用 DESI 而非 MALDI;SmetDB 为商业内部库(非开源),开源结论仅限 Cardinal/pySM。
阶段 #7 · 空间域识别替换/增强 SpaGCN高置信3-0 / 2-1

无单一最优、依平台而定;Visium 上 GraphST 领先,BANKSY 统一分型+分域

10X Visium 上 GraphST(ARI=0.552) > STAGATE(0.515) > CCST(0.481);BANKSY 以单一算法统一"细胞分型 + 组织域分割",多个基准胜过 Giotto/BayesSpace/SpaGCN/SpiceMix,是替换/增强 SpaGCN 的强力候选。

NAR gkaf303(19 方法/30 真实+27 合成):"There is no single method that works best for all datasets ... depends on ... the SRT platform""For 10X Visium datasets, GraphST performed the best (mean ARI = 0.552), followed STAGATE (0.515) and CCST (0.481)"。BANKSY(Nature Genetics 2024):"BANKSY unifies cell typing and tissue domain segmentation ... product space of their own and the local neighborhood transcriptome""BANKSY outperformed Giotto, BayesSpace, SpaGCN and SpiceMix"
注:"GraphST DLPFC ARI=0.633、GraphST>BayesSpace>SpaGCN>STAGATE"被 3 票否决——请采用 gkaf303 的 0.552/0.515/0.481。
阶段 #4 · 轨迹/速率新增高置信3-0

CellRank 组合速率核与连通核、在高维基因空间计算转移矩阵,适合 EVT vs SCT 分化

CellRank 比"仅把速率投影到低维嵌入"更鲁棒,适合滋养层双主线分化轨迹分析。

官方教程:"RNA velocity can be a very noise quantity; to make our computations more robust, we combine the VelocityKernel with the similarity-based ConnectivityKernel"(示例 0.8·vk+0.2·ck),转移矩阵 "directly in high-dimensional gene expression space",并警告 "streamlines in a low-dimensional embedding are very biased by the topology of that embedding"。Nature Methods 2021:"combines the robustness of similarity-based trajectory inference with directional information from RNA velocity"
阶段 #1 · 双细胞剔除新增步骤高置信3-0

流程应纳入双细胞剔除(改善下游 DE/HVG/聚类/轨迹);工具倾向 scDblFinder

双细胞剔除可测量地改善下游分析;具体工具排名随时间更新,应倾向 scDblFinder(AUPRC/AUROC 与速度领先),而非 2021 基准偏好的 DoubletFinder。

Xi & Li 2021(Cell Systems,第三方基准):"Doublet removal by most methods indeed improved the identification of DE genes and highly variable genes, the elimination of spurious cell clusters, and the inference of cell trajectories"
时效性:该论文"DoubletFinder 准确率最佳/前二推荐"的具体排名被 3 票否决——后续独立基准(Germain et al., scDblFinder, F1000Research)显示 scDblFinder 平均 AUPRC/AUROC 最高且更快。
阶段 #3 · 注释参考参考图谱高置信3-0

Vento-Tormo 2018(Nature)是滋养层/母胎界面注释的直接参考图谱

~7 万细胞早孕母胎界面单细胞图谱(配套母血+蜕膜),含 EVT/SCT,是注释胎盘细胞类型的直接相关参考;亦是 CellPhoneDB 的来源(与阶段 #5 细胞通讯天然契合)。

Nature 2018;563:347-353,"Single-cell reconstruction of the early maternal-fetal interface in humans":"Trophoblast-decidual interactions underlie common diseases of pregnancy, including pre-eclampsia ... we profile the transcriptomes of about 70,000 single cells from first-trimester placentas with matched maternal blood and decidual cells"
限定:该图谱为早孕组织,而 PE 常用足月胎盘,跨孕期注释迁移有 caveat。

04当前锁定工具栈:验证结论

tools_memorandum.md V1.2算法设计说明书 V1.1 中已锁定工具的逐项裁决。

✅ 保留 KEEP

  • RCTD(spacexr 2.2.0,multi 模式)✓验证
  • Scanpy 单细胞主流程
  • squidpy 空间转录组
  • AUCell + GSVA 通路评分
  • WGCNA 数据驱动共表达轨道
  • Snakemake 流程编排
  • CMap / NCS<-0.6 药效逆转原理

🔼 升级 / 调整 UPGRADE

  • 批次整合:Harmony → 评估 scVI/scANVI/Scanorama(按细胞复杂度与样本规模)✓验证
  • 新增双细胞剔除scDblFinder ✓验证
  • 版本:Scanpy 1.9.8 / squidpy 1.2.3 偏旧 → 随 scverse 升级以配套 scvi-tools 1.4.3

🔁 替换 / 重评估 REASSESS

  • 空间配准:elastix 同切片仿射+B-spline → 评估 相邻切片 landmark spot-match(同病种实证)✓验证
  • 空间域:SpaGCN → BANKSY / GraphST ✓验证

➕ 填补空白 ADD

  • MSI 处理/注释Cardinal 3 + pySM ✓验证
  • 注释参考Vento-Tormo 2018 图谱 ✓验证
  • 轨迹CellRank ✓验证
  • 整合/蛋白/代谢/药物:见「待补空白」⚠候选

05避坑:被对抗式验证否决的论断

以下 6 条候选论断在 3 票核查中被否决(不足 2/3 支持或遭多数反驳),请勿采用。列出以防误用网络上常见但已过时/过强的说法。

❌ "Harmony 适合 11 例中等复杂度,保留即可" 1-2 否决

不能据此简单保留 Harmony;scIB 显示其在复杂任务非顶档,需结合细胞复杂度评估升级。

❌ "Tangram + Cell2location 最稳健最准" 0-3 否决

过强表述。最优梯队应为 RCTD/cell2location(并列 CARD/Tangram),而非单点钦定。

❌ "有标签时 scANVI/scGen 必胜" 0-3 否决

不要单点断言 label-aware 必胜;应表述为 scVI/scANVI/Scanorama 综合候选。

❌ "DoubletFinder 准确率最佳"(两条) 0-3 否决

2021 基准排名已过时。倾向 scDblFinder(AUPRC/AUROC 与速度领先)。

❌ "GraphST DLPFC ARI=0.633;GraphST>BayesSpace>SpaGCN>STAGATE" 0-3 否决

数值与排序错误。采用 NAR gkaf303 的 Visium 数值:GraphST 0.552 > STAGATE 0.515 > CCST 0.481。

06待补空白:候选工具(本轮未对抗验证)

重要:本节工具为基于检索来源与领域共识整理的合理候选,但未经本轮 3 票对抗式验证(受预算/角度限制未覆盖)。落地前建议针对项目真实数据做小规模对比验证。

🧩 跨组学纵向整合框架 已深化 ↓07

把 scRNA / 空转 / 蛋白 / 代谢收敛到统一隐因子或机制模块——项目"跨组学机制模块筛选"目标的核心。已于第 07 节用第二轮 deep research 专门深化(MOFAcell 主 + DIABLO 辅 + 小 n 稳健性纪律)。

  • MOFA+ / MEFISTObioFAM/MOFA2,R/Py)——多组学因子分解;MEFISTO 加空间/时间协变量
  • mixOmics-DIABLO(R)——有监督多组学判别
  • Seurat WNN / totalVI / multiVI——单细胞多模态
  • SNF(相似网络融合)

💊 药物重定位 / 逆转打分 候选

外植体数据未交付时的现代 CMap 实现与公共参考。

  • signatureSearch(Bioconductor,R)——GESS + FEA 一体化
  • cmapPycmap/cmapPy,Py)——GCTx/L1000 读写
  • LINCS L1000 / CLUE 公共参考库(无外植体数据时的替代)

🧪 TMT Bulk 蛋白质组 候选

  • 搜库/定量:FragPipe-TMT(Nesvilab)/ MaxQuant
  • 差异:MSstatsTMT / limma(R)

注:项目实际蛋白组已有 DIA-NN gg_matrix(见交付站),TMT 工具按是否需重搜库取舍。

🩸 血清非靶向 LC-MS + GC-MS 候选

  • 峰提取:MS-DIAL / XCMS(R)/ MZmine 3 / asari
  • 注释/统计:MetaboAnalystR / GNPS

🔗 细胞间通讯 候选

  • CellPhoneDB(与 Vento-Tormo 母胎界面天然契合)
  • LIANA(多方法共识)/ CellChat / NicheNet

📊 富集 & 发表级图表 候选

  • 富集:decoupleR / clusterProfiler / fgsea(保留 AUCell/GSVA)
  • 制图:ComplexHeatmapjokergoo/ComplexHeatmap)/ ggplot2+patchwork / matplotlib — 原生 SVG+PDF 300DPI,建议替代部分自研客户端 SVG

07⭐ 专题深化:跨组学整合框架(第二轮 deep research)

针对上一轮标记的头号空白——跨组学整合框架,单独再跑一轮更深、更挑剔的调研。105 智能体 / 5 角度 / 23 来源 / 114→25→23 条确认论断 / 3 票对抗式验证。本轮把项目真实约束(样本层 n=8 配对、Python-only、机制模块目标、已验证"分泌/抗血管轴"信号)全程钉入评估。

① 粒度纠偏(决定工具类别的前提):本项目多组学不是"同一批细胞的多模态"(CITE-seq/Multiome),而是不同检测在 8 例配对病例层面对齐,共享维度是病例/样本而非细胞。因此 Seurat WNN / totalVI / multiVI 这类"同细胞多模态"方法不适用;正确类别是"样本层/队列层整合"(TCGA 式)与"跨细胞类型多病例程序发现"。
② ⚠ 小样本红线(头号约束,证据高度一致):MOFA 作者官方 FAQ 明言 "Factor Analysis models are only useful with large sample sizes, at least more than 15." 独立基准(McCabe/Love 2019, BiB,DESeq2 作者团队)实证 MOFA 与 sparse mCCA 在 n=53 即过拟合,并警告 "sample sizes of n=50 or below may result in inconsistent fitting"本项目 n=8(n=4/组)远低于此底线 → 任何 MOFA 类因子若不配合置换检验 + 留一交叉 + bootstrap 稳定性筛选,本质上不可信。这是本轮最重要的一条。

落地建议(n=8 · Python 优先 · 机制模块)

🥇 数据驱动主框架:MOFAcell Py

multicellular factor analysis:每个 view = 一种细胞类型的样本级 pseudobulk → 分解出跨细胞类型的"多细胞转录程序"潜因子,最契合"机制模块筛选"目标。无监督拟合,疾病标签事后用 Kruskal-Wallis 关联。纯 Python 路径(liana-py),无需 R。与现有 WGCNA 数据驱动轨道并行/增强,而非替换。

repo:eLife 93161 · saezlab/MOFAcellulaR(R) · liana-py mofacellular(Py)

🥈 监督验证轨道:DIABLO R

mixOmics 的有监督 N-integration:多块 sPLS-DA + 设计矩阵,针对 PE/对照分类结局做整合,稀疏特征选择利于可解释机制。监督整合基准(bbae331 2024)中位 MCC 最高(0.52)、被荐为通用兜底。利用已知标签,小 n 下比无监督更可控。代价:需加装 R。

repo:mixomics.org/mixdiablo · 基准 BiB 2024 bbae331

无论用哪个,n=8 下三条纪律不可省:(1) 稳健性筛选——置换检验给解释方差定显著门槛 + 留一交叉 + bootstrap,只保留可重现的因子;(2) 模态别贪婪——基准证明"加更多组学不一定更好、反而可能损害",优先纳入信号已验证(分泌/抗血管轴)且样本重叠好的组学;(3) 把整合当佐证而非定论——8 例上的任何潜因子都先视为探索性假设,回到 pseudobulk DESeq2 + GSEA 的样本级统计去印证。

✅ 实测落地验证(已在 server199 真实数据上跑通)

不止推荐——已实跑:按上述处方在 pe_env 实跑 MOFAcell(mofapy2 0.7.4,纯 Python,--no-deps 零依赖改动):7 个 view(SCT/EVT/VCT/Hofbauer/Endothelial/Fibroblast 的样本级 pseudobulk + DIA-NN 蛋白组)× 8 样本(分组已从前缀修正 C→PE / Z→Control),含 70 种标签置换零分布 + 8 次 LOO 重拟合稳定性闸门。产物:server199:/disk1/BIO/PE/analysis/mofacell_output/ · 下载 summary JSON · 因子图 PDF
MOFAcell factors by sample
MOFAcell 因子 × 样本。F2 = 最佳分组因子(PE / Control 各偏一侧,Z3 为错分);F1 = 单样本离群因子(C5 极端)——n=8 脆弱性的直观体现。

实测结论 SUGGESTIVE

  • 最佳分组因子 F2:置换 perm_p=0.086(未过 0.05;n=4v4 理论下限就是 0.029)、LOO 载荷稳定性中位 |r|=0.91、符号一致 8/8 → 因子稳健、但分组显著性仅"suggestive"。
  • 跨组学复现「干扰素/炎症轴」:CXCL9/10、IDO1、HLA-G、CD74 在多细胞类型正载荷,蛋白组 CD74 第 97 百分位 → 已 FDR 确认的这条轴获得跨组学加权佐证。
  • 「分泌/抗血管轴」较弥散:PAPPA2/LEP/CRH 在基质/免疫区为正,但 SCT 内 HTRA4/LEP 方向不一致,未形成单一干净因子。
  • n=8 脆弱性被实证:方差最大的 F1 = 单样本离群(C5=2.54,余者≈−0.3),F3 = Z3 离群——正是研究警告的小样本伪信号。

结论:整合层佐证了干扰素轴的跨组学收敛,但如研究所料,n=8 下它只是假设生成 / 佐证,不凌驾于样本级 DESeq2 + GSEA 结论。

方法类别对比

方法类别推荐主用语言n=8 可靠性对本项目
跨细胞类型·多病例程序MOFAcellPy需稳健性检验首选·机制模块
有监督多块判别DIABLO (mixOmics)R小n较可控·须CV监督验证轨道
无监督因子分解(样本层)MOFA+ / MOFA2PyRn<15 作者称"无用"慎用·须稳健性
空间/时间感知因子MEFISTOPy仅空间协变量时对静态病例/对照无用
相似网络融合 / 整合聚类SNF (snfpy) / NEMO / iClusterBayesPy/R8 例分层意义有限至多探索性辅助
Python 多模态容器muon (承载 MOFA)Py可作统一容器
同细胞多模态Seurat WNN / totalVI / multiVIPy/R❌ 不适用(需同细胞共测)
小 n 稳健替代(待验证)AJIVEPy基准称小n最稳/不过拟合建议作交叉验证基准

已验证论断详情

MOFAcell · 最契合机制模块首选高置信3-0

MOFAcell 把 MOFA 改造为跨细胞类型样本层整合,分解出"多细胞转录程序"

每个 view = 一种细胞类型按样本聚合的 pseudobulk;无监督分解出共享潜空间中的多细胞程序,疾病标签事后关联——正对应"用 scRNA pseudobulk 跨亚群发现协同机制程序"。与现有 WGCNA 数据驱动轨道并行/增强而非替换

eLife 93161(Saez-Rodriguez 实验室):"multicellular factor analysis repurposes multi-omics factor analysis (MOFA) to simultaneously decompose the variability of multiple cell types and create a latent space that recovers multicellular transcriptional programs""Factor 1, 2, and 6 were associated with the previously defined tissue condition labels (Kruskal-Wallis adj. p<0.05 ...)"
边界:演示数据为人心梗(~27 样本,分组 13/9/5);小 n 警示仍适用(示例 16–79 样本)。
小 n 红线 · 头号约束硬约束高置信多源 3-0

n=8 远低于 MOFA 可靠区;因子必须配稳健性检验

MOFA 作者称因子分析"至少需 >15 样本";独立基准在 n=53 即见 MOFA/sparse mCCA 过拟合、n≤50 普遍不稳,而 AJIVE 在小 n 最稳。本项目 n=8 明确处于不可靠区。

MOFA2 FAQ:"Factor Analysis models are only useful with large sample sizes, at least more than 15." McCabe/Love 2019(BiB 21(4):1277):"sparse mCCA and MOFA appear to overfit ... while AJIVE does not overfit""Sample sizes of n=50 or below may result in inconsistent fitting ... correlations found in training data do not generalize to held out data"。MOFA 稳定性证据绑定于 n=200 CLL 队列,论文未声明最小样本量。
MOFA · 粒度与缺失处理粒度匹配高置信多源

MOFA 以"样本"为共享维度,TCGA 式队列整合,自动处理缺失模态

数据模型是共享样本/观测索引的矩阵(非同细胞共测),能处理不同特征数、自动忽略缺失值(无隐式插补),匹配本项目样本层场景。

MOFA2:"a factor analysis model that provides a general framework for the integration of multi-omic data sets in an unsupervised fashion"。FAQ:"It simply ignores them from the likelihood, there is no hidden imputation step"。但 vignette 警告 "there has to be a significant degree of matched measurements"(模态间须有足够样本重叠)。
Python-only 可行性满足 pe_env高置信3-0

MOFA 全栈有纯 Python 实现,无需安装 R

核心训练在 mofapy2(纯 Python/NumPy,pip install mofapy2);R 包 MOFA2 仅为可选封装。scverse 的 muon(100% Python,NumFOCUS)内置 mu.tl.mofa();MOFAcell 经 liana-py 提供 Python 路径——满足 pe_env 仅 Python 的约束。

mofapy2 docs:"The core of MOFA is implemented in the Python package mofapy2"。muon(Genome Biology 2022):"muon is a multimodal omics Python framework ... part of the scverse project",源码直接 import mofapy2、无 rpy2/R 调用。eLife 93161:"We provide a R package ... and a python implementation (liana-py)"
DIABLO · 监督整合监督轨道高置信3-0 / 2-1

DIABLO 是有监督多块判别,针对 PE/对照结局做样本层整合,基准 MCC 领先

mixOmics 的 N-integration(同一批样本上不同检测),多块 sPLS-DA + 设计矩阵最大化跨组学协方差,稀疏特征选择利于可解释机制。监督基准中位 MCC 最高、被荐为通用兜底。宿主语言为 R。

mixOmics:"DIABLO ... is a supervised, N-integration method for integrating multiple datasets in relation to a categorical outcome variable",N-integration = "integrating different types of omics data measured on the same N biological samples"。bbae331(2024):DIABLO 参考场景中位 MCC 0.52(次 0.51 近平局),"In other cases, DIABLO should be favored"
边界:基准在 TCGA 规模下做 5 折 CV,未验证 n=8/组可靠性。
MEFISTO · 边界对本项目受限高置信3-0

MEFISTO 仅在样本有连续空间/时间协变量时增值,对静态病例/对照无用

MEFISTO 是 MOFA 框架内加高斯过程建模空间/时间依赖的扩展(同为 Python)。但需连续协变量驱动 GP 先验;分类的病例/对照标签不能驱动 → 退化为普通 MOFA。仅可能用于 MALDI-MSI/Visium 的样本内空间整合,且本项目缺切片图像使应用受限。

Velten 2022(Nature Methods):MEFISTO "combines factor analysis with ... Gaussian processes to model spatio-temporal dependencies"。muon 教程:"Without this structure, MEFISTO reduces to standard MOFA functionality"
模态纳入策略 · 反直觉别贪婪高置信3-0

整合更多组学并不一定更好,反而可能损害性能

两篇独立同行评审基准(任务不同)一致:加入更多数据类型常使整合性能下降(噪声相消、冗余、统计挑战)。本项目应谨慎、有选择纳入模态,优先信号已验证、样本重叠好的组学。

Duan 2021(PLOS Comput Biol,10 方法×9 癌种×11 组合):"Refuting the widely held intuition that incorporating more types of omics data always produces better results ... integrating more omics data negatively impacts the performance"。BMC MIDM 2024(5 组学全 31 组合×14 癌种生存):"The introduction of more data types most often resulted in a decline in performance"
整合聚类 · 样本分层探索性辅助高置信3-0

癌症亚型基准:NEMO/SNF 居前,但排名场景依赖;n=8 分层意义有限

十方法基准中 NEMO 总体最佳、其次 SNF/iClusterBayes/LRAcluster;但排名随场景而变、存在跨设计乐观偏差。SNF 有 Python 实现(snfpy)适配 pe_env,但 8 例做无监督分层统计可行性弱,至多作探索性辅助。

Duan 2021(PLOS Comput Biol):"NEMO has the best overall performance followed by SNF, iClusterBayes, and LRAcluster""NEMO and SNF are recommended for general cancer subtyping tasks"。2024/2025 其他基准(PIntMF/DIABLO)排名不同,反映 Nießl 2024 的跨设计乐观效应。
明确不要用 / 慎用避坑高置信聚合

同细胞多模态法不适用;小 n 下多数无监督整合需高度保留

  • ❌ Seurat WNN / totalVI / multiVI——需同一细胞共测多模态,本项目是跨独立检测的样本层整合,不适用。
  • ⚠ MOFA/MOFA+ 无监督因子——n=8 远低于可靠区,无稳健性检验则不可信。
  • ⚠ SNF/iClusterBayes 整合聚类——8 例分层统计意义有限。
  • ⚠ MEFISTO——对静态病例/对照设计退化为普通 MOFA,无增值。
  • ✅ 澄清:"muon 仅面向同细胞数据"的说法本轮被否决(1-2)——muon 可作 Python 统一容器承载样本层 MOFA。
待解决(本轮未产出可落地答案,值得第三轮或实测):① n=8 下 MOFA/MOFAcell 因子的具体稳健性筛选 SOP(bootstrap 重现比例、置换 null 解释方差门槛);② AJIVE(小 n 最稳、有 Python 实现)能否作为更稳健替代/交叉基准,与 MOFAcell pseudobulk 用法是否兼容;③ scITD/DIALOGUE/Spectra/scHPF 在 n=8 的可行性(本轮未获验证 claim,scITD repo);④ MOFAcell 与 WGCNA 双轨的具体工程衔接(替换模块 vs 第三条并行轨再做三方 Jaccard/Fisher 收敛)。

08这些调研到底有没有价值?(做 vs 不做)

诚实评估:相对于"不做调研、直接照已锁定方案开干",这两轮 deep research + 一次实跑,对本项目改变了什么。结论先行——净值主要在 避坑省时防小样本过度解读决策有据真实信号加固 四类;它没有产生新生物学结论,核心结论仍来自样本级 DESeq2 + GSEA。

避坑 避免走错路/返工 省时 少纠结/少试错 有据 决策有证据支撑 加固 为真实结论加独立佐证
环节不做调研的默认路径调研改变了什么价值
空间配准按算法书用 elastix 同切片仿射+B-spline同病种 PE 胎盘论文证明应是相邻切片 + landmark spot-match;当前范式有同场景反例 → 避免在错误方案上耗时(且呼应项目缺切片图像的现实)避坑
跨组学整合易顺手抓 Seurat WNN/totalVI(最流行的"多模态"法)厘清本项目是样本层 n=8、非同细胞共测 → 这类法结构上不适用,避免一条走不通的路;正解是 MOFAcell/DIABLO避坑
小样本解读在 n=8 上跑整合、得到因子就当真写进交付给出 MOFA 自述 ">15"、独立基准 n≤50 过拟合的硬证据,并实跑证明 F1/F3 是单样本离群因子 → 避免把伪信号当结论避坑
双细胞剔除用 2021 流行的 DoubletFinder后续基准显示已被 scDblFinder 超越(AUPRC/速度)→ 直接用更优工具省时
去卷积 RCTD保留,但心里没底、可能反复评估两个独立同行评审基准确认 RCTD 属最优梯队 → 保留有据,省去纠结(并加 cell2location 交叉)有据
MSI / 代谢注释空白,从零摸索 MSI 处理与代谢物注释同病种 PE 研究已用 Cardinal 3 + pySM → 直接复用同病种范式省时
细胞注释参考用通用图谱指向 Vento-Tormo 2018 母胎界面图谱(含 EVT/SCT)→ 更贴合的滋养层注释有据
实跑 MOFAcell无跨组学层面的独立佐证实跑显示干扰素/炎症轴跨 6 细胞类型 + 蛋白组收敛(CD74 第 97 百分位)→ 为一条已确认轴加上跨组学独立佐证加固
同样诚实地说——它没带来什么 / 局限:
  • 没有新生物学:核心结论仍来自样本级 pseudobulk DESeq2 + GSEA;调研的作用是"选对工具、避开坑、加固佐证",而非"发现新机制"。
  • 部分结论资深生信本就知道(如 WNN 需同细胞数据);价值在于把这些以证据固化,并捞出没那么显然的(同病种配准反例、DoubletFinder→scDblFinder 的迭代)。
  • 空白工具仍是候选:TMT 蛋白搜库、血清 LC/GC-MS、药物逆转等给的是有依据的起点,尚未对抗验证,不是定论。
  • n=8 是硬约束,任何工具都改不了——调研在这里的价值恰恰是诚实地划出这条线,而非假装能跨过。
底线:这些调研的净价值 = 避免至少 2–3 处实打实的返工/死路(空间配准范式、同细胞法误用、小样本伪信号)+ 把若干工具决策从"凭经验"升级为"有证据" + 给一条真实结论加了跨组学佐证。它保护并增强了既有的严谨样本级分析,而不取代它。对一个要发表、且数据有硬约束的项目而言,"少踩一个坑"通常比"多一个工具"更值钱——这正是本轮的主要回报。

09注意事项与边界

  • 时效性:"工具排名"比"是否纳入某步骤"更易过期——双细胞最优工具已从 DoubletFinder 迁移到 scDblFinder;scIB 基准虽仍是领域标准,但 2024–2026 有后续工作精炼其指标。
  • 样本量边界:scVI/Scanorama 推荐基于"足够大数据集",本项目约 11 例可能落在"较小任务"区间(scIB 称此时 Harmony 可能有用);升级建议依赖"EVT/SCT 高复杂度"框架,需在真实细胞数上判断,scVI 在 cells<genes 时可能过拟合。
  • 平台不匹配:阶段 8/9 最关键的同病种实证用 DESI-MSI(非项目 MALDI-MSI),其 spot-match 针对相邻切片(非同切片);Cardinal/pySM 虽原生支持 MALDI/imzML,但"同病种已验证"强度限于 DESI;该论文 SmetDB 注释库为专有非开源(故 #9 证据等级为 medium)。
  • 去卷积平台细节:Stereoscope 在 10x Visium 上具体表现并不差,"优于 Stereoscope"仅在"整体排名"意义上成立。
  • 未验证覆盖:第 06 节"待补空白"的工具未获本轮对抗论断覆盖,仅为候选;报告未对其给出实证结论。
  • 流程性质:本报告为对 19 条已通过 3 票验证论断的综合,未在综合阶段重新独立检索;置信度基于来源质量评估。

项目 2605136 · 子痫前期胎盘多组学整合 — 生信工具选型调研报告。由 Claude Code deep-research 多智能体流程生成:第一轮全栈(107 智能体 / 25 来源 / 19 条确认)+ 跨组学整合专题第二轮(105 智能体 / 23 来源 / 23 条确认),均经 3 票对抗式验证,2026-06-17。

本报告为工具选型决策支持,不构成对任一工具的最终背书;落地前请结合项目真实数据与专家评审。所有"候选·未验证"项需后续专门调研。相关:项目交付站 pe.sinogenomics.com。