用R包sommer做基因组选择：从单性状到多性状GBLUP，一份给育种新手的保姆级代码指南

张开发

• 2026/4/11 23:43:15 • 15 分钟阅读

分享文章

用R包sommer做基因组选择：从单性状到多性状GBLUP，一份给育种新手的保姆级代码指南

用R包sommer实现基因组选择从单性状到多性状GBLUP实战指南当我在研究生阶段第一次接触基因组选择时面对复杂的统计模型和编程实现曾一度感到无从下手。直到发现了R语言的sommer包这个强大的混合线性模型工具彻底改变了我的研究效率。本文将分享如何用sommer包从零开始构建GBLUP模型特别适合刚入门基因组选择的育种工作者和农业数据分析师。1. 环境准备与数据预处理在开始建模前我们需要确保环境配置正确并理解数据的基本结构。sommer包的优势在于它能处理复杂的遗传评估模型但前提是数据必须规范整理。首先安装并加载必要的包install.packages(sommer) library(sommer)sommer包自带的小麦数据集非常适合教学演示data(DT_wheat) # 表型数据 data(GT_wheat) # 基因型数据 DT - DT_wheat GT - GT_wheat关键预处理步骤检查数据维度dim(DT)显示599个样本的4个性状dim(GT)显示599×1279的SNP矩阵统一标识符确保表型和基因型数据的样本ID完全一致rownames(GT) - rownames(DT) # 强制统一行名 DT$id - as.factor(rownames(DT)) # 创建因子型ID列常见问题排查表问题现象可能原因解决方案模型报错维度不匹配样本ID未对齐检查rownames(DT)和rownames(GT)结果出现NA值基因型数据含缺失用A.mat()前先impute缺失基因型模型不收敛数据尺度差异大对表型数据进行标准化提示始终使用set.seed()固定随机数种子确保结果可重复。例如set.seed(2023)2. 单性状GBLUP模型构建单性状GBLUPST-GBLUP是基因组选择的基础模型我们先从最简单的形式开始。以X1性状为例随机选取20%个体作为验证集vv - sample(rownames(DT), round(nrow(DT)*0.2)) # 20%验证集 y.trn - DT y.trn[vv, X1] - NA # 屏蔽验证集表型构建加性关系矩阵和GBLUP模型K - A.mat(GT) # 计算基因组关系矩阵 st_model - mmer( X1 ~ 1, random ~ vs(id, Gu K), rcov ~ units, data y.trn, verbose FALSE )结果提取与解读育种值提取gebv - st_model$U$u:id$X1遗传力计算VG - st_model$sigma$u:id[1,1] # 遗传方差 VE - st_model$sigma$units[1,1] # 残差方差 h2 - VG/(VGVE) # 狭义遗传力验证集准确性评估cor(gebv[vv,], DT[vv,X1], use complete) # 预测准确性模型输出关键元素解析$sigma - 方差组分(原始尺度) $sigma_scaled - 标准化方差组分 $U - 随机效应预测值(BLUP) $VarU - BLUP方差 $PevU - 预测误差方差 $fitted - 拟合值 $residuals - 残差3. 多性状GBLUP进阶应用当同时分析多个相关性状时多性状GBLUPMT-GBLUP可以利用性状间的遗传相关提高预测精度。我们联合分析X1和X2性状y.trn[vv, c(X1,X2)] - NA # 同时屏蔽两个性状 mt_model - mmer( cbind(X1, X2) ~ 1, random ~ vs(id, Gu K), rcov ~ units, data y.trn, verbose FALSE )多性状模型特有输出解析# 遗传协方差矩阵 G - mt_model$sigma$u:id # 遗传相关 rg - G[1,2]/sqrt(G[1,1]*G[2,2]) # 表型相关 P - G mt_model$sigma$units rp - P[1,2]/sqrt(P[1,1]*P[2,2])多性状分析优势对比效率提升单次分析获得所有性状参数精度提高利用性状相关增强预测信息整合直接估计遗传相关注意当性状间遗传相关接近0时多性状模型可能不会带来明显改善4. 复杂模型扩展与实战技巧对于更复杂的遗传架构sommer支持多K矩阵模型。例如将基因组分成两部分分别构建关系矩阵# 将SNP分成两部分 half - floor(ncol(GT)/2) K1 - A.mat(GT[,1:half]) K2 - A.mat(GT[,(half1):ncol(GT)]) # 双K矩阵模型 multiK_model - mmer( cbind(X1, X2) ~ 1, random ~ vs(id, Gu K1) vs(id, Gu K2), rcov ~ units, data y.trn, verbose FALSE )高级应用技巧方差组分约束通过constraint参数限制方差为正大规模数据优化设置getPEVFALSE节省内存模型比较利用AIC/BIC选择最佳模型并行计算对多性状模型可启用多核加速常见错误及解决方案# 错误1Gu矩阵维度不匹配 # 解决检查dim(K)与length(unique(data$id)) # 错误2模型不收敛 # 解决调整init参数提供初始值或检查数据异常值 # 错误3内存不足 # 解决对大数据集使用sparseTRUE选项5. 结果可视化与报告生成优秀的分析需要专业的可视化呈现。以下是推荐的图形化方法育种值分布图library(ggplot2) gebv_df - data.frame( ID rownames(DT), GEBV st_model$U$u:id$X1, Set ifelse(rownames(DT) %in% vv, Validation, Training) ) ggplot(gebv_df, aes(xGEBV, fillSet)) geom_density(alpha0.5) ggtitle(GEBV Distribution)遗传相关矩阵热图library(pheatmap) pheatmap(G, display_numbers TRUE, cluster_rows FALSE, cluster_cols FALSE, main Genetic Covariance Matrix)实战中发现将关键结果整理成表格最受育种家欢迎。使用knitr::kable()生成出版级表格results - data.frame( Trait c(X1, X2), h2 c(h2_X1, h2_X2), Accuracy c(acc_X1, acc_X2) ) knitr::kable(results, digits 3, caption Genomic Prediction Results)最后提醒实际应用中要特别注意基因型质量控制先进行MAF过滤和缺失率筛选表型数据调整考虑固定效应如年份、地点的影响交叉验证设计采用k折交叉验证更可靠

用R包sommer做基因组选择：从单性状到多性状GBLUP，一份给育种新手的保姆级代码指南

最新文章

鲁班猫4 rk3588 IIC驱动0.96寸OLED，打造实时系统监控屏并实现后台守护

STM32 HAL库串口调试终极指南：5分钟搞定printf重定向（附常见问题排查）

Java 字符串常量池机制

MySQL进阶-SQL高级语法全解析

C#实战固高GTS运动控制卡：从IO控制到多线程状态监控的二次开发指南

SCD4X CO₂传感器Arduino驱动详解：光声传感与低功耗IAQ应用

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

AI意图识别避坑指南：我的模型为什么总把‘订机票‘识别成‘查天气‘？

Java的sun.misc.Unsafe：绕过JVM安全检查的直接内存操作

前端工程化演进史构建工具模块化与组件化

Python 中文编码

数据预处理方法

redis(day03-优惠券秒杀)

让微信网页版重新可用：wechat-need-web浏览器插件完全攻略

龙芯k - 久久派开发环境搭建及内核升级（下）吹

基于Phi-3 Forest Laboratory与卷积神经网络思想优化提示词工程

AudioSeal开源大模型应用：构建AIGC内容存证区块链的音频哈希锚定层

AI 时代，计算机专业学生该怎么学？簿

软件SLA介绍（Service Level Agreement，服务等级协议）（可签约SLA：服务提供方（厂商）与客户之间，就服务质量达成的可量化承诺协议）SLO服务目标、SLI服务指标、吞吐量

用R包sommer做基因组选择：从单性状到多性状GBLUP，一份给育种新手的保姆级代码指南

最新文章

鲁班猫4 rk3588 IIC驱动0.96寸OLED，打造实时系统监控屏并实现后台守护

STM32 HAL库串口调试终极指南：5分钟搞定printf重定向（附常见问题排查）

Java 字符串常量池机制

MySQL进阶-SQL高级语法全解析

C#实战固高GTS运动控制卡：从IO控制到多线程状态监控的二次开发指南

SCD4X CO₂传感器Arduino驱动详解：光声传感与低功耗IAQ应用

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

【信息安全概论实验报告1】隐写技术