项目编号:IBFC201874701
撰写员:潘瑞青
提交日期:20181107
北京贝瑞康生物技术限公司
生物信息分析部北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
1
目录
1 建库测序流程2
11 样检测2
12 文库构建检测3
13 文库质检机测序3
2 信息分析流程3
3 分析结果展示4
31 数产出质控4
311 原始数说明4
312 数质量说明5
313 数质控5
32 参考基组分析6
33 测序覆盖度分布7
34 SNPInDel 检测注释8
341 SNP 检测注释结果9
342 InDel 检测注释结果 10
35 子代 SNP11
351 子代 SNP 频率计算 11
352 子代 SNP 频率分布13
353 子代 SNP 频率差异14
36 子代 InDel 频率分析 15
361 子代 InDel 频率计算 15
362 子代 InDel 频率分布 16
363 子代 InDel 频率差异 17
37 合子代 SNP InDel 频率差异分析18
371 合子代 SNPInDel 频率18
372 合分布19
373 合差异21
374 基 SNPInDel 标记目标性状区域定位22
38 基 SNPInDel 标记目标性状区域定位23
4软件数库23
5参考文献23北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
2
1 建库测序流程
样品检测建库测序环节会数质量数量产生影响数质量会直
接影响续信息分析结果获高质量数保证生物信息分析正确全面信
前提保证测序数准确性性样品检测建库测序生产步
骤严格控根确保高质量数产出
提取样品通严格质检合格样品 DNA 片段机断构建文库添
加接头(adaptor)PCR 扩增然利 illumina 测序仪进行测序实验流程图:
图 1 实验流程图
11 样检测
BSA 性状定位测序样 DNA检测方法包括三种:
(1)Nanodrop 检测 DNA 浓度纯度(OD260280 值)
(2)琼脂糖凝胶电泳分析 DNA 降解程度否 RNA蛋白质污染
(3)Qubit DNA 浓度进行精确定量北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
3
12 文库构建检测
基组 DNA Covaris 破碎仪机断成长度 350bp 片段 末端修复加
A 尾片段两端分连接接头制备 DNA 文库 PCR 线性扩增文库质检检测
合格文库进行机测序
13 文库质检机测序
文库构建完成先 Qubit20 进行初步定量 Agilent2100 文库
insertsize 进行检测insertsize 符合预期 qPCR 方法文库效浓度进行准确 定
量保证文库质量
库检合格进行 Illumina HiSeq2500XTen NovaSeq 台 PE150 测序
2 信息分析流程
(1)原始机数做质控分析 Clean data
(2) Clean Data 参考基组进行
(3)做 SNPInDel 检测注释
(4)计算 SNPindex
(5)判断候选区域筛选基北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
4
图 2 信息分析流程图
3 分析结果展示
31 数产出质控
311 原始数说明
高通量测序原始图数文件 CASAVA 碱基识(Base Calling)分析转化原
始测序序列(Sequenced Reads)称 Raw Data Raw Reads结果 FASTQ (简称
fq)文件格式存储中包含测序序列(reads)序列信息应测序质量信息
FASTQ 格式文件中 read 四行描述:
@HWIST127671C1162ACXX1110112082458 1N0CGATGT
NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGA
+
#55BBBBBBA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFDAEHH
中第行@开头 Illumina 测序标识符(Sequence Identifiers)描述文
字(选择性部分)北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
5
第二行碱基序列
第三行+开头 Illumina 测序标识符(选择性部分)
第四行应碱基测序质量该行中字符应 ASCII 值减 33应
第二行碱基测序质量值
312 数质量说明
测序质量测序程 BaseCalling 程中识碱基出错误概率衡
碱基测序正确性
测序质量 字符应 ASCII 值–33 碱基质量值范围:(0~40)
测序错误率 测序质量值
5 13
1 20
01 30
001 40
具体计算公式:
般说 Q20 达 90指:质量值等 20 碱基数占例 90
313 数质控
测序 raw reads效里面含 adapter reads重复low quality
reads reads 会影响续分析必须机 reads 进行滤干净
效 reads
数滤步骤:
1 含 adaptor reads
2 N 例 10 reads
3 低质量 reads(质量值 Q < 3 碱基数占整 read 50%)
4 获 Clean reads
表 313 机数质控北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
6
#Sample NAME NO CleanReads CleanBases CleanQ20 CleanQ30 CleanGC Length
F4851 306306 34615103 10384530900 98379781 94799326 36363639 150150
ganchiS 307307 69586695 20876008500 98179677 94299100 36433650 150150
kangchiR 308308 82263579 24679073700 98249748 94569261 36143616 150150
F5034 355355 52149052 15644715600 98019677 93939110 37303740 150150
数质量情况详细容:
(1) Sample Name 样名
(2) NO 文库 ID
(3) CleanReads(pair):滤效数量滤测序 Pairend 序列数
(4) Clean Base(bp):滤效数量滤测序序列数测序序列长度 bp
单位
(5) CleanQ20CleanQ30:Phred 数值 2030 碱基占总体碱基百分
(6) Cleam GC Content():碱基 G C 数量总占总碱基数量百分
(7) Reads Length:测序序列长度
数路径:1fqQC\QC_readsxls
32 参考基组分析
效数量数情况分析准确性影响突变检测分析前需
进行数产出量统计结果统计数进行适筛选利续分析结
果性
clean reads 采 BWA 软件 clean reads 参考基组做初始结
果 sam 格式利 samtools 软件结果转 bam 格式排序果样品结果包
含文库 samtools 文库 bam 结果合 picard 标注重复序列进行数
基信息统计 map 统计统计结果:
表 32 统计结果表
Sample F4851 F5034 ganchiS kangchiR
Clean reads 69230206 104298104 139173390 164527158
Clean bases(bp) 10384530900 15644715600 20876008500 24679073700
Mapped reads 67056124 101627634 135024220 160496472
Mapped bases(bp) 10058418600 15244145100 20253633000 24074470800
Mapping rate 9686 9744 9702 9755北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
7
Duplicate reads 14967642 23570974 33928900 40574259
Duplicate rate 2232 2319 2513 2528
Mismatch bases(bp) 147417457 139495392 242061649 279706439
Mismatch rate 147 092 120 116
Average sequencing depth 1543 2314 2947 3517
Coverage 9426 9736 9906 9915
Coverage at least 4X 8998 9457 9779 9824
Coverage at least 10X 6764 8735 9310 9506
Coverage at least 20X 1092 4720 7189 8380
Coverage at least 50X 158 271 444 662
注:
Sample:样品名Clean reads:滤 Clean reads 总数
Clean bases(bp):滤 Clean base 总数
Mapped reads:参考基组 reads 总数
Mapped bases(bp):参考基组 base 总数
Mapping rate:Map 例Duplicate reads:Duplicate reads 总数
Duplicate rate:Duplicate 例Mismatch bases(bp):Mismatch base 总数
Mismatch rate:Mismatch 例Average sequencing depth:均测序深度
Coverage:覆盖度Coverage at least 4X:深度等 4x 覆盖区域例
Coverage at least 10X:深度等 10x 覆盖区域例
Coverage at least 20X:深度等 20x 覆盖区域例
数路径:2mapQCxls
33 测序覆盖度分布
测序覆盖度分布衡量测序均性重指标统计测序覆盖度分布情况
视化展示出样品 F4851 例图:北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
8
图 331 测序深度分布图
数路径:2mapQC\*\*_histPlotpdf
横坐标表示单碱基测序深度坐标表示特定深度碱基数占单碱基深度符合正态分
布
图 332 测序深度累积分布图
数路径:2mapQC\*\ *_cumuPlotpdf
横坐标表示单碱基累积测序深度(等)坐标表示特定累积深度碱基占总数
百分
34 SNPInDel 检测注释
SNP(单核苷酸态性) 指基组水单核苷酸变异引起 DNA 序
列态性包括单碱基转换颠换等北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
9
基测序产生序列基组参考序列结果采 samtoolsGATK 等软件
Call snp indelAnnovar 软件 snpindel 位点进行注释确定 variant 位点应基
信息义非义突变氨基酸影响等信息
Annovar 注释变异(SNPSmall InDel)预测变异影响优秀软件根变
异位点参考基组位置参考基组基位置信息变异位点基
组发生区域(基间区基区 CDS 区等)变异产生影响(义非义突
变等)
341 SNP 检测注释结果
ANNOVAR 种高效软件工具利新信息基组检测出
基变异进行功注释出变异染色体起始位点终止位点参考核苷酸
变 异 核 苷 酸 ANNOVAR 进 行 Genebased annotation Regionbased annotations
Filterbased annotation Other functionalities鉴 ANNOVAR 强注释功国际认
性利 SNP 检测结果进行注释
表 341 SNP 检测注释结果统计
Total snp 5542579
Het 1801046(3249)
Homo 3741533(6751)
synonymous SNV 94495(170)
nonsynonymous SNV 105153(190)
exonic 201566(364)
intergenic 4220696(7615)
intronic 466914(842)
UTR3 38867
UTR5 26325
UTR5UTR3 3
downstream 264076
exonicsplicing 12
splicing 684
stopgain 1681
stoploss 249
upstream 304118
upstreamdownstream 19318
TiTv 17
注:北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
10
downstream 基游区域(1K )
Het:杂合突变
Homo:纯合突变
intergenic 基间区
intronic 基(转录信息)
intronic 含子区域
nonsynonymous SNV 非义编码突变
splicing剪切附突变(exon 前 2bp )
stopgain 终止密码子获
stoploss 终止密码子丢失
ncRNA_* 应 ncRNA
synonymous SNV 义编码突变
upstream 基游区域(1K )
UTR3 基 3’UTR
UTR5 基 5’UTR
TiTv:转换颠换率
数路径:4annotation\BSA_annosnp_statxls
342 InDel 检测注释结果
表 342 InDel 检测注释结果统计
Total indel 756983
Het 86872(1148)
Homo 670111(8852)
exonic 5944(079)
intergenic 485786(6417)
intronic 101725(1344)
UTR3 10045
UTR5 7679
UTR5UTR3 2
downstream 64342
exonicsplicing 4
frameshift deletion 1346
frameshift insertion 1206
nonframeshift deletion 1626北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
11
nonframeshift insertion 1636
splicing 322
stopgain 107
stoploss 27
upstream 75847
upstreamdownstream 5287
注:
frameshift deletion 非 3 整数倍删
frameshift insertion非 3 整数倍插入
nonframeshift deletion密码子删(3 整数倍)
nonframeshift insertion密码子插入(3 整数倍)
downstream基游区域(1K )
intergenic 基间区
intronic 基(转录信息)
intronic 含子区域
Splicing剪切附突变(exon 前 2bp )
ncRNA_* 应 ncRNA
stopgain 终止密码子获
stoploss 终止密码子丢失
synonymous SNV 义编码突变
upstream 基游区域(1K )
UTR3 基 3’UTR
UTR5 基 5’UTR
数路径:4annotation\BSA_annoindel_statxls
35 子代 SNP
351 子代 SNP 频率计算
减少测序错误错误造成影响滤态性位点滤标准:
(1)两子代中 SNPindex 02 SNP 深度 7 位点滤掉北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
12
(2) 子代 SNPindex 缺失位点滤掉
(3) 子代池中 GQ 20 位点滤掉
筛选滤 2480692+378511(SNP+INDEL)态性标记位点部
分位点 SNPindex 信息见表
表 35 部分位点 SNPindex 信息
CHROM Chr1 Chr1
POS 218 237
REF G T
ALT C A
Ref_depth_LOW 15 19
Alt_depth_LOW 28 28
Depth_LOW 43 47
SNPindex_LOW 035 04
Ref_depth_HIGH 38 38
Alt_depth_HIGH 24 26
Depth_HIGH 62 64
SNPindex_HIGH 061 059
注:
CHROM:染色体名
POS:SNP 位点
REF:该位点参考基组碱基型
ALT:该位点突变碱基型
Ref_depth_*:样品支持参考基组碱基型 reads 数
Alt_depth_*:样品支持突变碱基型 reads 数
SNPindex_*:样品该 SNP 位点 SNP 频率
Depth_*:样品该 SNP 位点 reads 支持数
数路径:5region_selected\*\*\raw_variantsxls北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
13
352 子代 SNP 频率分布
根 SNP 频率分布分析结果 SNPindex 染色体分布进行作图选择 200kb
窗口计算窗口中 SNPindex 均值反应子代 SNPindex 分布
抗虫子代池 SNPindex 染色体分布曼哈顿分布图:
图
3521a
:子代
SNP index
染色体分布
数路径:5region_selectedSNPHIGHpng
图
3522a
:子代
SNP index
染色体分布
横轴:染色体名称长度(Mb)轴:SNPindex
数路径:5region_selectedSNPHIGH_chrspng
感虫子代 SNPindex 染色体分布曼哈顿分布图:北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
14
图
3521a
:子代
SNP index
染色体分布
数路径:5region_selectedSNPLOWpng
图
3522b
:子代
SNP index
染色体分布
横轴:染色体名称长度(Mb)轴:SNPindex
数路径:5region_selectedSNPLOW_chrspng
353 子代 SNP 频率差异
子代 SNPindex 作差:△(SNPindex) SNPindex(极端性状 B)SNPindex(极端性状
A)选 90(a白色b黑色)置信水作筛选阈值
根分布结果绘制染色体分布情况:北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
15
图 3533a: 子代
△
(SNPindex)染色体分布
数路径:5region_selectedSNPINDEXpng
图 3533b: 子代
△
(SNPindex)染色体分布
横轴:染色体名称长度(Mb)轴:
△
(SNPindex)
数路径:5region_selectedSNPINDEX_chrspng
36 子代 InDel 频率分析
361 子代 InDel 频率计算
基基分型结果筛选亲间纯合差异 InDel 位点选择亲 AA(极端性状 A)
作参考分析计算子代亲中标记位点 Indelindex
表 6:部分 InDel index 信息
CHROM Chr1 Chr1 Chr1
POS 31071 31478 33667
REF AC CGGG A北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
16
ALT G T GTT
GenotypeP1 AC C A
DPP1 10 5 16
AD_REFLOW 34 34 20
AD_ALTLOW 36 52 48
DPLOW 70 86 68
SNPindexLOW 0514285714 0604651163 0705882353
数路径:5region_selected INDELraw_variantsxls
362 子代 InDel 频率分布
根抗虫子代 InDel 频率分析结果绘制染色体分布图:
图 3621a:子代 InDelindex 染色体分布
数路径:5region_selectedINDELHIGHpng
图 3621b:子代 InDelindex 染色体分布
横轴:染色体染色体长度(Mb)轴:InDelindex北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
17
数路径:5region_selectedINDELHIGH_chrpng
根感虫子代 InDel 频率分析结果绘制染色体分布图:
图 3622a:子代 InDelindex 染色体分布
数路径:5region_selectedINDELLOWpng
图 3622b:子代 InDelindex 染色体分布
横轴:染色体染色体长度(Mb)轴:InDelindex
数路径:5region_selectedINDELLOW_chrpng
363 子代 InDel 频率差异
两子代 InDelindex 作差:
△
(InDelindex) InDelindex(极端性状 B)InDelindex(极端
性状 A)选取 90(a白色b黑色)置信水作筛选阈值北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
18
图 3631a:子代
△
(InDelindex)染色体分布
数路径:5region_selectedINDELINDEX_chrpng
图 3631b:子代
△
(InDelindex)染色体分布
横轴:染色体染色体长度(Mb)轴:
△
(InDelindex)
数路径:5region_selectedINDELINDEX_chrpng
37 合子代 SNP InDel 频率差异分析
371 合子代 SNPInDel 频率
全部位点合分析部分位点 Allindex 信息
表 7:部分 Allindex
chr pos ref alt Genoty
peP1
DP
P1
AD_R
EFLO
W
AD_A
LTLO
W
DPLO
W
SNPindex
LOW
AD_RE
FHIGH
AD_AL
THIGH
DPHIG
H
SNPindex
HIGH
deltaSNP
Chr1 31071 AC G AC 10 34 36 70
051428571
4
26 22 48
045833333
3
0055952
381北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
19
Chr1 31478 C T C 5 34 52 86
060465116
3
40 34 74
045945945
9
0145191
703
Chr1 33667 A
GT
T
A 16 20 48 68
070588235
3
24 29 53
054716981
1
0158712
542
Chr1 34057 C T C 12 38 40 78
051282051
3
29 26 55
047272727
3
0040093
24
Chr1 35239 A CA A 15 25 36 61 059016393 40 60 100 06 0009836
Chr1 38389 T C T 6 36 42 78
053846153
8
42 40 82
048780487
8
0050656
66
Chr1 55398 A G A 7 25 46 71
064788732
4
66 62 128 0484375
0163512
324
Chr1 84683 A
CT
AT
G
A 4 34 35 69
050724637
7
43 46 89
051685393
3
00096075
56
Chr1
15685
4
A T A 12 32 29 61
047540983
6
30 24 54
044444444
4
0030965
392
数路径:5region_selectedALLraw_variantsxls
372 合分布
根合 Allindex 结果绘图展示:
图 3721a:子代 Allindex 染色体分布
数路径:5region_selectedALLHIGHpng北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
20
图 3721b:子代 Allindex 染色体分布
横轴:染色体长度(Mb)轴:Allindex
数路径:5region_selectedALLHIGH_chrpng
根合 Allindex 结果绘图展示:
图 3722a:子代 Allindex 染色体分布
数路径:5region_selectedALLLOWpng北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
21
图 3722b:子代 Allindex 染色体分布
横轴:染色体长度(Mb)轴:Allindex
数路径:5region_selectedALLLOW_chrpng
373 合差异
两子代 Allindex 作差:
△
(Allindex) Allindex(极端性状 B)Allindex(极端性状
A)选取 90(a白色b黑色)置信水作筛选阈值
图 3731a:子代
△
(Allindex)染色体分布
数路径:5region_selectedALLINDEXpng北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
22
图 3731b:子代
△
(Allindex)染色体分布
横轴:染色体长度(Mb)轴:
△
(Allindex)
数路径:5region_selectedALLINDEX_chrpng
374 基 SNPInDel 标记目标性状区域定位
选择 90置信水阈值窗口作候选区间
CHROM qtl start end length nSNPs avgSNPs_Mb peakDeltaSNP avgDeltaSNP
Chr01 1 50625118 51245143 620025 4990 8048 0418211896 0412552076
Chr02 1 2122130 4986753 2864623 20838 7274 0543291181 0503151847
Chr02 2 5721178 5876332 155154 131 844 0431353321 0424253527
Chr02 3 6918622 7387350 468728 1987 4239 0509581505 0484844221
Chr02 4 7719290 8099163 379873 1990 5239 0514000543 048379809
注:
CHROM:染色体名
qtl 该 QTL 区间某染色体排序
Start 该 QTL 染色体起始位置
end 该 QTL 染色体结束位置
length 该 QTL 染色体长度
nSNPs 该 QTL 染色体高质量 SNPINDEL 数量
avgSNPs_Mb 该 QTL 染色体高质量 SNPINDEL 数量 Mb
peakED 该 QTL 高质量 SNPINDEL 应 ED 峰值
avgED 该 QTL 高质量 SNPINDEL 应 ED 均值北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
23
数路径:5region_selected\All\region_selectedxls
38 基 SNPInDel 标记目标性状区域定位
选择 90置信水阈值窗口作候选区间全基组范围挑选候选 SNP
InDel挑选子代池中 ganchiS Allindex 接 02kangchiR 接 095 位点候选
位点提取 ANNOVAR 注释结果优先挑选引起 stop loss 者 stop gain 者非义突变
变剪接位点基作候选基候选基列表请见:
表 8:部分候选基统计
Trans_ID Varients_
Type
CHRO
M
POS Ref Alt Gene Annotat
ion
Phvul001G253900 upstream Chr01 51100464 T C Phvul001G253900 NA
Phvul001G253900 upstream Chr01 51100521 A G Phvul001G253900 NA
Phvul001G253900 upstream Chr01 51100526 T C Phvul001G253900 NA
数路径:6gene_selected\candidate_genexls
4软件数库
Annovar
BWA (BurrowsWheeler Aligner) 075ar405
picardtools 157
samtools (Sequence AlignmentMap Tools) 0119
GATK 38
5参考文献
1McKenna A Hanna M Banks E et al The Genome Analysis Toolkit a MapReduce
framework for analyzing nextgeneration DNA sequencing data[J] Genome research 2010 20(9)
12971303
2 Li H et al The Sequence AlignmentMap format and SAMtools Bioinformatics 2009
25(16) p 20789北京贝瑞康生物技术限公司 wwwberrygenomicscom 01084409702
专业值信赖
专业值信
24
3Takagi H Abe A Yoshida K et al QTL‐seq rapid mapping of quantitative trait loci in rice
by whole genome resequencing of DNA from two bulked populations[J] The Plant Journal 2013
74(1) 174183
4Cingolani P Platts A Wang le L et al A program for annotating and predicting the effects
of single nucleotide polymorphisms SnpEff SNPs in the genome of Drosophila melanogaster
strain w1118 iso2 iso3 Fly (Austin) 2012 AprJun6(2)8092
5Wang K Li M Hakonarson H ANNOVAR functional annotation of genetic variants from
highthroughput sequencing data Nucleic acids research 2010 38(16)e164
6 Cunpeng Z Guiyuan Z Zhao Get alPhysical mapping and candidate gene prediction of
fertility restorer gene of cytoplasmic male sterility in cotton BMC Genomics 2018 19(1)6
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档