PK200

首页 > 游戏资讯 > 正文

基因辅助选择是什么意思,基因组件

时间:2024-03-30 04:35:59

榨汁机

基因辅助选择是什么意思,基因组件

简介本文主要简要介绍了用于处理HiC 数据的Juicer 程序,并展示了如何使用Juicer 在基因组组装中执行染色体安装的第一步。

1. 算法概述

Juicer[1]是一个提供一键循环解析分析的程序。

特点一键处理terabase 规模的Hi-C 数据集,自动标注循环和域Juicer 兼容多种集群操作系统和Amazon Web Services,开源程序2. 安装2.1. 运行环境要求Juicer 最低软件要求是在Windows、Linux 和Mac OSX 上运行Java 安装(版本=1.8)。我们建议使用最新的Java 版本,但不要使用Java Beta。运行Java 的最低系统要求可以在sysreq[2] 中找到。要下载并安装最新的Java 运行时环境(JRE),请访问java[3]。 GNU CoreUtils; 最新版本的GNU coreutils 可以从coreutils[4] 下载。 Burrows-Wheeler Aligner (BWA) 可以从BWA 下载并安装[5]。基本上上述环境要求都是在Linux服务器上设置的,使用前只需检查Java和bwa版本即可。

2.2. 安装以下安装环境运行在Ubuntu系统上,使用conda安装bwa。

创建目录# 新建Juice 目录mkdir Jucer cd Juuser # 新建参考基因组相关文件目录mkdirreferences # 新建样本序列文件和分析结果目录mkdir work # 新建参考基因组限制图谱目录mkdirstriction_sites 目录结构

下载Juicer 时需要记住以下几点。在Github上下载仓库时不要使用git clone。因为这将拉取最新版本,该版本仍在开发中并且充满错误。我们建议从发行版下载1.6 版本。

不知道如何下载的朋友可以私信小编获取。

安装榨汁机

bwa Installation# 创建并安装新的conda 环境conda create -n Jucier -c bioconda bwa -y# 激活环境conda activate jucier configure jucier# 脚本链接ln -s 构建榨汁机/CPU 脚本# 脚本必须在榨汁机中directory #切换目录cd script/common# Juicer_tools.1.9.9_jcuda.0.8.jarwget -c https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar # 下载创建符号链接ln -s Juicer_tools. 1.9.9_jcuda .0.8.jar Juicer_tools .jar3.实际运行Juicer 生成用于3D-DNA 染色体安装的merged_nodups.txt 文件我将详细解释如何执行此操作。

构建基因组索引# 要生成酶切图文件,将基因组放置在jucier/reference 目录中bwa Indexgenome.fa # DpnII 必须替换为测序过程中使用的酶#genome 将python 替换为你的名称基因组python /home/juicer/misc/generate_site_positions.py DpnII基因组/home/juicer/references/genome.fa 生成染色体长度文件# 上一步生成的genome_DpnII.txt文件awk' BEGIN{OFS='t'} {print $1, $NF}'genome_DpnII.txtgenome.chrom.sizesfastq file#在juicer/work文件夹下创建fastq文件夹,并保存fastq文件mkdir fastq#file 名称必须按照以下格式组织:work fastq Sample1_R1.fastq.gz Sample1_R2.fastq.gz Sample2_R1.fastq.gz Sample2_R2.fastq.gz Sample3_R1.fastq.gz Sample3_R2.fastq.gz # 当你运行nohup 命令,程序挂在后台,会执行nohup /home/juicer/scripts/juicer.sh -z /home/juicer/references/genome.fa - p /home/juicer/restriction_sites/genome.chrom 。sizes -y /home/juicer/restriction_sites/genome_DpnII.txt -s DpnII -d /home/juicer/work/-D /home/juicer -t 40 log.txt# -z 参数指定路径指定参考基因组fasta所在的位置,对应的bwa索引也必须驻留在该路径中# -p参数指定染色体长度文件; # -y指定基因组消化图的路径# -d指定保存基因组消化的路径映射到原始样本文件; # -D 指定软件安装路径; # -t 指定用于比较bwa的线程数,默认使用所有线程。结果,Juicer操作完成后,主要有两个目录:

中间结果存储在splitssplits目录中,但由于hi-C数据量较大,我们将原始序列分成几个部分并并行运行以加快处理速度。默认情况下,每个副本包含22.5M 读取。当然,这可以通过-C参数来调整,该参数指定将文件分割成的行数。默认值为90000000。注意fastq文件中的4行代表一个序列,因此该参数的值必须是4的倍数。通过bwa 将分割序列的R1 和R2 端与基因组进行比较,然后合并以筛选嵌合序列、去除重复序列并生成预处理的结果文件。

最终结果保存在alignedaligned目录下,包含后缀为hic的map文件,可以导入到juicebox、inter.hic和inter_30.hic中。图30表示经过MAPQ 30过滤后的结果。

其中,“merged_nodups.txt”是下一步3D-DNA的输入文件之一。

参考文献[1]Juicer: https://www.cell.com/cell-systems/fulltext/S2405-4712(16)30219-8[2]sysreq: https://java.com/en/download/help/sysreq.xml[3]Java: https://www.java .com/download[4]coreutils: https://www.gnu.org/software/coreutils/manual/[5]BWA: http://bio-bwa.sourceforge.net/