Add pipeline 2 - DGE analysis

0022645d · Bhanu Priya · b2a90444 · 0022645d · 0022645d · 0022645d
Commit 0022645d authored 2 years ago by Bhanu Priya
--- a/vendor/shodhka/test_20220812/data/SampleGroups.txt
+++ b/vendor/shodhka/test_20220812/data/SampleGroups.txt
+Sample	Condition
+SRR15322680	Metastatic
+SRR15322681	Metastatic
+SRR15322682	Metastatic
+SRR15322683	Primary
+SRR15322684	Primary
+SRR15322685	Primary
--- a/vendor/shodhka/test_20220812/data/SampleInputFileLinks.txt
+++ b/vendor/shodhka/test_20220812/data/SampleInputFileLinks.txt
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/080/SRR15322680/SRR15322680_1.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/080/SRR15322680/SRR15322680_2.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/081/SRR15322681/SRR15322681_1.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/081/SRR15322681/SRR15322681_2.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/082/SRR15322682/SRR15322682_1.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/082/SRR15322682/SRR15322682_2.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/083/SRR15322683/SRR15322683_1.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/083/SRR15322683/SRR15322683_2.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/084/SRR15322684/SRR15322684_1.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/084/SRR15322684/SRR15322684_2.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/085/SRR15322685/SRR15322685_1.fastq.gz
+ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/085/SRR15322685/SRR15322685_2.fastq.gz
--- a/vendor/shodhka/test_20220812/dge_analysis.r
+++ b/vendor/shodhka/test_20220812/dge_analysis.r
+#!/usr/bin/env Rscript
+library(edgeR)
+RawCounts <- read.delim("count_matrix.txt", row.names = "gene_id")
+group <- read.table("SampleGroups.txt", header=TRUE, sep="\t", row.names=1)
+dgecomplete <- DGEList(RawCounts, group = group$Condition)
+logcpm <- cpm(dgecomplete, log=TRUE)
+filtData <- filterByExpr(dgecomplete)
+dgecomplete <- dgecomplete[filtData, keep.lib.sizes=FALSE]
+dgecomplete <- calcNormFactors(dgecomplete)
+dgecomplete <- estimateDisp(y = dgecomplete)
+fit <- glmQLFit(y=dgecomplete)
+qlf <- glmQLFTest(fit, coef = 2)
+diff_results <- topTags(qlf, n=Inf)
+write.csv(diff_results, file="edgeR_diff_genes.csv")
+write.csv(as.data.frame(logcpm), file="edgeR_normcounts.csv")
--- a/vendor/shodhka/test_20220812/run.copr.sh
+++ b/vendor/shodhka/test_20220812/run.copr.sh
+#!/usr/bin/env bash
+FILES=$(cat ./data/SampleInputFileLinks.txt)
+for file in $FILES; do
+    # --no-clobber, do not download if file already exists.
+    wget -nc $file
+done
+hisat2-build -p 8 genome.fa hg38_hisat
+hisat2 –x index -1 sample1_trim_R1.fq -2 sample1_trim_R2.fq –U unpair.fq –S sample1.sam
+htseq-count –r sample1.sam sample2.sam samplen.sam hs.gff > count_matrix.txt
+Rscript dge_analysis.r