Seurat 패키지 결과 해석: Differentiated Expressed Gene(DEG)의 의미

2 years ago   •   5 min read

By Portrai

scRNA-seq 데이터는 대체로 위와 같이 count matrix로 주어집니다. 이때 depth에 대해 보정을 한 뒤 ln (count + 1)과 같이 표현한 것이 gene expression입니다.

differentiated expressed gene(DEG) 또는 차등 발현 유전자는 실험군과 대조군 간에 차이가 나는 유전자를 의미합니다. 따라서, 기본적으로 DEG를 구한다는 것은 주어진 데이터셋을 이분법적으로 바라본다는 것을 전제로 합니다. DEG의 기준은 크게 두 가지, fold change(FC)와 adjusted p value를 이용합니다.

FC는 약물 처리군의 평균 유전자 발현량을 대조군의 평균 유전자 발현량으로 나눈 것을 의미합니다. 대조군의 평균 유전자 발편량이 0인 경우 FC는 무한대로 발산할 수 있는데 이런 유전자는 대개 low quality gene이기 때문에 사전에 제거되거나 0.000001과 같이 특수한 값으로 간주하여 추후 분석에 이용됩니다. 또한 FC는 1을 기준으로 값이 비대칭적으로 나타나기 때문에 log scale로 보기 좋게 나타내는 게 일반적입니다.

한편, p value는 t test, Mann-Whitney-Wilcoxon (Wilcoxon ranksum test), ANOVA & Kruskal-Wallis test 등을 통해 구해집니다. 모든 통계분석에서는 significance threshold를 설정해도 positive로 잘못 분류되는 케이스가 발생할 수 있는데, 이를 false positive 또는 위양성이라고 합니다. 특히, 유전자 분석에서는 false positive로 인한 multiple testing problem이 발생할 수 있습니다. p value threshold를 5%로 설정하면 하나의 테스트에서 설마 5%까지 나오겠어 하며, significant gene을 meaningful gene으로 해석할 수 있습니다. 만약에 이를 30,000개의 유전자에 대해 진행하면 false positive로 인해 1,500개의 seemingly significant한 유전자가 도출될 것인데 1,500개 전부를 곧이 곧대로 meaningful gene으로 해석하는 것은 곤란할 것입니다. 이를 해결하기 위해 adjusted p value라는 개념이 도입되었습니다. p value를 conservative하게 해석하거나 false discovery rate (FDR)을 이용하는 것으로, q-value Bonferroni, q-value FDR B&H, q-value FDR B&Y 등이 있습니다.

일반적으로 adjusted p value < 0.05인 유전자를 의미있는 유전자 또는 significant gene이라고 합니다. FC > 0이면 up-regulated gene이고, FC < 0이면 down-regulated gene이라고 합니다. 따라서 adjusted p value < 0.05이고 FC > 양수의 임계값이면 up DEG이라 하고, adjusted p value < 0.05이고 FC < 음수의 임계값이면 down DEG라고 합니다. up DEG와 down DEG를 통틀어 DEG라고 합니다.

Seurat 패키지에서 FindAllMarkers의 출력 결과

위 결과는 Seurat 패키지를 통해 얻은 결과입니다. row names는 유전자 리스트입니다. 사람의 유전자 이름은 전부 대문자로만 쓰지만, 마우스의 유전자 이름은 첫 글자만 대문자이고 나머지는 소문자입니다. 따라서 위 결과는 마우스 유전자에 대한 결과입니다. 첫 번째 열인 p_val은 단순한 p value를 지칭하며, 이를 보수적으로 해석하거나 FDR을 적용하여 보정한 adjusted p value는 5번째 열, p_val_adj에 있습니다. 한편, log2로 나타낸 FC는 2번째 열, avg_log2FC에 있습니다.

pct.1은 약물 처리군에서 해당 유전자 발현이 0이 아닌 비율을 의미합니다. 이러한 pct.1에 대한 정보가 dot plot에서도 활용됩니다. pct.2는 반대로 대조군에서 해당 유전자 발현이 0이 아닌 비율을 의미합니다. Seurat 패키지에서는 | avg_log2FC | > 0.25, pct.1 > 0.25를 권장합니다.

6번째 열의 cluster는 약물 처리군과 대조군과 같이 꼭 두 개일 필요는 없습니다. 하지만 DEG 분석은 기본적으로 이분법적이기 때문에, 0번 클러스터를 약물 처리군으로 두고 나머지 클러스터를 대조군으로 두는 식으로 각 클러스터를 대표하는 DEG를 구합니다. 만약 진정한 의미의 대조군을 사용하고자 한다면 주어진 데이터셋을 0번 vs 대조군, 1번 vs 대조군,  ...과 같이 재구성을 하여 하나하나 DEG를 구하는 게 바람직합니다.

7번째 열의 gene은 일반적인 gene name이고 row names는 이러한 gene name에 중복이 있으면 끝에 1, 2, ...과 같이 숫자를 덧붙이는 식으로 나타냅니다. 따라서 gene name만을 얻고자 하는 경우 row names를 쓰지 말고 7번째 열의 정보를 쓰셔야 합니다.

이상 포트래이 tech 블로그였습니다.

Spread the word

Keep reading