Spatial Transcriptomics 관련 알고리즘 소개

조직의 이미지를 분석하여 유용한 의미를 발굴하는 과정은 난이도를 넘어 창의적인 접근을 필요로 하는 거 같습니다. 공간전사체는 이제 갓 3년 정도 된 기술이지만, 2020년에는 Nature Biotechnology에서 올해의 기술로 선정될 정도로 관심이 무척 높다 할 수 있습니다. 지금 현재도 활발한 연구가 진행되고 있습니다.

a year ago   •   6 min read

By Portrai
Photo by NASA / Unsplash

Spatial Transcriptomics와 관련하여 몇 가지 알고리즘이나 기법들을 살펴보고자 합니다. 오늘 다뤄볼 논문들은 다음과 같습니다.

  • Lee, H. et al. (2021). Scientific reports, 11(1), 1-9.
  • Moncada, R. et al. (2020). Nature biotechnology, 38(3), 333-342.
  • Cable, D. M. et al. (2021). Nature Biotechnology, 1-10.
  • Bae, S. et al. (2021). bioRxiv.
  • Bae, S. et al. (2021). Nucleic acids research, 49(10), e55-e55.
  • Chen, W. T. et al. (2020). Cell, 182(4), 976-991.

scRNA-seq

"Single-Cell Transcriptomic Analysis of Tumor-Derived Fibroblasts and Normal Tissue-Resident Fibroblasts Reveals Fibroblast Heterogeneity in Breast Cancer" (Sebastian, A. et al.)

scRNA-seq(Single cell RNA sequencing)은 세포 하나하나의 유전체를 읽어들이는 것을 말하며, 주로 전사체를 읽어들인 것을 지칭합니다. 이런 데이터를 통해 세포 유형의 분포라든지 각 클러스터별로 어떤 Differentiated Expressed Gene (DEG)가 있는지 알 수 있어서 과학적으로 강한 임팩트를 남겼습니다.

Untitled

최근에는 다양한 종양 모델에 대한 scRNA-seq 데이터가 대중에게 많이 공개되어 쉽게 데이터를 받아서 분석해 볼 수 있습니다. 해당 데이터를 이용해 tumor-derived fibroblast와 정상 조직의 fibroblast가 다른 성격을 가지고 있음을 밝혀낼 수 있었습니다. 이런 차이를 통해 신약을 개발할 수 있는 단서가 되겠죠.

MIA 분석

"Integrating microarray-based spatial transcriptomics and single-cell RNA-seq reveals tissue architecture in pancreatic ductal adenocarcinomas" (Moncada, R. et al.)

공간 전사체학 데이터는 어떤 종류의 세포 유형이 어디에 위치하는지를 알게되면서 더욱 유용한 정보를 제공할 수 있습니다. 여기서는 Hypergeometric Test (Fisher's Exact Test)라는 비교적 쉬운 통계 기법을 사용해서 각 세포 유형을 배치할 수 있었던 게 특징입니다. 이 방법을 Multimodal Intersection Analysis (MIA) 분석이라고 부릅니다.

그림5.jpg

이 방법은 정말 간단하게 결과 테이블을 생성해 볼 수 있다는 점이지만, 계산 결과와 논문에 나온 값이 정확하게 일치하지 않았다는 점과 Depletion과 Enrichment가 골고루 나오도록 파라미터를 조절하는 게 좀 어렵다는 것이 단점입니다.

RCTD 분석

"Robust decomposition of cell type mixtures in spatial transcriptomics" (Cable, D. M. et al.)

Maximum Likelihood Estimation과 같은 Supervised 방식으로 세포 유형을 매칭했는데, 기존의 Unsupervised방식으로는 결정할 수 없었던 Cell Doublet 같은 것도 결정할 수 있었다고 했습니다. 이에 Robust Cell Type Decomposition (RCTD)라고 불렀습니다.

Untitled
Untitled

CellDART 알고리즘

"CellDART: Cell type inference by domain adaptation of single-cell and spatial transcriptomic data" (Bae, S. et al.)

Portrai에서 CellDART 알고리즘은 공간전사체 데이터에서 세포를 분류해내는 알고리즘을 발표했습니다.

Untitled

MIA 분석과 달리 파라미터 조절이 좀 더 쉽고, RCTD보다 더 민감하게 마이너한 세포 유형을 잡아내는 것이 장점입니다. 특히 다른 알고리즘보다도 세포 분류의 성능이 높은 것이 특징이며, 이를 통해 Portrai에서는 Tumor Microenvironment를 분석하는 알고리즘에 CellDART를 이용하고 있습니다.

SPADE 알고리즘

"Discovery of molecular features underlying the morphological landscape by integrating spatial transcriptomic data with deep features of tissue images" (Bae, S. et al.)

Portrai는 단순히 세포 유형을 공간 전사체학에 적용하는 것을 넘어, 약제의 분포를 결정짓는 분자적 마커를 찾는데 관심이 많습니다. H&E 이미지와 공간전사체학을 결합해서 분석한 내용을 바탕으로, 이미지의 패턴을 결정짓는 분자적 마커를 찾아내는 알고리즘을 개발했습니다. (SPADE: "Spatial Gene Expression Patterns by Deep Learning of Tissue Images")

Untitled

각 공간전사체학 스팟에 대응하는 H&E 이미지 조각을 얻습니다. 그 조각을 Pre-trained CNN (VGG16)에 입력으로 넣습니다. 이후 얻어진 512 차원의 Feature들을 PCA로 차원 축소를 합니다. 각 PC1, PC2, ..., PC512는 제각기 다른 생리학적인 의미를 갖는 패턴이라고 할 수 있으며, 이 패턴들을 잘 설명하는 유전자들을 찾는 게 핵심입니다. 이를 위해서 공간전사체학에서 좀 특화된 상관관계 분석인 Enhanced Volcano Plot을 사용합니다.

이미지에 대한 지식 및 알고리즘/시각화에 대한 고려도 필요한 알고리즘으로 개발 및 적용에 진입장벽이 있는 독창적인 알고리즘입니다.

동심원을 그리는 분석도 있었습니다.

"Spatial Transcriptomics and In Situ Sequencing to Study Alzheimer’s Disease" (Chen, W. T. et al.)

조직의 이미지를 분석하여 유용한 의미를 발굴하는 과정은 난이도를 넘어 창의적인 접근을 필요로 하는 거 같습니다. 치매와 연관이 깊은 Amyloid Beta와 관련된 분자적 메커니즘을 찾기 위해 동심원을 그린 뒤, 공간전사체학 정보와 결합해 분석하는 직관적이면서도 독특한 방법론이 되겠습니다.

Untitled

공간전사체는 이제 갓 3년 정도 된 기술이지만, 2020년에는 Nature Biotechnology에서 올해의 기술로 선정될 정도로 관심이 무척 높다 할 수 있습니다. 지금 현재도 활발한 연구가 진행되고 있기에, 더욱 참신한 논문들이 쏟아지지 않을까 합니다.

이상 포트래이 tech 블로그였습니다.

Spread the word

Keep reading