학부연구생/Papers

논문 리뷰 | 도메인 적응을 활용한 딥러닝 기반의 단일 세포 RNA 시퀀싱 데이터의 세포 타입 예측(Deep learning-based cell types prediction for single cell RNA sequencing dataset using domain adaptation)

noweahct 2024. 12. 25. 14:29

리뷰 날짜: 2024.01.10

한국정보과학회 2022.06
박채린, 채희준
https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11113485

 

Preliminary

Domain Adaptation

- 라벨이 불충분하거나 존재하지 않는 목표 도메인에서 효과적으로 추론하는 모델을 학습하기 위해 라벨이 풍부하고 목표 도메인과 관련이 있는 소스 도메인을 이용하는 방법론

- 라벨이 없는 데이터에 라벨을 생성하기 위해 관련은 있지만 동일하지 않은 라벨이 있는 데이터로 모델을 학습하여 라벨이 없는 데이터의 라벨을 예측할 수 있다. 그러나 라벨이 있는 데이터와 없는 데이터는 두 데이터의 실험 조건이나 방법, 기계 등에 따라 데이터의 분포가 다를 수 있다. 따라서 데이터셋간의 분포 차이를 줄이는 도메인 적응이 필요하다.

비지도 도메인 적응: 라벨이 있는 데이터로 미리 학습된 정보를 라벨이 없는 데이터에서 활용하여 데이터셋간의 차이를 줄이는 것

- 소스 데이터: 라벨이 있는 기존 데이터

- 타겟 데이터: 라벨이 없는 새로운 데이터

 

세포 타입

- “딥러닝 모델 학습에 필요한 데이터의 라벨”

-  단일 세포 RNA 시퀀싱 데이터 분석에서 중요한 역할을 하며, 조직 이질성 유발 원인을 이해할 수 있음

-  세포 타입은 각 세포를 t-SNEUMAP 등 차원 축소 방법을 사용해 세포들을 군집화하여 알려진 마커 유전자를 통해 판별할 수 있음

-  데이터의 높은 차원과 복잡성으로 인해 정확한 세포 타입 예측이 어려우며 알려진 마커 유전자가 필요하다는 단점이 있음

-  따라서 최근 효과적인 세포 타입 판별을 위해 딥러닝 기술을 통한 세포 타입 예측 및 분류에 대한 관심이 높아지고 있음

 

Bulk Sequencing (전사체 시퀀싱)

- (모든 세포들을 하나로 pooling하여) 전체 세포에 대한 유전자 발현량을 평균으로 측정

** 전사체: 발현된 모든 RNA의 총합

- 세포 집단 간의 이질성 고려 없이 분석

종양 세포와 같은 경우에는 이질성(Tumor heterogeneity)이 매우 크기 때문에,

        집단의 유전자 발현이 개별 세포를 모두 대표하기 어려운 경우가 많음

 

Single-Cell RNA Sequencing (단일 세포 RNA 시퀀싱)

- 개별 세포를 세포의 종류에 따라 분류하고 세포 하나의 유전자 발현량을 측정

- 더 정확하게 개별 세포의 유전자 발현량의 차이를 알 수 있다는 장점이 있음

- 벌크 시퀀싱과 달리 세포 타입 특이적인 정보를 얻을 수 있음

- 단일 세포 RNA 시퀀싱 데이터의 수는 빠르게 증가하지만 세포 타입을 함께 제공하는 데이터셋은 적고, 데이터에 라벨을 생성하는 작업은 시간과 비용 측면에서 경제성이 떨어져서 라벨이 없는 데이터는 많음

 

Adversarial Learning (적대적 학습)

- 일부러 데이터에 노이즈를 주고 (→ adversarial attack), attack으로부터 robust하게 모델을 defense 할 수 있도록 학습하는 방식

- 자율 주행 자동차에 이 방식을 사용하면 안전성을 높일 수 있음

- 소스 데이터와 타겟 데이터의 차이를 줄이기 위해 사용

 

F1-score

Matthews Correlation Coefficient (MCC)

- binary 분류에 사용하는 correlation coefficient 

K-Fold Cross Validation

- k개의 fold 만들어서 진행하는 교차검증

- 총 데이터 개수가 적은 데이터셋에 대해 정확도를 향상시킬 수 있음

5-fold cross validation

Batch Effect

- occurs when cells from distinct biological conditions are processed separately

- can originate from multiple sources, such as sequencing platforms, timing, reagents, or different conditions/laboratories

- solution

1. batch correction

    - utilize dimensionality-reduced data to expedite computation time

    - mitigates sequencing depth across cells, library size, and amplification bias caused by gene length

2. normalization

    - operates on the raw count matrix (e.g., cells x genes)

    - mitigates different sequencing platforms, timing, reagents, or different conditions/laboratories

 

Dimension Reduction

- 고차원 원본 데이터의 의미 있는 특성을 이상적으로 원래의 차원에 가깝게 유지할 수 있도록, 고차원 공간에서 저차원 공간으로 데이터를 변환

- 차원의 저주 (Curse of Dimesionality) 피하고, 과적합 (Overfitting)을 피하기 위함     

  **차원의 저주: 차원이 증가함에 따라 그것을 표현하기 위한 데이터 양이 증가 

- 단점: 정보 손실 (Information Loss), 축소한 데이터를 해석하는데도 어려움, 차원 축소를 위한 데이터 변환 절차가 추가되므로 데이터 파이프 라인 (data pipeline) 이 복잡해짐

- 분류

1. Projection-based Dimensionality Reduction: 주성분분석 (PCA, Principal Component Analysis), 특이값 분해 (Singular Value Decomposition), 요인분석 (Factor Analysis)

2. Manifold Learning: LLE (Locally-Linear Embedding), Isomap, Kernel Principal Component Analysis, Autoencoders, SOM(Self-Organizing Map) 

 

Feature Extraction

- ** feature: 데이터 모델에서 예측을 수행하는 변수, 통계학에서는 독립변수라고 함

- 기계 학습을 위해 원시 데이터로부터 유용한 feature들을 선택, 조합, 생성하는 과정

- 고차원의 원본 피쳐 공간을 저차원의 새로운 피쳐 공간으로 투영

- 다량의 원시 데이터에서 주요 정보를 식별하여 관련이 높고 차원이 낮은 표현을 제공하는 것을 목표로

- 주로 분류군집화회귀, 예측 등의 과제에서 사용됨

- e.g., PCA(주성분 분석), LDA(선형 판별 분석)

 

Cross Entropy Loss

- 두 확률 분포의 차이를 구하기 위해서 사용

- 딥러닝에서는 실제 데이터의 확률 분포와, 학습된 모델이 계산한 확률 분포의 차이를 구하는데 사용

- 식: 

 

GAN (Generative Adversarial Networks)

- 실제에 가까운 이미지나 사람이 쓴 것과 같은 글 등 여러 가짜 데이터들을 생성하는 모델

- Generator(G, 생성모델/생성기)Discriminator(D, 판별모델/판별기)라는 서로 다른 2개의 네트워크로 구성


 

Introduction

single cell RNA sequencing을 통해 측정한, 세포 타입이 있는 단일 세포 RNA 시퀀싱 데이터셋과 세포 타입이 없는 데이터셋을 활용하여 도메인 적응을 통해 데이터셋 간의 차이를 줄이고, 세포 타입이 없는 데이터셋의 세포 타입을 예측하는 모델을 제시


Dataset

- GSE84133, GSE85241 다운로드

- 각 데이터셋을 전처리 진행 후, 공통 유전자를 추출하고, 변동성이 높은 3632개 유전자를 선별함

- GSE84133 데이터셋은 7757 샘플, GSE85241 데이터셋은 1941 샘플로 이루어져 있으며 7개의 세포 타입으로 구성됨

- GSE84133은 소스 데이터로 GSE85241은 타겟 데이터로 활용함

- 타겟 데이터 GSE85241은 세포 타입이 정의되어 있으나 모델 학습 과정에서는 타겟 데이터의 세포 타입은 활용되지 않고 실험 성능 측정을 위해 세포 타입이 사용됨


Data Preprocessing

- 매핑(Mapping): 시퀀싱 리드(read)가 어떤 염색체에 어느 위치에 있는 DNA 인지에 대한 정보를 표준 유전체(reference genome)에서 위치를 찾아주는 작업

- 리드(Read)염기 서열 분석(시퀀싱, sequencing) 라이브러리에 포함된 DNA 또는 cDNA 단편에서 생성한 분석량에 대한 염기쌍 정보를 의미하는 것으로 염기 서열 분석으로 나온 출력 데이터, 시퀀스(염기 서열의 조각)

- library size: the most well known bias

- e.g., You create two libraries for two conditions with the same RNA composition. The second library works way better than the first one, you got 12,000,000 reads for condition A and 36,000,000 reads for condition B. You will have three times (36,000,000 / 12,000,000 = 3) more of each RNA in your condition B than your condition A.

- library size 기반의 정규화: 각 단일 세포에 매핑된 유전자의 리드 수의 총합으로 나눔

- library size정규화하는 이유

the simplest strategy for performing scaling normalization. We define the library size as the total sum of counts across all genes for each cell, the expected value of which is assumed to scale with any cell-specific biases. The “library size factor” for each cell is then directly proportional to its library size where the proportionality constant is defined such that the mean size factor across all cells is equal to 1. This definition ensures that the normalized expression values are on the same scale as the original counts, which is useful for interpretation - especially when dealing with transformed data

- log 변환

- 여러 세포에 대해 발현량 변화가 있는 유전자만 남기고, 변화가 거의 없는 유전자는 제거

     - 각 유전자의 분산을 구해 분산이 큰 유전자들을 추출함

  모든 유전자를 이용하여 분석할 경우, 각종 노이즈가 포함될 수 있으며 학습 시간이 오래 걸리므로

 


Domain Adaptation & Prediction

비지도 도메인 적응

- 소스 데이터로 차원 축소를 위한 소스 피쳐 추출기와 세포 타입 분류기를 학습
- 사전 학습된 소스 피쳐 추출기의 파라미터로 초기화된 타겟 피쳐 추출기와, 소스 데이터와 타겟 데이터를 구분하기 위한 판별자를 적대적으로 학습

    - 타겟 피쳐 추출기는 판별자가 타겟 데이터를 잘 구분하지 못하도록 학습

    - 판별자는 소스 데이터와 타겟 데이터를 잘 구분하도록 학습

- 타겟 피쳐 추출기로부터 소스 데이터 분포와 가까워진 타겟 데이터를 소스 데이터로 사전 학습된 분류기를 활용해서 세포 타입 예측

 

Structure

- 피쳐 추출기는 500 노드, 200 노드의 2개의 히든 레이어로 구성
- 판별자는 100 노드의 2개의 히든 레이어로 구성
- 세포 타입 분류기는 100 노드의 히든 레이어 + softmax 레이어로 구성
- 세포 타입 분류기 학습에는 크로스 엔트로피 손실 함수 (Cross entropy loss) 사용
- 판별자와 타겟 피쳐 추출기에는 GAN에서 사용된 손실 함수
- 배치 정규화 적용 - 과적합 방지 목적
- 판별자는 Leaky ReLU, 피쳐 추출기와 분류기는 ELU 활성 함수 사용

Result

- domain adaptation 사용했을 때 F1-score, MCC 모두 증가; 논문의 모델이 각 데이터셋의 차이를 줄여 세포 타입이 없는 데이터에 대해 높은 정확도로 세포 타입을 예측할 수 있음

- 10-fold Cross Validation 수행 결과, 제안 모델은 평균 0.9588의 정확도, 0.9611F1-score, 0.9441MCC 성능을 보임

- 세포 타입이 없는 데이터의 세포 타입을 예측해서, 데이터 라벨을 생성하는 데 발생하는 비용과 시간 절감 가능