Genome Foundation Model 진화 지도

58편의 문헌에서 추출한 30개 게놈 FM의 아키텍처 계보, 토큰화 전략, 적용 범위, 그리고 "예측에서 설계로"의 패러다임 전환을 추적한다.

분석 모델 수

9.3T bp

최대 훈련 데이터 (Evo2)

15B

최대 파라미터 (ESMFold)

1M bp

문맥 길이 상한

1. 아키텍처 계보: 삼파전에서 하이브리드 수렴으로

2020-2026년, Transformer 독점 → SSM 도전 → 하이브리드 수렴의 3단계 진화. 버블 크기는 파라미터 규모, Y축은 문맥 길이(log).

Transformer

SSM

CNN

Hybrid

Protein LM

모델을 클릭하세요

버블을 클릭하면 해당 모델의 아키텍처, 학습 데이터, 토큰화, 핵심 혁신이 표시됩니다.

2. 토큰화 진화: "어떻게 읽을 것인가"

k-mer에서 BPE, 단일 뉴클레오타이드, 학습가능 토큰화, 도메인 특화까지. 토큰화가 아키텍처만큼 중요하다.

토큰화 방식을 클릭하세요

각 토큰화의 원리, 장단점, 대표 모델, 성능 변화가 표시됩니다.

3. 적용 범위 확장: DNA → 멀티모달 생물학

DNA 서열 전용에서 RNA, 단백질, 후성유전체, mRNA 번역, 변이 효과까지 6개 축으로 확장.

도메인을 클릭하세요

각 도메인의 핵심 과제, 대표 모델, 미해결 문제가 표시됩니다.

4. 예측에서 설계로: 생성형 게놈학의 부상

초기 모델의 "이해"에서 "예측"을 거쳐 "설계(생성)"까지. 시간에 따라 설계 능력을 갖춘 모델이 급증.

Transformer

SSM

CNN

Hybrid

Protein LM

모델을 클릭하세요

해당 모델의 이해/예측/설계 능력과 대표 성과가 표시됩니다.

5. gLM vs Activity Predictor — 수렴과 미해결 과제

비지도 언어 모델과 지도 학습 예측기, 두 패러다임이 2025년 수렴하고 있다. 그러나 세 가지 근본 과제가 남아 있다.

분석 모델 수

9.3T

최대 훈련 데이터 (bp)

15B

최대 파라미터

문맥 길이 상한 (bp)

"gLM vs Activity Predictor" 이분법이 무너지고, 비지도 사전학습 + 지도 사후학습이 표준으로 정착 중. 그러나 형평성, 생물학적 정합, 평가 표준의 세 과제가 남아 있다.

형평성 (Equity)

PGS 정확도가 유전적 거리에 따라 연속적으로 감소 (Ding 2023). 훈련 데이터의 유럽인 편향이 개인 수준까지 영향. 다양한 인구집단 데이터 확보가 필수.

생물학적 정합 (Biological Grounding)

FM이 진화적 제약(미스폴딩 독성, 코돈 최적성, slow ramp)을 실제로 학습하고 있는가? 체계적 검증 필요. 동의 코돈 변경이 단백질 기능에 영향을 줄 수 있음.

평가 표준 (Evaluation)

gLM의 "이해"를 측정하는 표준화 벤치마크 부족 (Benegas 2025). 자체 벤치마크로 자체 평가하는 구조적 한계. GUE 등 초기 시도 진행 중.