시각화를 불러오는 중...
58편의 문헌에서 추출한 30개 게놈 FM의 아키텍처 계보, 토큰화 전략, 적용 범위, 그리고 "예측에서 설계로"의 패러다임 전환을 추적한다.
2020-2026년, Transformer 독점 → SSM 도전 → 하이브리드 수렴의 3단계 진화. 버블 크기는 파라미터 규모, Y축은 문맥 길이(log).
버블을 클릭하면 해당 모델의 아키텍처, 학습 데이터, 토큰화, 핵심 혁신이 표시됩니다.
k-mer에서 BPE, 단일 뉴클레오타이드, 학습가능 토큰화, 도메인 특화까지. 토큰화가 아키텍처만큼 중요하다.
각 토큰화의 원리, 장단점, 대표 모델, 성능 변화가 표시됩니다.
DNA 서열 전용에서 RNA, 단백질, 후성유전체, mRNA 번역, 변이 효과까지 6개 축으로 확장.
각 도메인의 핵심 과제, 대표 모델, 미해결 문제가 표시됩니다.
초기 모델의 "이해"에서 "예측"을 거쳐 "설계(생성)"까지. 시간에 따라 설계 능력을 갖춘 모델이 급증.
해당 모델의 이해/예측/설계 능력과 대표 성과가 표시됩니다.
비지도 언어 모델과 지도 학습 예측기, 두 패러다임이 2025년 수렴하고 있다. 그러나 세 가지 근본 과제가 남아 있다.
"gLM vs Activity Predictor" 이분법이 무너지고, 비지도 사전학습 + 지도 사후학습이 표준으로 정착 중. 그러나 형평성, 생물학적 정합, 평가 표준의 세 과제가 남아 있다.
PGS 정확도가 유전적 거리에 따라 연속적으로 감소 (Ding 2023). 훈련 데이터의 유럽인 편향이 개인 수준까지 영향. 다양한 인구집단 데이터 확보가 필수.
FM이 진화적 제약(미스폴딩 독성, 코돈 최적성, slow ramp)을 실제로 학습하고 있는가? 체계적 검증 필요. 동의 코돈 변경이 단백질 기능에 영향을 줄 수 있음.
gLM의 "이해"를 측정하는 표준화 벤치마크 부족 (Benegas 2025). 자체 벤치마크로 자체 평가하는 구조적 한계. GUE 등 초기 시도 진행 중.