분자생물학적 기작을 그래프로 표현하는 것에 대한 고찰

분자생물학적 기작을 그래프로 표현하는 것에 대한 고찰
/category/%EC%97%B0%EA%B5%AC%EB%85%B8%ED%8A%B8/%EB%B6%84%EC%9E%90%EC%83%9D%EB%AC%BC%ED%95%99%EC%9D%98%20%EC%9D%B4%EC%82%B0%EC%88%98%ED%95%99%EC%A0%81%20%ED%91%9C%ED%98%84

2025. 12. 12. 23:52

분자생물학적 현상은 유기적으로 연결된 구조를 가진다. 이를 분석해본 결과 그래프 구조로 표현할 수 있음을 발견했다. 본 노트는 분자생물학적 기작을 그래프로 표현하는 방법과 그 특징을 정리한다.

1. 그래프 표현의 출발점

분자생물학적 시스템을 수학적으로 표현하기 위해 그래프 G = (V, E)를 사용한다. 여기서 V는 노드(node)로 분자들을 나타내고, E는 엣지(edge)로 분자 간 상호작용을 나타낸다.

1.1. 노드를 무엇으로 볼 것인가

가장 직관적인 방법은 분자 개체를 노드로 보는 것이다. 유전자, 단백질, RNA, 대사물질이 각각 하나의 노드가 된다. 예를 들어 lac operon 시스템에서는 lacI 유전자, LacI 단백질, lac 오페론, lactose가 모두 개별 노드로 표현된다.

분석 목적에 따라 추상적 개념도 노드로 설정할 수 있다. 환경 변화에 따른 유전자 발현 변화를 분석한다면, "고온 스트레스"라는 환경 조건 자체를 노드로 두고, 이것이 열충격 단백질 유전자들을 활성화하는 관계를 엣지로 표현한다. "세포 증식 상태"나 "DNA 복제 과정" 같은 개념적 상태도 필요에 따라 노드가 될 수 있다.

1.2. 엣지를 어떻게 그을 것인가

노드 사이의 관계를 엣지로 표현하는데, 생물학적 상황에 따라 다른 표기법을 사용한다. 전사인자가 유전자를 활성화하면 A → B처럼 화살표로 표현한다. 억제 관계는 A ⊣ B로 구분한다. 두 단백질이 물리적으로 결합만 한다면 A — B처럼 방향 없는 선으로 표현하는 것이 적절하다.

효소가 기질을 생성물로 바꾸는 화학 반응은 명확한 방향이 있으므로 유향 엣지로 표현한다. 반면 두 단백질이 결합하여 복합체를 이루는 경우, 상호적 관계이므로 무향 엣지가 더 적합하다.

엣지에 가중치를 부여하여 정량적 정보를 담을 수 있다. 전사인자의 활성화 강도, 두 단백질의 결합 친화도(해리 상수 Kd), 효소 반응 속도(반응 속도 상수 k) 등을 숫자로 표현한다.

2. 표현의 확장

"A라는 분자와 B라는 분자가 상호작용한다"는 직접적 관계를 넘어, 그래프는 더 다양한 생물학적 개념을 표현할 수 있다.

2.1. 상태 공간으로서의 그래프

분자생물학에서 "상태 변화"는 핵심 개념이다. DNA 서열 변이, 단백질 인산화, 세포 주기 전환 모두 상태 변화다. 이를 그래프로 표현하는 방식을 살펴보자.

DNA 서열 ATTCGG를 GTTGAA로 변이시키는 문제를 가정한다. 제약 조건은 한 번에 한 위치의 염기만 변이 가능하다는 것이다.

노드를 "가능한 서열 상태"로 정의한다. ATTCGG가 하나의 노드고, GTTCGG가 또 다른 노드다. 한 번의 변이로 도달 가능한 서열끼리 엣지로 연결하면 다음과 같은 경로가 형성된다

ATTCGG → GTTCGG → GTTGGG → GTTGGA → GTTGAA

이 표현에서 "최단 경로 찾기"는 곧 "최소 변이 횟수로 목표 서열 도달하기"를 의미한다. 그래프 알고리즘을 사용하여 어떤 상태에서 어떤 상태로 전이 가능한지, 특정 상태 도달이 가능한지, 가장 효율적인 경로가 무엇인지 분석할 수 있다.

2.2. 여러 단계를 거치는 과정

분자생물학적 과정은 여러 단계로 이루어진다. 환경 신호 → 수용체 반응 → 신호전달 분자 활성화 → 전사인자 핵 이동 → 유전자 발현 → mRNA 생성 → 단백질 번역 → 세포 기능 변화. 이는 명확한 순서를 가진 연쇄 반응이다.

이런 과정을 그래프로 표현하면 계층 구조가 나타난다. 위쪽 계층에는 환경 신호와 수용체, 중간 계층에는 신호전달 네트워크, 아래쪽 계층에는 전사-번역 과정, 마지막에는 최종 출력이 배치된다. 같은 계층 내 연결은 적고, 인접 계층 간 연결이 주를 이룬다.

이 표현을 통해 정보 흐름을 추적할 수 있다. 외부 자극이 최종적으로 어떤 유전자를 발현시키는지, 신호가 어떻게 증폭되거나 분기되는지 파악할 수 있다. 특정 계층의 결함이 하위 과정에 미치는 영향도 예측 가능하다.

중심 도그마(DNA → RNA → 단백질)는 전형적인 계층적 그래프다. DNA는 최상위 정보 저장소, RNA는 중간 전달자, 단백질은 최종 실행자로서 일방향 정보 흐름을 보여준다.

2.3. 다중 분자 상호작용의 표현

단순한 쌍(pair) 관계를 넘어 여러 분자가 동시에 관여하는 경우가 많다. 전사 개시 복합체를 예로 들면, RNA polymerase, TFIIB, TFIID, TFIIF 등이 동시에 모여야 전사가 시작된다.

이를 RNA pol — TFIIB, RNA pol — TFIID, TFIIB — TFIID 식으로 이진 엣지로 분해하면 "복합체로서의 기능 단위"라는 본질이 사라진다. 하이퍼엣지를 사용하여 {RNA pol, TFIIB, TFIID, TFIIF}를 하나의 단위로 표현하면 이 문제를 해결할 수 있다.

협동적 결합(cooperative binding)도 마찬가지다. 전사인자 A 단독으로는 유전자를 약하게 활성화하고, B 단독도 마찬가지다. 그러나 A와 B가 동시에 존재하면 강한 활성화가 일어난다. 단순히 A→유전자, B→유전자 두 엣지로는 이 비선형적 효과를 표현할 수 없다.

2.4. 시간 변화를 담는 방법

생물학적 과정은 시간에 따라 변한다. 같은 분자들도 언제 만나느냐에 따라 다른 결과를 낳는다. 이를 어떻게 그래프에 담을 것인가.

세포 주기를 생각해보자. G1기에는 Cyclin D가 CDK4/6과 결합하여 Rb 단백질을 인산화한다. 그러나 S기로 넘어가면 Cyclin D-CDK4/6 활성은 줄어들고, 대신 Cyclin E-CDK2가 주도권을 잡는다. M기에는 또 다른 조합인 Cyclin B-CDK1이 작동한다. 같은 단백질들(Cyclins, CDKs)이지만 시간대에 따라 활성화되는 조합과 상호작용 패턴이 완전히 다르다.

한 가지 방법은 시간을 이산적 구간으로 나누어 각 시점의 그래프를 별도로 그리는 것이다. G1기 네트워크, S기 네트워크, M기 네트워크를 각각 스냅샷으로 만드는 식이다. 이렇게 하면 "이 시간대에는 어떤 연결들이 활성화되어 있는가"를 명확히 볼 수 있다.

다른 방법은 엣지에 시간 정보를 레이블로 붙이는 것이다. Cyclin D → Rb 엣지에 [t=0-4h], Cyclin E → Rb 엣지에 [t=4-8h] 같은 식으로 표시한다. 그러면 하나의 그래프 안에서 시간에 따라 어떤 엣지가 활성화되고 비활성화되는지 추적할 수 있다.

신호전달에서의 시간 지연도 중요한 문제다. 전사인자가 유전자를 활성화한다고 해서 즉시 단백질이 만들어지는 것이 아니다. 전사에 30분, mRNA가 안정화되고 리보솜에 결합하는데 30분, 번역에 1시간이 걸린다면 총 2시간의 지연이 있다. 이를 표현하려면 엣지에 지연 시간을 명시해야 한다. "유전자 → 단백질 [지연 2시간]" 같은 식이다.

2.5. 같은 분자, 다른 관계

단백질 A와 B를 생각해보자. 이 둘은 물리적으로 결합할 수도 있고, 같은 대사 경로에 관여할 수도 있고, 같은 조건에서 발현량이 증가할 수도 있다. 하나의 엣지로 이 모든 관계를 표현할 수 있을까?

단백질 상호작용 데이터베이스를 보면 이 문제가 명확해진다. 두 단백질 사이에는 여러 종류의 관계가 동시에 존재할 수 있다. 물리적 결합(physical interaction), 유전적 상호작용(genetic interaction), 기능적 연관성(functional association), 공동 발현(co-expression) 등이다. 각각은 다른 실험 방법으로 측정되고 다른 생물학적 의미를 가진다.

이를 표현하는 방법은 멀티레이어 그래프다. 같은 단백질들이 여러 층(layer)에 존재하고, 각 층은 다른 종류의 관계를 나타낸다. 1층은 물리적 결합 네트워크, 2층은 공동 발현 네트워크, 3층은 공통 경로 참여 네트워크 식으로 분리한다. 단백질 A와 B는 모든 층에 노드로 존재하지만, 어떤 층에서는 연결되어 있고 어떤 층에서는 연결되어 있지 않을 수 있다.

이 표현의 장점은 각 관계를 독립적으로 분석할 수 있으면서도, 필요할 때는 여러 층의 정보를 통합할 수 있다는 것이다. "물리적으로 결합하면서 동시에 발현 패턴도 유사한 단백질 쌍"을 찾는다든지, "한 층에서는 중심적인 역할을 하지만 다른 층에서는 주변적인 단백질"을 식별할 수 있다.

2.6. 활성화와 억제를 동시에

전사 조절을 보면 흥미로운 점이 있다. 전사인자 A는 유전자 X를 활성화하지만, 동시에 유전자 Y는 억제한다. 또 다른 전사인자 B는 유전자 X를 억제하고 유전자 Z를 활성화한다. 이런 활성화와 억제의 조합이 유전자 발현 패턴을 결정한다.

단순히 A → X, B → Z처럼 화살표만 그으면 이것이 활성화인지 억제인지 구분할 수 없다. A ⊣ Y처럼 억제 기호를 따로 쓸 수도 있지만, 이는 시각적으로 복잡해진다.

부호 네트워크(signed network)를 사용하면 이 문제를 해결할 수 있다. 모든 엣지에 부호를 부여하는 것이다. 양수(+)는 활성화, 음수(-)는 억제를 의미한다. A → X [+], A → Y [-], B → X [-], B → Z [+] 식으로 표현한다. 여기에 가중치까지 더하면 A → X [+0.8], A → Y [-0.5]처럼 활성화/억제의 강도까지 담을 수 있다.

이 표현은 유전자 조절 네트워크의 동역학을 분석할 때 유용하다. 양성 피드백 루프(모두 양의 엣지로 이루어진 순환)는 시스템을 불안정하게 만들고, 음성 피드백 루프(홀수 개의 음의 엣지를 가진 순환)는 진동을 만들어낸다. 부호 정보가 없으면 이런 분석이 불가능하다.

2.7. 불확실성을 다루기

실험 데이터는 항상 완벽하지 않다. 단백질 상호작용 스크리닝을 했을 때, A와 B가 상호작용한다는 결과가 나왔지만 신뢰도가 낮을 수 있다. 위양성(false positive)일 가능성이 있는 것이다. 이런 불확실성을 그래프에 어떻게 반영할 것인가.

확률적 그래프를 사용할 수 있다. 각 엣지에 존재 확률을 부여하는 것이다. A — B [p=0.7]이라고 표시하면, 이 상호작용이 실제로 존재할 확률이 70%라는 의미다. 여러 실험에서 반복적으로 확인된 상호작용은 높은 확률값을, 한 번만 관찰되었거나 예측에 의한 것은 낮은 확률값을 가진다.

계산 예측으로 만든 네트워크에서 이 방법이 특히 유용하다. 서열 정보만으로 단백질 상호작용을 예측하면 스코어가 나온다. 이 스코어를 확률로 변환하여 엣지 가중치로 사용한다. 그러면 "높은 신뢰도의 상호작용만 고려한 네트워크"와 "예측된 모든 상호작용을 포함한 네트워크"를 유연하게 오갈 수 있다.

조건 의존적 상호작용도 확률로 표현할 수 있다. 어떤 단백질들은 특정 환경에서만 상호작용한다. 고온일 때만, 혹은 특정 영양소가 있을 때만 만난다. 이를 조건부 확률로 나타낸다. "A와 B는 고온 조건에서 0.9 확률로 상호작용하지만, 정상 온도에서는 0.1 확률로만 상호작용한다" 식이다.

3. 생물학 시스템의 특성

분자생물학적 기작을 그래프로 표현하는 과정에서 생물학 시스템의 고유한 특성들이 드러난다.

3.1. 상호작용의 복잡성

생물학적 상호작용은 단순 쌍별 관계로 환원되지 않는다. 여러 분자가 동시에 모여 복합체를 형성하거나, 한 분자의 존재 여부에 따라 다른 분자들의 상호작용이 달라지거나, 세 개 이상의 요소가 특정 조합을 이룰 때만 기능한다. 이는 일반 그래프보다 복잡한 구조인 하이퍼그래프나 멀티레이어 네트워크가 필요함을 의미한다.

3.2. 시간 의존성

생물학적 과정은 정적이지 않다. 동일한 분자들도 시간에 따라 다른 상호작용을 한다. 세포 주기에서 G1기는 Cyclin D-CDK4/6, S기는 Cyclin E-CDK2, M기는 Cyclin B-CDK1이 각각 주도한다. 네트워크 구조 자체가 시간에 따라 변한다.

신호전달에는 시간 지연이 존재한다. 유전자 활성화 후 mRNA 생성과 단백질 번역까지 시간이 소요된다. 이런 동적 특성을 담기 위해서는 시간 정보를 포함하는 그래프 표현이 필요하다.

3.3. 인과적 순서성

분자생물학적 과정은 명확한 인과 관계와 순서를 따른다. 신호전달 경로에서 하류(downstream) 분자가 상류(upstream) 분자보다 먼저 활성화되는 일은 없다. 이는 그래프가 주로 유향(directed)이며, 많은 경우 비순환(acyclic) 구조를 가짐을 의미한다.

순환(cycle)이 존재한다면 그것은 생물학적 의미가 있다. 양성 피드백은 신호 증폭을, 음성 피드백은 항상성 유지를 담당한다.

3.4. 내외부 경계

생물학 시스템은 명확한 경계를 가진다. 세포막이 내부와 외부를 구분한다. 외부에서 영양소나 신호 분자가 유입되고, 세포는 반응하여 물질을 분비하거나 행동을 변화시킨다.

그래프 표현 시 노드를 외부 노드(환경 요인), 경계 노드(수용체, 운반체), 내부 노드(세포 내 분자)로 구분할 수 있다. 이를 통해 "입력과 출력은 무엇인가", "시스템이 외부 변화에 어떻게 반응하는가" 같은 질문에 체계적으로 접근할 수 있다.

4. 표현의 한계와 타협

분자생물학적 시스템을 그래프로 표현하는 방법들을 살펴봤다. 상태 공간, 계층 구조, 다중 상호작용, 시간 변화, 멀티레이어, 부호 네트워크, 확률적 표현까지. 각각은 생물학의 특정 측면을 포착한다. 그런데 여기서 근본적인 질문이 생긴다. 과연 그래프로 이를 표현하는 것이 올바른 접근인가?

4.1. 복잡성의 폭발

위에서 언급한 모든 특성을 하나의 그래프에 담으려 한다면 어떻게 될까. 시간에 따라 변하는 멀티레이어 하이퍼그래프에 부호와 가중치, 그리고 확률까지 부여해야 한다. 노드는 분자뿐 아니라 상태와 과정도 포함하고, 엣지는 활성화, 억제, 결합, 전환을 모두 구분해야 한다.

이렇게 만든 그래프는 표현력은 높지만 다루기 어렵다. 시각화하면 선들이 얽히고설켜 아무것도 보이지 않는다. 계산적으로도 부담이 크다. 노드가 수천 개, 엣지가 수만 개인 네트워크에 시간 차원까지 더하면 분석 알고리즘이 감당하기 힘들어진다.

더 심각한 문제는 직관의 상실이다. 그래프를 사용하는 이유는 복잡한 시스템을 "볼 수 있게" 만들기 위해서다. 그런데 너무 많은 정보를 담으려다 보면 오히려 혼란스러워진다. 어느 것이 중요한 연결이고 어느 것이 부차적인지 구분할 수 없다.

4.2. 정보 손실의 불가피성

그렇다면 간단하게 표현하면 되지 않을까. 핵심적인 상호작용만 남기고 나머지는 생략하는 것이다. 실제로 많은 연구가 이렇게 한다. 신호전달 경로를 그릴 때 주요 단백질 몇 개만 표시하고, 대사 네트워크를 그릴 때 중심 경로만 포함시킨다.

그러나 이는 위험하다. 생략된 부분이 실제로는 중요할 수 있기 때문이다. 주요 대사 경로만 보고 최적화를 시도했는데, 무시했던 부산물이 실은 독성을 가지고 있다면? 핵심 단백질들의 상호작용만 분석했는데, 주변부 조절자가 실제로는 전체 과정의 스위치 역할을 한다면?

lac operon을 예로 들어보자. 간단히 그리면 "lactose → LacI 억제 해제 → lac 유전자 발현"이다. 그런데 실제로는 CAP-cAMP 복합체가 필요하고, glucose가 있으면 cAMP 농도가 낮아지고, 전사 후 조절도 있고, 단백질 안정성도 영향을 준다. 어디까지 포함해야 "충분한" 표현인가?

더 근본적인 문제가 있다. 그래프는 구조적 관계는 잘 표현하지만 정량적 법칙은 담기 어렵다. 화학 반응은 질량 작용 법칙을 따른다. 효소 반응은 Michaelis-Menten 식을 따른다. 확산은 농도 기울기에 비례한다. 이런 물리화학적 제약들을 그래프 구조만으로는 표현할 수 없다.

예를 들어 "A + B → C" 반응을 그래프로 그리면 A와 B에서 C로 가는 엣지가 된다. 그런데 이 반응 속도는 [A]와 [B]의 농도에 비례한다. C가 많이 쌓이면 역반응이 일어날 수도 있다. 온도가 오르면 속도가 빨라진다. 이 모든 정보를 엣지 하나에 어떻게 담을 것인가?

4.3. 완전성의 요구

불완전한 그래프는 오해를 낳는다. 대사 네트워크에서 특정 경로만 추출하여 "최적 경로"를 찾았다고 하자. 그런데 실제 세포에서는 그 경로를 따라가면서 생기는 중간 대사물질이 다른 경로에 영향을 준다. 혹은 그 경로가 소모하는 ATP나 NADH가 다른 과정을 제한할 수 있다. 부분만 보고 내린 결론은 전체 맥락에서는 틀릴 수 있다.

단백질 상호작용 네트워크도 마찬가지다. 두 단백질이 직접 결합한다는 정보만 있으면 충분할까? 그 결합이 언제 일어나는지, 어떤 조건에서 강해지거나 약해지는지, 결합했을 때 어떤 구조 변화가 생기는지, 그 결과 어떤 기능이 활성화되는지를 모두 알아야 완전한 이해가 가능하다.

결국 "모든 것을 표현해야 한다"는 요구에 도달한다. 모든 분자, 모든 상호작용, 모든 시간 변화, 모든 공간적 위치, 모든 정량적 관계를 담아야 한다. 그런데 이는 불가능하다. 현재 기술로는 측정할 수 없는 것도 많고, 측정했다 해도 그 모든 데이터를 처리할 수 없다.

4.4. 그래프 표현의 근본적 한계

그래프가 분자생물학을 표현하는 좋은 방법처럼 보이지만, 사실 근본적인 문제가 있다.

첫째, 그래프는 본질적으로 위상 구조만 표현한다. "A와 B가 연결되어 있다"는 말할 수 있지만, 그 연결의 물리화학적 본질은 담지 못한다. 효소 반응은 Michaelis-Menten 식을 따른다. 확산은 농도 기울기에 비례한다. 결합은 해리 상수로 특징지어진다. 이런 정량적 법칙들은 그래프 구조만으로는 표현할 수 없다. 엣지에 가중치를 부여해봐야 진짜 동역학을 담기에는 역부족이다.

둘째, 그래프는 연속적 변화를 다루기 어렵다. 분자 농도는 연속적으로 변한다. [A] = 0.5 mM에서 1.0 mM으로 부드럽게 증가한다. 그런데 그래프에서 노드는 "있다/없다"로 표현되기 쉽다. 엣지도 "연결됨/안됨"이다. 물론 가중치를 쓸 수 있지만, 그러면 그래프의 직관성이라는 장점이 사라진다. 노드 수천 개에 각각 농도값이 붙으면, 이게 그래프인지 데이터 테이블인지 구분이 안 된다.

셋째, 시간을 다루는 방식이 어색하다. 생물학적 과정은 본질적으로 시간에 따라 흐른다. 그런데 그래프는 정적 구조다. 시간 레이블을 엣지에 붙이거나, 시간별 스냅샷을 여러 개 만들 수는 있다. 하지만 이는 부자연스럽다. 미분방정식이나 동역학 시스템 이론에서는 시간이 자연스러운 변수인데, 그래프에서는 억지로 끼워넣는 느낌이다.

넷째, 공간을 무시한다. 세포는 균일한 용액이 아니다. 핵과 세포질이 구분되어 있고, 미토콘드리아 안팎의 농도가 다르고, 막 수용체는 특정 위치에 있다. 그래프는 이런 공간 정보를 담을 수 없다. 모든 노드가 추상적 공간에 떠 있다. "이 단백질은 핵에 있고 저 단백질은 세포막에 있다"는 추가 정보로 붙일 수는 있지만, 그래프의 본질적 표현 방식은 아니다.

다섯째, 확률적 요소를 다루기 어렵다. 유전자 발현은 본질적으로 확률적이다. 같은 조건의 세포들도 서로 다른 발현 패턴을 보인다. 이를 표현하려면 엣지에 확률을 부여할 수 있지만, 그러면 "이 확률은 무엇의 확률인가?"라는 질문에 답해야 한다. 엣지가 존재할 확률? 반응이 일어날 확률? 시간당 평균 반응 횟수? 개념이 혼란스러워진다.

4.5. 다른 표현 방법들

실제 연구 현장에서는 그래프만 사용하지 않는다. 연구 목적에 따라 전혀 다른 방법들을 사용한다.

미분방정식 (ODE/PDE)

대사 동역학이나 신호전달 동역학을 연구하는 사람들은 주로 미분방정식을 쓴다. 각 분자의 농도를 변수로 두고, 생성과 분해를 방정식으로 표현한다. COPASI, MATLAB SimBiology 같은 도구들이 있다.

장점은 정량적이라는 것이다. 실험 데이터에 맞춰 파라미터를 추정하고, 시간에 따른 농도 변화를 예측할 수 있다. 단점은 직관성이 없고, 파라미터 측정이 어렵고, 시스템이 커지면 분석이 불가능하다는 것이다.

Flux Balance Analysis (FBA)

대사 연구자들은 FBA를 많이 쓴다. 그래프가 아니라 화학량론 행렬(stoichiometric matrix)로 표현한다. 반응 속도가 아니라 정상 상태의 물질 흐름(flux)에 집중한다.

실용적이다. 파라미터를 많이 몰라도 되고, 대장균이나 효모 같은 모델 생물에서는 놀라울 정도로 잘 맞는다. 대사공학에서 실제로 균주 설계에 사용한다. 그러나 정상 상태만 다루고, 조절이나 동역학은 직접 포함하지 못한다.

Boolean Network / Logical Model

유전자 조절 네트워크를 연구하는 일부는 논리 모델을 쓴다. 각 유전자는 on/off 상태를 가지고, 조절 관계는 논리식(AND, OR, NOT)으로 표현한다. GINsim, BoolNet 같은 도구들이 있다.

단순하고 분석하기 쉽다. 안정 상태(attractor)를 찾고 섭동 효과를 예측할 수 있다. 하지만 정량적 정보는 완전히 잃는다.

Petri Net

일부 연구자들은 Petri net을 쓴다. 특히 신호전달이나 대사에서 자원(ATP, NADH)의 소비와 생산이 중요할 때 유용하다.

장점은 병렬 프로세스와 자원 경쟁을 명확히 표현한다는 것이다. 단점은 연속적 농도나 복잡한 조절을 다루기 어렵다는 것이다.

Agent-Based Model

공간적 구조가 중요하거나, 단일 세포 수준의 이질성을 다룰 때는 agent-based model을 쓴다. 각 분자나 세포를 독립적 개체로 취급한다.

가장 현실적이지만 계산 비용이 극도로 높다. 주로 특정 질문(예: 바이오필름에서 항생제 침투)에 한정해서 사용한다.

Rule-Based Modeling

단백질 복합체가 복잡하게 조합될 때(조합 폭발 문제) rule-based modeling을 쓴다. BioNetGen, Kappa 같은 언어가 있다.

"단백질 A의 인산화된 형태가 단백질 B와 결합한다"는 규칙으로 표현한다. 모든 가능한 복합체를 나열하지 않아도 된다.

실제로는 혼합

많은 연구자들이 여러 방법을 섞어 쓴다.

예를 들어,

그래프로 전체 구조 파악 → 중요한 부분만 ODE로 모델링
FBA로 대사 예측 → 조절은 별도로 Boolean network
큰 그림은 결정론적 ODE → 중요한 과정만 확률적 시뮬레이션

SBML (Systems Biology Markup Language)은 여러 표현을 통합하려는 표준이다. 그래프처럼 보이지만 실제로는 반응식, 속도 상수, 구획(compartment) 정보를 모두 담는다.

4.6. 각 방법의 적합성

결국 무엇을 알고 싶은가에 따라 방법이 달라진다.

"전체 구조가 어떻게 생겼나", "어떤 분자가 중요한가", "모듈이 있는가" → 그래프가 적합

"glucose에서 lactose로 전환하는데 몇 분 걸리나", "농도가 어떻게 변하나" → ODE가 필요

"대사 흐름을 최적화하려면 어떤 유전자를 조작해야 하나" → FBA가 적합

"이 조절 네트워크의 안정 상태는 무엇인가" → Boolean network로 충분

"바이오필름 내부에서 영양소 분포는 어떤가" → Agent-based model 필요

완벽한 방법은 없다. 각 방법은 특정 질문에 답하기 위한 도구다. 그래프가 항상 출발점인 것도 아니다. 대사공학자는 처음부터 FBA를 쓸 수 있고, 동역학 연구자는 처음부터 ODE를 쓸 수 있다.

4.7. 표현 방법의 선택

이 노트는 그래프로 분자생물학을 표현하는 방법을 정리했다. 하지만 이것이 유일한 방법도, 최선의 방법도 아니다.

그래프는 구조적 관계를 보는 데 유용하다. "누가 누구와 연결되어 있는가", "정보가 어떤 경로로 흐르는가", "네트워크의 취약점은 어디인가" 같은 질문에 답하기 좋다.

그러나 정량적 예측이 필요하다면 그래프만으로는 부족하다. 미분방정식, FBA, 확률적 시뮬레이션 같은 다른 방법이 필요하다.

결국 연구자는 자신의 질문에 맞는 표현 방법을 선택해야 한다. 때로는 여러 방법을 결합해야 한다. 그래프는 그 중 하나의 선택지일 뿐이다.

분자생물학은 복잡하다. 하나의 형식론으로 모든 것을 담을 수는 없다. 각 방법의 강점과 한계를 이해하고, 목적에 맞게 사용하는 것이 중요하다.

주형이의 천방지축(天方地軸) 블로그

CATEGORIES