# Predicting perturbation patterns from the topology of biological networks ###### tags: `Paper review` 2018년 PNAS에 실린 논문입니다. Proceedings of the National Academy of Sciences ## abstract 처리기술의 발달을 바탕으로 해서 생물화학적인 객체들의 매핑을 통해서 네트워크 바이올로지라는게 가속화가 되었는데 정확한 Dynamical model을 만들기에는 조금 제한이 있다. 상호작용 안에 kinetic parameter에 대해 다 알고 있지 않기 때문에? 그렇지만 그런 상태에서도 우리가 어떤 반응을 할지 예측을 해보자는 거지 agnostic 실인의? 그래서 우리는 우리가 알고있는 역학 과정을 가지는 87개의 모델에서 섭동 패턴을 주었을 때 크기와 방향 모두 복구하기 충분하다라는 것을 알게 되었다?? simple distance-based model 65%의 정확도를 가진다. 이런 예측하는 것이 robust하고 구조적이나 영학적으로 어떤 네트워크 성질이 키가 되는지? 80%정도를 복구하는 것을 보면서 해봤다. 진짜 괜찮은지 확인하기 위해서 실험적인 데이터로 chemotactic pathway in bacteria?? >the directionality of gene expression and phenotype changes in knock-out and overproduction experiments. 이게 보여주는 것은 네트워크의 토폴로지에 실제 현상을 매핑하는 것이 의약 발전하는 것에도 도움이 될 수 있다는 것을 의미한다?? ## Intro 신체 내부의 현상에 대한 매핑을 하려고 했다는 거지 represent the human interactome (ref.1-3) 1. A proteome-scale map of the human interactome network. proteome - 단백체 perturbation 외부 또는 내부 메커니즘에 의해 유발되는 생물학적 시스템의 기능 변화 네트워크 바이올로지라는 분야에 있어서 어떻게 하면 세포활동에 대해서 이해하고 설명하기위한 적절한 프레임워크 기본데이터는 protein-protein interaction / gene regulation / metabolic reactions / kinase-substrate interaction 섭동의 확산을 정량화하고 예측하는거 그런 섭통 패턴은 매우 중요하다 네트워크 메디슨?? 질병상태에 대한 미분형태의 패턴? 게다가, 실리코에서 생물학적 섭동의 효과를 우선시할 수 있다는 것은 특히 인간 피험자를 위한 섭동 실험을 통해 그러한 데이터를 얻는 비용, 시간 및 어려움을 감안할 때 중요하다. prioritize - 우선순위를 매기다. in silico - computer simulation 시뮬레이션을 통해서 실제로 실험하는 시간과 돈을 아낄 수 있다 특히 사람에 대해서 interactome에 대한 내용은 많이 늘어나는데 네트워크바이올로지에서는 이런 정량적인 동역학 프레임워크가 부족한다 예측하는 모델에서 운동모델에서의 모든 pathway에 대해서 채우는게 필요한데 그게 힘들다?? ref 10-11 이전에 어떻게 했는지 알아야될 거 같은데 예전에는 모델에 대해서 parameter를 통해서 어떤 역학적인 변화에 대해서 알아왔는데 그런게 생체내에서랑 실험에서 크게 다른 경우가 많더라 ref 12 global하게 전체적인 kinetic parameter를 피팅하는 방법이 있는데 다른방법으로는 그런 경우에는 보통 large parameter uncertainties 운동 매개 변수에 대한 완전한 지식의 필요성을 우회하기 위해, 다른 연구들은 생물학적 네트워크의 맥락에서 일반적인 동적 모델과 위상 구조 간의 상호 작용을 조사했다. 이 연구들은 매우작은 스케일(microscopic) 모델에서 global perturbation 통계 특성을 검색하는 데 초점을 맞추었다. retrieving 검색하다 회복하다 되찾다 bring back 그니까 지금 어떤 네트워크 사람이나 어떤 생물체에 대한 바이오 네트워크가라는 ㅔㄱ ㅣㅇㅆ을 때 그 안의 모든 과정을 아는게 좋지만 그게 불가능한 경우에 어떻게 해야되냐 기존에는 어떤 방법을 섰냐면 interplay between generic dynamical modes 구조를 확인해보면서 탐구했는데 전체에 대해서 perturbation이 있는 경우 아주 미세한 영역을 보고 복구하는 것을 해봤는데 그렇게 하면 작은 바이오모델에서 비균질적일 때는 문제가 되더라 Topological models 은 Boolean netowrk나 normalized-Hill model 이런게 제안되었다. 하지만 그런것들은 몇개의 잘 설명된 작은 네트워킈에 적용되어서 다른 복잡한 경우에는 잘 안된다는 한계가 있다. biochemical entities in the cell. 그안에 네트워크를 매핑하는거 근데 그 안의 상호작용의 역학에 관련된 kinetic parameter가 어느정도 있어야 몇개 없어도 괜찮은지 알려지지 않았다. biochemical network를 구성해서 65~80% 정도의 정확도를 가지더라 섭동이 있는 경우의 패턴이 topological model s을 하나 제안한다고 보면될거같다. 비싼 kinetic constant measurement 이걸 젤 수 는 있는데 비용이 많이 들지 약의 반응을 모델링해서 어떤게 drug 타겟인지 알 수 있게 해주고 사람에만 반응하는 경우는 실험을 하지 않으면 모르지만 함부로 사람에게 실험할 수 는 없기 때문에 대표적으로 몇개만 보여주자 DYNamics-Agnostic Network MOdels(DYNAMO) chemotaxis network in bacteria 네트워크에 적용시켜서 우리의 모델이 잘 맞는지 정확도를 검증해본다. # Results 연결되어있는지만 보는 경우에는 Topology Dynamics에는 방향이 있거나 이게 있어야 그다음 스텝으로 갈 수 있다던지하는 것이 있을 수 있다. A purely topological approach predicts a uniform spread cacross the network 토폴로지의 관점으로 보면 다른 링크들에 대해서 균일하게 퍼지는 경우를 예상할 수 있다. 하지만 실제로는 어떤 상호작용은 특정한 parameter들을 가지는 운동방정식을 통해서 그 영향에 대해서 정확하게 계산할 수 있는데 그게 퍼져 나가는 경우에 그런 운동방정식들을 알고 있어야한다. 간단한 topological 모델에서 영향 해턴에 따라서 연결선수를 볼구할 수 있는지 연구해보았다. 그러기위해서 그런것을 topological 과 dynamic 방법 두가지를 모두 해보고 비교해보았다.? i) undirected network ii) directed network iii) directed and sign network iv) directed and sign, weighted network A종과 B종이 서로 상호작용을하면서 A의 증가는 B의 증가를 불러오지만 B의 변화는 A에게 영향을 미치지 않는경우 i) A B / interaction 상호작용하지까 그냥 연결 (link) ii) A가 B의 변화를 불러오는거 (방향) iii) A가 b의 양의 변화를 일으키는거 (sign) iv) A가 B의 특정한 엣지에 대해서만 양의 변화를 일으키는 경우 Jacobian matrix를 통해서 이런 변화에 대한것을 설명할 수 있다. 시간에 대해서 변화하는 모든 노드의 변화를 살펴볼 수 있다? matrix형태이므로 topology and perturbation dynamics 이 두개를 자코비안 행렬을 이용해서 뽑아낼 수 있다. sensitivity matrix 혹은 correlation matrix 라고 하는 $$S_{ij} = \frac{dx_i}{dx_j}$$ 만약에 모든 역학적인 수식을 다 알고 있다면 sensitivity matrix를 analytic하게 풀 수 있겠지 그러한 메트릭스를 full biochemical model이라고 언급을 할 수 있다. Fig 1B 토폴로지의 정도만들 바탕으로 센시티비티 매트릭스를 계산하기 위해서 복잡성을 줄이는 3가지 모델에 대해서 탐구 하고자 한다.?? >그런데 왜 그림에는 토폴로지에 대한 정보뿐만아니라 방향이나 sign도 있는거지 내가 잘못 알고 있나 topology에 대해서? 1. 첫번째로 이야기 할 수 있는것은 **propagation model** 우리는 "전파 모델"으로 시작합니다 (그림. 1C) 질병 유전자 우선 순위의 맥락에서 제안, "영향력"은 추정 질병 유전자를 강조하기 위해 알려진 종자 유전자 세트에서 확산된다. 어떤 특정한 유전자는 질병 유전자로 자주 발견되서 그런 유전자에서 시작하는 경우를 가정하고 시작한다?? 우리의 경우에는 perturbed species 어떤 자극을 받는 종들이 시드 유전자 역할을 해서 그 경우에 우리가 perturbation 정도에 대한 우선순위를 정하는데 이 모델에서는 우리는 노드의 예측된 perturbation을 degree-weighted sum을 통해서 각노드의 부분적으로 예측된 perturbation 이 모델에서, 노드의 예측된 섭동은 이웃의 turbation의 degree 가중 합에 비례하며, "소스" 노드에 대한 일정한 입력 용어가 섭동된다. 이 전파 모델은 1,369개의 질병에 걸쳐 질병 유전자를 우선시하는 데 있어 무작위 걷기 알고리즘을 능가하는 것으로 나타났습니다. 이렇게 하는게 랜덤보다는 좋더라 비교를 2. 왜 Distance 모델에서는 signed 부분이 없지? strength of perturbation is inversely proportional to the network distance between a species and the source of perturbation 소스 = 섭동이 일어나는 노드에서 멀어질 수록 낮은 strength를 가진다. 질병관 질병약 관계에 비슷함의 예측하는 중요한 역하을 한다.? 3. 첫번째 이웃 모델은 가장 가까이 있는 모델에 대해서만 생각을 하는 모델이다 왜 이런 모델을 사용할 수 있을까 이것은 local impact hypothesis 라고 불리는 거로 유용하다고 입증이 되었으며 그리고 minimum dominating set이라는 거의 핵심이다. in protein-protein interaction에서 바로 옆에 있는 이런 노드들이 다른 노드에 비해서 중요하다는 게 즈영되었다. ___ Biomodels database 에서 찾아봐서 거기 있는 모델로 검증을 해보자 libSBML이런게 있는데 이게 하는 일은 어떤 운동에 대해 미분방정식 여러개를 뽑아내는 일을한다? 그 수식들을 바탕으로 우리는 influence networks 를 유도할 수 있다. 어떻게? i species - j species 가 연결되어있을 때 i 의 영구적인 변화는 직접적으로 j에게 영향을 미친다. 그래서 편미분값을 이용해서 각각의 변화가 나머지에게 미치는 영향을 살펴보겠다. $$\dot{x_j} = f_j(x_1, ..., x_N)$$ 이게 역학적인 수식이라고 생각하면 $N$ = number of species? $$J_{ij} = \frac{\partial f_j}{\partial xi} (x*)$$ 어떤 steady 이런 방법에서 linksms negative weight 억제하는 상호작용에 해당하고 양수는 가속화하는 상호작용에 해당한다. 추론 네트워크를 연상시키는 방법이다. link 약ㄷㅊ샤ㅐㅜ 이런 망법으로 87개의 모델을 해봤을 때 우리는 가장 큰 연결된 구성 요소가 최소 10종을 포함한다는 기준으로 선택된 BioModels(Dataset S1 및 ref. 22)에서 87개의 모델을 구현했습니다. for biochemical model 에서 j 는 steady stae에서 $$S = (I -J)^{-1} D \bigg(\frac{1}{(I-J)^{-1}}\bigg) $$ DYNAMO 모델에 1~3모델을 해보는것으로 시작하고 노드에 대해서 계사하기위해서 모든 노드에 일단 0으로 넣어준다. i노드에만 1값을 넣어준다. 다른 노드들에게로 전파되겠지? 그게 제안된 모델에 따라서 바뀐다. i) propagation - weight from $$W' = D_1^{-1/2}W D_2^{-1/2}$$ Sensitivity matrix $$S= (1-\alpha)(I-\alpha W')^{-1}$$ ii) Distance 가장 가까운 경로가 같은 두 노드 중에 어떤 것을 고르는지는 알지못한다. iii) First neighbors 바로 옆에있는 이웃노드만 생각한다. 방향이 있는 경우에는 나가는 out degree만 생각한다. 이렇게 토폴로지에 대한 정보만으로 얻은거랑 실제 우리가 얻은 full biochemical model에 대해서 spearman correlation에 대해서 살펴보자 이 비모수 측정은 원시 값이 아닌 민감도의 순위를 비교하여 섭동의 상대적인 강도가 모델 전반에 걸쳐 보존되는지 평가한다. propagation 모델에서는 정화곧가 66을 얻었는데 즉 spearman correlation의 값이 0.66이다? Fig. 2. E부분을 보면 propagationa모델에서 direction부분을 안넣어주니까 확 떨어지는것을 볼 수 있고 distance 모델에서도 방향을 넣어줬을 떄 비슷하게 보여지는데 undirected부분에서는 감소가 이어졌따. 3번째 가장 가까운 노드만 보는 경우에는 랜덤보다는 그래도 높ㅇ느 정확도를 보였다. 종이라고 봐도 되나? 여러동물들이 있을 떄 어떤 동물끼리 협력하냐 이런것을 예시로 들면 어떤가 ( intro) 악어와 악어새 상호작용 (+) 서로 경쟁하는 경우 (-) 그다음으로 살펴보는건 모델에서 signed부분이 예측하는거의 sign을 잘 예측하냐? 이걸 보기 위해서 증가하냐 감소하냐에 따라서 종의 농도라는게 늘어나냐 줄어드냐가 바뀌게 되는데 이게 왜중요하냐면 우리가 측정할 떄 이런 감소하거나 증가하는 유전자에 대해서 보고하기 때문이다. signed가 들어가는 propagation / first neighbor 모델을 살펴보았을 때 사인을 예측하는 정화도를 사펴보았을 때 strength처럼 랜덤보다는 잘나오지만 propagation이 더 높구나? 뭐가 더 높다? 토폴로지가 전체 다이내믹을 예측하는데 2/3 부분을 차지 한다는 것을 알 수 있었고 간단한 거리기반의 몯형이 propagation 모델과 비슷한 성능을 가지는 구나 라는 것을 알 수 있었다. 이런 결과값이 우리가 네트워크에 대해서 얼마나 불완전하게 알고 있을 때 까지 유지되는 지는 모른다. 실제로 우리는 전체 우리몸에서 일어나느 ㄴ반응중에서 20퍼센트 미만으로 밖에 커버하지 못한다 전체를 다 계산할 능력이 없다? 지금 당장은 우리는 모든걸 알지못하는 상태로밖에 연구할 수 밖에 없는 입장이다. jacobian matrix에서 0이 아닌 값을 제거 하는게 링크를 없애는거랑 같은 의미지ㄷ link를 제거하는 비율을 늘렸을 떄 어떻게 되는지 Fig 2G 부분에 나오게 된다. 살펴보면 방향성이 있는 모델에서는 선형적으로 감소하게 되는데 방향이없는 모델이 조금더 둥그스름하게 감소한다.볼록 처음에는 느리게 감소하다가 갑자기 빨라짐 > This can be understood by realizing that many models have a substantial fraction of reversible equations, modeled as two links of opposite direction between two nodes. In the undirected case, removing one of those two links does not change the net- work, making these models therefore more robust to link removal 흠... 어떻게 봐야되냐 노드 사이에 연결이2개로 봐야되나 ? 하나를 제거하는 것은 상관없는데 두개를 다제거하면 undirected도 연결이 끊어진다고 봐야되나? 방향성이 있는 모델은 reversible equation 50퍼센트의 incompleteness인 경우에는 propagation 모델과 biochemical 모델이 비슷한 결과값을 가진다. 물론 조금 더 높다 biochemical모델이 현재정도의 incompleteness 에서 바이오케미컬 네투어크의 구조적인 모델인 더 복잡한 운동방정식을 아는 모델과 비교할 만하다? 그러면 네트워크 자체가 영향을 미칠까 하고 봤을 때 정확도에 영향을 미치지 않는다 네트워크의 global properties를 살펴보았을 때 어떻게 관계가 있는지? 높은 자코비안 값은 빠른 반응이 되고 정확도를 작게한다 왜? 그런 이상치의 경우에는 다른 연결선에 빠르게 진행되므로 네트워크 토폴로지 정보만으로는 얻어낼 수 없다? 가역적인 방정식의 숫자! 가역적인 방정식이 정확도에 부정적인 영향을 미친다는 것을 보고 방향이 장점만있는게 아니라 가역적인 방정식을 따르는 모델에서는 오히려 방해가 될 수 있다. 그런경우에는 방향성이 없는것과 차이가 줄어든다. 이런 결과값은 높은 정확도를 얻는데에 있어서 strongly connected components라는 SCC값에 의해서 분해된다.? 여러개로 분해해서 보는게 더 이 결과는 많은 수의 강하게 연결된 구성 요소(SCC), 즉 모든 노드가 다른 모든 노드에서 도달할 수 있는 하위 그래프로 분해될 수 있는 네트워크에 대해 더 높은 정확도에 도달할 수 있다는 발견에 의해 뒷받침된다. 하나의 SCC만 남게 필터링하게 되면 SI appndix S3-4 하나의 SCC가 있는 네트워크는 밀도가 높고 모듈화가 제대로 이루어지지 않는 반면, 5개의 SCC가 있는 네트워크는 더 희박하고 사슬과 같은 구조를 표시합니다. 그런 구조에서 높은 정확도를 가진다 링크의 가중치가 자코비안을 통해서 되는데 이게 그러면 링크 betweeness centrality 역할을 하게 된다? 토폴로지적인 모델에서 80정도의 정확도를 도달할수있다는게 특정한 네트워크 성질을 가지고 있으면 sparsity and modularity? 다른논문 ref.20에서 제안된 모델과 비교 그림에서 나오는 경우가 KINETIC AGNOSTIC BOOLEAN LIKE NHM NHM모델은 sigmoidal 활정화와 억제함수로 운동역학을 포현한다. 우리모델에서는 we consider these combinations to be “OR gates” (i.e., additive functions). NHM 모델에서는 through three shape parameters and allows for multiplicative inputs (“AND gates”). 기존에는 저런 입력값을 사용하는데 그에 비해서 내가 지금 보고 있는 DYNAMO 모델은 조합입력을 하지 않기때문에 일어나느 정확도 차이를 정량화하는 방법 NHM모델은 beta-adrenergic signaling pathway에 이전까지 적용해왔다. FIG 3 B에 해당하는 그림이 이전에 NHM모델을 이용해서 구한 예시 베타 아드레나릭 네트워크? 신호 진행과정을 심장 근육 세포 수축성을 조절ㅈ하고 심장 비대 및 심부전에 관여하는 잘 연구된 신호 전달 네트워크 NHM fit 모델은 뭐지? 그래서 비교를 해보니까 Sensitivity matrix를 보니까 이전에 우리가 본거는 네트워크 모델의 복잡도가 감사하면서 정확도가 감소하는 형태였는데 DIRECTED PROPAGATION AND DISTANCE MODEL dl 나온 결과값이 얼마나 견고한지 보기 위해서 랜덤 변화를 넣어줬을 때 바이오케미컬 parameter를 바꿔줬을 때 어떻게 되는지 1/2 와 2 사이의 랜덤한 값을 뽑아서 원래의 파라미터에 곱해주는 방식으로 실험을 진행하였다. chemotaxis 주화성? 화학자극에 반응하는 생물 또는 물체의 움직임이다. 우리에서는 박테리아 fig. 4. 그냥 보통 상태의 박테리아가 검정색 박테리아에서 Gene X를 없애 버렸을 때의 변화가 빨간색 예시로 그런 경우에 Y에 대한게 expression change 되었다 (증가) green - negative black - no change red - positive perturbed species 가 나왔을 때 측정된 species가 어떻게 되었는지 Topology로 보았다는게 여기에서 무슨 의미인가? > Perturbed species consist of single null mutants (A−, Y−, Z−), multiple null mutants (A−Z−, Y−Z−), and overproduction mutants (A2+, T2+, B2+, W2+, Y2+, Z2+) 요부분 잘 이해 안됨 흠... >The experimental dataset consists of knockouts and overexpression assays of six genes of the chemotaxis network and their combinations, followed by observation of the change in expression of other genes from the network. A B T W Y Z 6개의 유전자로 구성되어있다? phenotype?? 표현형 또는 발현형질은 생명학에서, 생명체가 유전적인 정보를 이용하여, 세포, 조직 및 개체에 단백질과 당을 통해 생산한 기능적 형질을 말한다 >또한, 실험은 또한 편향의 변화, 여러 생화학적 종 농도의 비율에 의해 결정되는 표현형 양을 보고하고 화학 작용 중 탐색 행동을 포착한다(방법과 그림. 4C). 그림에서. 4 D와 E는 전 실험 관찰(왼쪽 열)을 여러 분석에서 서명된 지시 네트워크(오른쪽 열)의 전파 모델의 예측과 비교합니다. 우리는 관찰된 섭동의 정확한 신호를 검색하는 데 정확성에 초점을 맞춘다. 우리는 네트워크 모델이 유전자 발현 변화의 경우의 86%에서 섭동의 관찰된 징후를 예측한다는 것을 관찰한다(15건 중 13건, 이항 검사에서 P = 4.9e-4, 그림. 4D). 게다가, 그것은 75% 정확도로 표현형 변화를 예측한다(12건 중 9건, P = 0.019, 그림. 4E), 생리적으로 관련된 생물학적 결과를 예측하는 데 있어 위상 모델의 가치를 입증한다. 종합하면, 이러한 결과는 실험 섭동의 데이터를 사용할 때 정밀도가 유지된다는 것을 보여준다. ?? 토폴로지 모델만을 가지고 바이오네트워크에서 kinetic parpameter가 부족할 때 예측할 수 있는 프레임워크를 만들어서 제한한다. >The analysis indicates that networks that can be decoupled into many strong connected components (i.e., many chain-like structures) and are in general sparse (low degree nodes and link density) lead to higher DYNAMO accuracies. SCC가 많은 모델로 나눠서 생각해줄 수 있고 그런 general sparse (low degree node link density)인 경우에 정화곧가 높아질 수 있다. chemotaxis pathway에서 실험적인 섭동에 대한 경과를 예측하는 능력을 토폴로지안에서 어떻게 되는지 살펴보기 이 작업은 현재 네트워크 생물학 및 의학에서 사용되는 다양한 모델링 프레임워크의 역할에 대한 우리의 이해에 중요한 영향을 미칩니다. 약개발 분야에 있어서 이런 perturbation에대한 예측이 정보를 뽑아내는게 중요한 가치를 가진다. 특히, 전파 모델에서 섭동 패턴을 예측하는 데 사용되는 방정식의 선형성은 섭동의 조합을 쉽게 탐구할 수 있게 하므로 약물 조합과 개선된 치료법을 더 잘 이해할 수 있는 길을 열어줍니다. SBML file이라는 것ㅇ느 libsbml matlab ___ INTRO - 어떤 바이오모델(??)에 대한 전체적인 매핑이 이뤄지지는 않았지만 지속적으로 증가하고 있는데 현재까지 가지고 있는 데이터 한에서 섭동 패턴을 예측해보자. 우리는 TOPOLOGY 정보만을 가지고 이를 예측하는 간단한 프레임워크를 구상 기존에는 어떤 방법으로 섭동을 예측하고 있었는지에 대해서 간단한 소개(NHM설명?) 어떻게 네트워크가 만들어지는지 자세한 설명 DYNAMO모델에 대한 설명 1. propagation 2. distance 3. first neighbor 성능이 어떤지에 대해서 기존의 방법중에 하나인 NHM의 방법과 DYNAMO 모델의 비교(beta-adrenerge network?) 여기에서 말하고자 하는바 고비용 실험으로 반응에서의 역학 파라미터값을 얻지말고 간단한 topology 데이터만을 가지고도 비슷한 성능을 낼 수 있다는 점