[수리] Generalized gravity model for human migration
 
1
  132
2019-12-07 10:29:08

성대 물리학과 김범준 교수님 팀의 논문입니다. 

물리학적 수리모델이 경제학적 수리모델과 어떻게 인간에 대한 암묵적 관점이 다른가 생각해보는 것도 재밌을 것 같습니다.
   
16
Comments
1
Updated at 2019-12-11 15:52:21

교수님 의견과 관련하여 우선 코멘트를 남겨봅니다. 물리학적 수리모델은 거시구조의 파라메터에 따라 마치 자석이 다른 자석에게 이끌리듯 끌려간다? 는 관점을 견지하는 것 같습니다. 경제학적 수리모델이 인간의 합리적, 의식적 계산 (예컨대 효용, 기회비용 등)에 따라 행동한다고 보는 반면, 이 모델은 무의식적, 자연적 결과로 인간 행위를 바라보는 것 같아요. 예컨대 GM 같은 경우 지역 거점의 규모(파라메터)가 커질수록 사람들이 더 많이 유입된다고 보는데, 이는 마치 질량이 큰 행(항)성일수록 시공간을 더 크게 왜곡하여 주변의 물질들을 흡입하는 듯한 뉘앙스를 풍깁니다. 사람들은 거기에 자연스럽게 이끌리는거죠.

WR
1
2019-12-11 22:51:29

예, 제 생각과 비슷하네요. 경제학적 모델이 인간을 초합리적(hyper-rational)하다고 보는 경향이 있다면물리학적 모델은 인간을 행위자성(agency)이 없는 존재처럼 보는 경향이 있습니다. 그러한 인간에 대한 두 관점이나 경향을 비판할수도 있지만 저는 비판의 대상은 아니라고 생각해요. 수업시간에도 잠깐 얘기한적 있는데, 비직관적인 가정에서 더 강력한 설명력이 탄생하는 경우도 많다고 생각합니다.

1
2019-12-11 18:36:57

굉장히 간단한 부분을 확인을 하고싶은데요, 혹시 이 논문에서 marriage flow를 정의할 때에 족보 상에서의 정보(물리적 거리와 신부&신랑측 가문의 분포)를 활용하여서, 가부장적인 문화인 사회에서 결혼을 한다면 대체로 신부가 신랑측 가문이 있는 지역으로 이동한다고 가정하는 것 같은데, 혹시 제가 이해한 방식이 맞나요?


그리고 저자들의 traveling distance에 대한 계산은 현대의 이동패턴이 과거와 비슷할거라는 가정 위에서 현대의 이동패턴을 바탕으로 하였는데요, 사실 과거에는 (가령 물리적으로는 A, B 두 마을이 굉장히 가깝지만 두 마을 사이에 큰 산이 있어서 사실상 A는 B와 교류를 보다는 상대적으로 더 멀리있는 C와의 더 교류를 하는 것 처럼) 단순히 물리적 거리가 아니라, 산이나 강과 같은 물리적 지형지물도 굉장히 중요하다고 알고있어서, 저자들의 가정을 조금은 약화시킬 필요는 없을까 하는 생각이 들었어요
WR
1
2019-12-11 23:01:51

1. 예, 그런 가정이 맞습니다. 다만 신부가 신랑측 가문이 있는 지역으로 꼭 "물리적으로" 이동한다고 생각하는지까지는 잘 모르겠어요. 물론 저자들은 그런 가정이 다소 현시대에 맞지 않지만, 1985, 2000년같은 과거 데이터는 좀 더 잘 맞을거라는 식으로 언급하고 있습니다.


2. 이러한 지형적 요인도 맞는 지적인데, 그럼에도 이미 GM모델이 교통이동량에 꽤 잘 맞는다면 어느정도 이러한 위도, 경도에 근거한 거리계산 모델의 타당성을 인정할 수 있지 않을까 합니다. 
제가 해보는 생각은: 그러한 지형적 제약이 과거에 더 심했을테니, 2015, 2000, 1985 과거로 갈수록 모델이 더 안 맞아야 할겁니다. Figure 3을 보면 큰 차이는 아니지만 연도간 optimal gamma 값에 순서가 좀 보이는데, 이러한 순서가 과거일수록 모델 fit이 안 좋을 것이라는 추론과 일관된지 아닌지까지는 잘 모르겠어요. 
1
2019-12-11 20:53:45

경제학적인 수리모형에서는 인간이 특정한 판단 근거에 의거하여 행동 (본 논문의 경우 이동)할 것이라고 예측합니다. 예를 들어, 국제적인 노동 시장에서 인간은 필연적으로 해당 국가가 원하는 equilibrium의 수준이 될 때까지 유입 혹은 유출될 것이라고 예측합니다. 임금, 해당 국가의 자본/노동의 비율 등이 equilibrium을 측정하는 근거가 됩니다. 인간은 해당 국가가 equilibrium의 수준의 노동량을 갖고 있지 않으면 이동할 유인이 생기게 됩니다. 단순히 자신이 속한 국가(A)에 비하여 다른 국가(B)가 높은 임금을 지불한다면 노동인구는 자연히 A에서 B로 이동하게 됩니다. 이처럼 경제학적인 수리모형은 특정한 현상에 있어서 인간이 분명한 목적의식을 갖고 행동하고, 그것이 경제학적인 equilibrium의 수준에 도달할 것이라고 예측합니다. (물론 경제학자들이 어떠한 학파에 속했는지에 따라 equilibrium에 도달하는 시간에 대해 다르게 생각하지만 결론적으로 특정한 수준에 도달할 것이라는 합의는 서로 갖고 있다고 알고 있습니다.)

반면 본 논문에서 확인한 물리학적인 수리모형은 특정한 equilibrium의 수준이 존재한다고 가정하고 있지 않다고 생각합니다. 위의 예시를 사용하자면, 오히려 B라는 국가가 존재한다면 당연히 A의 노동인구는 B로 이동해야 한다고 주장하는 것 같습니다. 본 논문의 GGM은 특정 지역 내부에서 sub-population structure를 고려하여 다양한 경우의 수를 분석하고, 그렇기 때문에 보다 풍부한 정보를 해석할 수 있지만 인간이 왜 B로 이동하는지에 대한 유인을 잘 설명한다고 느껴지지는 않았습니다. 물론 GGM을 도출하는 과정이나 GGM GM에 비해 얼마나 많은 정보를 담아내는 지를 설명하는 본문 대부분의 내용이 이해가 되지 않아 제가 파악하지 못 한 부분이 많이 있겠지만, 보다 직관적인 측면에서 이해가 되는 쪽은 경제학적 수리모형이 아닐까 생각합니다.

WR
1
2019-12-11 23:06:33
전반적으로 동감하고 첫 댓글을 봐주세요. 

추가로 균형점에 대한 두 관점의 차이에 대한 제 생각을 얘기해보자면, 
물리학에서 일종의 균형점은, 에너지 레벨이 가장 낮은 상태인 것 같아요. 그런 상태에 어떤 식으로건 에너지가 가해지면 그 에너지를 다시 밖으로 배출하면서 낮은 상태로 가고... 물론 이러한 에너지가 인간 사회에서 어떤 의미인지는 역시 의미부여가 쉽지 않지만요.
1
Updated at 2019-12-11 21:13:28

이러한 사고방식(물리학적 수리 모델링?)의 매력은 사람들이 '규모'에 반응하는 부분을 포착하는 데 있다고 생각합니다. 특히 '이동', 즉 유입과 유출이라는 '물리적' 행위를 규모의 함수로 설명하고자 하는 것은 몇몇 사회학적 논의보다 더 직관적이기까지 합니다. 이 글의 저자들은 GM이 subpopulation을 고려하지 못하고 다양한 정보를 coarse-graining하여 날려버리는 문제점을 극복하기 위해 GGM을 만드는데, 지역 내의 이질성까지 모델에 반영하여 더 정확하게 이동을 예측한다는 점에서 중요한 발전이라고 생각합니다. 확실히 사람들은 '규모'라는 것을 다 같은 기준으로 평가하지 않기 때문에 어떤 척도의 규모를 볼 것인가라는 attribute가 중요한 요소로 대두합니다. 글에 제시된 것처럼 교육 수준이나 임금 수준같은 세부 요소가 작동하면서 이동에 영향을 주게 되죠. 이 글의 백미는 마지막 부분에서 attribute를 벡터화하여 다차원의 attributes을 모두 고려할 수 있게 해주는 부분이라고 생각하는데, '일반화된' 모델이라는 것의 의미를 잘 알려주는 것 같습니다. 마치 선형 모델이 처음에는 continuous variable만 가능했다가 로짓, 다항로짓 등까지 가능해져서 '일반화된' 이라는 이름이 붙은 것처럼 말이죠.

WR
1
2019-12-11 23:20:18

말씀하신대로 "다차원의 attributes을 모두 고려"하는 모델로 일반화할 수 있다는 건 분명 이 모형의 강점이 될겁니다. 하지만 다차원 attribute간 조합의 수만큼 subgroup을 나누고 그 집단 간 이동패턴을 추정하기 위해서는 데이터의 규모가 상당해야 하지 않을까 싶어요.

1
Updated at 2019-12-11 22:11:41

 GGM에서는 subpopulation의 모든 flows를 intergrating함으로써 가능한 모든 정보를 사용한다는 점 따라서 GGM은 attribute indices까지 봄으로써 The maximum entropy principle, 엔트로피를 최대화하고 real한 확률분포를 추정할 수 있는 방법임을 제시했습니다. 기존 GM은 data를 한번 걸러내어 the coarse-grained population data를 사용하는 문제가 있으며 이는 곧 some information loss, 쉽게 말해 사용할 수 있는 최대한의 정보를 이용하지 않았다는 뜻으로 이해했습니다. 그리고 특히 GGM은 df가 높은, 자유도가 높은 시스템에 매우 유용하기 때문에 macro한 mobility를 잘 포착할 수 있습니다.
 "Each Lagrange multiplier corresponding to each constraint in maximization gives the corresponding model parameter.", 수리적 모델을 다 이해하진 못했지만, 여기서 말하는 lagrange multiplier이 모델이 고려할 수 있는 정보를 maximization하는 방법으로써 사용되는 것 같은데, "주어진 제약조건 안에서 어떤 함수의 최댓값이나 최솟값(극점)을 찾음"으로써 subpopulation flow의 최대 정보를 구하기 위한 방법이라고 이해해도 되나 싶습니다. 
 다시 돌아와서, 실제 족보데이터를 활용하여 human migration의 subpopulation구조를 분석한 저자는 이 연구가 population dynamics연구(특히 출발점과 도착점의 속성이 서로 다른 mobility data)로 확장될 가능성이 있다고 말합니다. 이를 이해하기 위한 예시 중에 마지막 결론 부분에서 제시해준 예시가 적절했다고 생각합니다. "For instance, the attribute in the departure place for education can be the education level of people, while the attribute of the arrival place for work can be the income level."                 

WR
1
2019-12-11 23:33:36

"Lagrange multiplier"에 대해서는 저도 잘 기억이 안 나는데, 

통계모형에서 likelihood maximization을 해주는 회귀계수(parameters) 값을 찾아주듯이,
타깃 함수값(여기서는 엔트로피 측정치)을 maximization해주눈 parmeter 값을 찾아주는 일반적인 방법이라는 점에서 비슷한 것 같습니다.
1
Updated at 2019-12-11 22:16:02

Gravity model(GM)에서 흐름은 두 지역이 가지고 있는 고유한 물리량(질량)에 비례하고 거리에 반비례한다는 model을 가집니다이는 역학에서 사용되는 개념인 질량중심(CM: center of mass)과 관련이 되어있습니다질량중심은 rcm=Σmiri / M 으로 낼 수 있는데이는 GM에서 흐름의 역수인 형태입니다이를 이 논문의 식(12)에서 i j CM으로 나누어지는 것을 볼 수 있듯이, 이 논문은 GM의 기본 컨셉에 충실하다(?)라는 느낌을 받을 수 있었습니다.

 

이 논문에서는 GMcoarse graining 하는 방식은 한계를 가지기 때문에 subpopulation flow를 계산합니다. 이 부분에서 궁금한 점이 있는데, GM을 통한 다른 연구들에서 CM에서 부터의 거리 벡터(r) 이외에도 두 지점 사이의 attributes를 고려한 유사도 벡터를 이용하여 상대적으로 fine-grained 클러스터링 하는 방법을 몇몇 본 적이 있습니다(urban clustering이 이에 대한 예시가 될 수 있을 것 같습니다). 이 방법이 ‘generalized’는 아니지만, 이런 경우에는 GMGGM의 경계가 약간 희미해지는 것 같다는 생각도 듭니다.

WR
1
2019-12-11 23:15:47

"두 지점 사이의 attributes를 고려한 유사도 벡터를 이용"한다는게, 두 지점간 유사도가 높을 때 물리적 거리도 가까운 것처럼 다루고, 따라서 두 지점간 흐름도 많아진다는 뜻인가요? 

아마 그렇다면 이 논문처럼 결혼의 경우는 유사도가 높을수록 물리적 거리를 오히려 늘려야 하지 않을까 싶어요. 같은 성씨, 같은 가문이라면 혼인할 확률이 떨어질 테니까요? 
하여간 그거야 연구질문에 따라 바꿀 수 있을 것 같고, 말씀하신 모형의 정확도와 저자들의 GGM 모델의 정확도 간 비교해보면 어떨지 궁금하네요. 
1
Updated at 2019-12-12 00:47:58
저자들은 기존의 GM을 활용한 human mobility와 관련된 다양한 사례를 잘 설명하지만, 이는 각 population내의 subpopulation이 지니는 attribute를 반영하지 못한는 한계가 있다는 점을 지적하며 GGM을 제시합니다. 논의에 따르면 GGM은 GM에 비해, subpopulation의 여러 attribute와 관련한 information loss를 피할 수 있다는 점에서, 현실 사례를 설명하는데 더 나은점이 있다는 사실을 확인할 수 있었습니다. 수식에 대한 이해를 잘 하진 못했지만, GM과의 가장 큰 차이는 GGM을 통해 실제 데이터를 분석하면, 라그랑주 승수법을 이용한 정보량의 최대화 과정을 통해 구한 파라미터 γ의 optimal한 값이 0이 아닌 값(논문에서는 상당수 2)으로 나오는 경향이 뚜렷합니다. 그리고 optimal한 파라미터 γ 값은 bride가 clan j로 이동하는데 감수해야할 지리적 제약을 반영한다는 점에서 결과적으로 subpopulation의 attribute를 GM에 비해 유의미하게 더 잘 설명한다고 대강이나마 이해했습니다. 결론에서 저자들의 논의대로 각 지역의 서로 다른 attribute도 포함해 분석할 수 있다는 점도 고려하면, 모형의 이름 그대로 일반화가 용이한 모형이라는 생각이 들었습니다.

초기 경제모형이 경제의 결과물을 경제가 평형상태에 이르렀을때 자본에 대한 노동의 비율로 정의하거나, 경제성장을 저축률과 자본의 감가상각 간의 긴장 상태에서 논의하는 점 등을 떠올릴 때, 위의 댓글에서도 말씀해주셨듯이 특정 균형점에 도달할 것이라 가정 한다는 점이 경제모형의 두드러지는 특징이 아닐까 생각했습니다. 인간의 행위를 설명하는데 있어서도 분석 단위를 원자 단위에서부터 고려하는 학문과, 주로 인간을 최소단위로 고려하는 학문 간의 관점의 차이가 각 학문 분과에서 제시하는 모형에도 어느정도 드러난다고 생각합니다.
1
Updated at 2019-12-12 09:31:07

저는 물리학적 가정에서 경제학에서와 달리 특정한 균형점을 상정하고 있지 않다는 점이 더 매력적으로 다가왔습니다. 물론 경제학적 모델 또한 설명력이 높지만, 조건에 따라 합리적인 선택이 무엇인지도 달라지기 때문에 집단에 따라 달라질 수밖에 없는 지점들을 거시적인 차원에서 아울러 설명할 수 있게 하는 것이라 생각해요. 예를 들어 미국인들과 한국인들의 직업 선택 유인이 다르더라도 각 국가 내에서의 이동 폭이 아닌 국제적 차원에서 질량이 큰 쪽(저는 시장이 큰 쪽으로 이해했어요)으로 임계점에 해당할 때까지 쏠릴 수 있는 현상을 설명할 수 있는 것이라 생각했어요.

저는 특히 이 질량이 큰 쪽으로 쏠린다는 것과 위쪽 115호님 댓글에서 언급된 것처럼 물리학에서 균형점이 에너지가 낮은 상태라 한 것을 종합하면 더 재밌는 해석을 할 수 있다고 생각했어요. 시장은 독점 상태가 가장 이윤을 극대화 할 수 있으니 자꾸 우위를 점하고 경쟁자를 제거하려는 행동을 하게 되는 것을 에너지 방출로 볼 수 있을 것 같고, 다른 측면에서는 핫한 시장에 뛰어들고 싶은 욕망(우리나라에 대만 카스테라 지점이 우후죽순 생겨났던 것처럼)을 잘 설명하는 것 같아요. 사회에 적용해도 똑같을 것 같은데, 아무래도 배타적이고 독점적인 위치에 있으려면(권리를 가지려면) 규모가 작은 것이 유리하며 인기가 많은 사람 혹은 집단은 (그럴 만한 이유가 있으니) 더 인기가 많아져서 power-law distribution의 우측 꼬리를 두텁게 만드는 것들이 된다고 해석할 수 있을 것 같다고 생각했어요.

1
2019-12-12 09:41:58

GM은 어떤 사회적 행동에 내재된 Intention보다는, 거시 수준에서 집합행동이 작동하는 원리에 대한 직관에 바탕에 두고 있는 것 같습니다. 이런 부류의 물리학 모델의 매력은 즉시 사용 가능한 데이터셋이 정말로 많다는데 있지 않나 싶습니다. 출발지와 목적지, 이동량과 attribute만 있으면 바로 모형을 테스트해볼 수 있다는 점이 매력적인 것 같아요. Intention이라던가 agency로 사회적 행동을 설명하는 일련의 이론들은 검증을 위해 서베이(그리고 일반적으로 회귀분석 등 factor-based model)를 필요로 하기 마련인데, 서베이 없이도 모델을 검증해볼 수 있다는 점이 매력적이었습니다.

한편 GGM은 그 attribute (j)을 무엇으로 잡느냐에 따라, GM에 비해 훨씬 더 경제학이나 사회학 모형과 닮게끔 모델링이 가능하겠다는 생각이 들었습니다. 규모와 거리만을 고려하는 기존 모형과 달리, 교육/수입과 같은 attribute을 반영할 수 있는만큼, 과거에 모형에 비해서는 훨씬 더 개개인 agency 수준의 설명이 가능해졌지 않나 싶습니다.

1
2019-12-12 10:03:44

수리사 week15

도시공학과 수업에서 중력모형을 통행분포(각 존간의 통행량)를 추정하는 주요한 모형으로 배운 적이 있는데, 이번 논문을 보고 혹시 GGM이 교통분야에 적용된것이 있는지 찾아보았는데 잘 안나오는 것 같습니다.. 기회가 된다면 전공 교수님께 여쭈어봐야 겟네요. 학부 교통수업에서는 통행분포를 예측하는 모형으로 크게 두가지를 배웠습니다.

성장인자법 과 중력모형인데요, 성장인자법은 두 존간의 통행이 어떠한 성장인자에 따라 증감할 것이라고 보는 관점입니다. 예를들어 기준년도 a존과 b존의 통행량이 각 존의 인구에 비례한다고 한다면, 예측년도 두 존간의 통행량을 각존의 인구의 예측치를 가지고 예측합니다. (실제로는 더 많은 성장인자를 사용하겠지만)

중력모형은 두 존간의 통행량이 유출존의 통행유출과 유입존의 통행유입에 비례하고, 두 존간의 통행비용에 반비례한다고 가정하는 모형입니다. (통행유출과 통행유입이 mass에 해당하고 통행비용이 distance에 해당)중력모형에서 가장 주요하게 배웠던 부분은 통행비용에 대한 저항함수를 구하는 것이었는데요, 통행비용에 따른 통행량의 감소가 어떤 함수를 따르고 그 함수의 계수는 어떤지 결정하는 과정입니다.

GGM의 수학적인 유도과정이 어려워 큰 개념 위주로 받아들이며 읽어보았습니다.. 어떤 지역의 subgroup의 분포가 반드시 지리적으로 클러스터되어있을 수는 없기 때문에 단순히 존의 크기를 잘게 쪼개는 것으로는 포함시킬수 없는 정보를 GGM을 사용하면 담을 수 있을 것 같습니다. 다른연구를 찾아보니 어느구간을 차몇대가 지나갔는지 수준이 측정이아니라 위치정보를 포함한 SNS 데이터 등을 통해 특정 행위자의 활동사이클을 수집할수 있게되면서 행위자 기반, 혹은 활동기반 모형으로 기존모형의 한계를 보완하는 시도가 있는것 같습니다. 조금 다른 얘기지만 Kshap연구같은데서 연구대상인 어르신들이 동네를 다니며 sns를 해서 활동기반 정보가수집된다면 지리적특성과 사회활동의관계를 더 구체적으로 볼수있겠다는 생각이들었습니다..