[수리] Power laws, Pareto distributions and Zipf’s law
 
1
  101
2019-11-21 16:36:07
 | https://arxiv.org/…

지금은 좀 유행이 지났지만, 멱함수 분포에 대해 필요한 A부터 Z까지 알려주는 논문입니다. 
일부는 너무 수리적이라서 III. The Mathematics of Power Laws 부분은 건너뛰고 읽으셔도 됩니다. 필요한 부분은 수업시간에 설명하겠습니다
IV. Mechanisms for Generating Power-Law Distributions는 E. Phase transition 부분과 F. Self-organized criticality 부분이 중요하니 읽으시구요.

   
13
Comments
1
2019-11-27 15:15:56

논문은 다양한 system 속에서 존재하는 power law distribution을 설명해내고자 하는 일련의 시도들을 리뷰하고 있는데요, 조금은 근본적인 질문이라는 생각이 들지만, (인간계든, 자연계이든) system 속에 멱함수 분포가 있다는 것, 그리고 그것을 설명해 낸다는 것은 사회학적으로 어떠한 함의가 있을지 쉽사리 꼳히지가 않네요..! (뭔가 생각해보자면, 결국 모종의 성과를 결정하는 데에 있어서 초기값이 중요하며 바로 그렇기 때문에 생각보다 관찰단위에서의 'hierarchy'나 'mobility(?)'가 안정적으로 구동된다는 것일까요)

WR
1
2019-11-27 22:59:33

사실 온라인 네트워크 connectivity 분포가 멱함수라는 발견과 불평등이 심해지면서 소득이사 성과분포가 점점 멱함수(혹은 파레토 법칙)스러워잔다는게 중요한 사회과학적 함의죠. 요즘은 좀 식상해졌지만. 

즉, 경험적, 시사적 함의지 근본 원인에 대한 이론적 함의는 아닙니다. 
다만 '사회학적'인 것을 떠나 멱함수 확률분포는 흥미로운 분포이기는 합니다, scale-free라는 점에서 특히.
1
2019-11-27 18:43:18

제가 이해한 바로는 Power law가 생겨나는 mechanism을 설명하는 부분 중 4.6self-organized criticality는 특정한 시점(divergence가 나타난 이후)부터 power law가 생성되는 것이 아니라 시점에 상관없이 항상 power law의 영향 안에 있음을 나타냅니다. Barabasi (1999) 논문과 비교하여 궁금한 점이 있습니다. 논문에서 예시로 들고 있는 나무와 산불을 Barabasi (1999)의 논문과 비교해 보면 growth라는 조건은 나무가 특정한 격자 안에서 지속적으로 생성되는 것이고, preferential connectivity라는 조건은 격자에서 면으로 접하고 있는 이웃 격자에만 산불이 옮겨지는 것을 뜻하는 것인지 궁금합니다. 또한 산불이 생성이 Barabasi의 논문에서는 어떤 것에 해당되는지도 궁금합니다. Barabasi의 논문에서는 vertex가 지속적으로 증가하는 것만 보여줬는데 산불에 의해 감소된 나무는 어떻게 해석해야 될지 궁금합니다.

WR
1
2019-11-27 23:05:06

바라바시가 제시한 모델과 산불모델은 직접적 연관은 없습니다. 산불모델은 phase transition 상태에 계속 머물게해주는 모델인데, Barabasi's preferential attachment 모델은 phase transition(상전이) 현상과 상관이 없습니다.

그보다도 너무 수학적이어서 복잡해서 넘어간 D. Yule process가 Barabasi's preferential attachment와 유사한 메커니즘입니다.
1
Updated at 2019-11-27 22:33:38

power law distribution이 자연과 사회, 특히 네트워크에서 많이 발견된다는 점은 큰 의미가 있다고 생각했습니다. 제가 이해하기로는 power law도 자연을 설명하는 많은 통계학적 분포 모델 중 하나인 거 같습니다. 그렇다면 우리가 샘플을 통해 모수의 분포를 예측하듯이 power law도 그런 활용이 가능한지 궁금합니다. 교수님이 "지금은 유행이 지났지만"이라고 하셨는데, 그 이유가 이러한 통계적 활용이 어려워서인지 아니면 다른 이유인지 궁금합니다. 읽은 바로는 랜덤워크도 power law를 따르는데 이는 주가 변동과 밀접한 영향이 있고 주가 변동 이해는 엄청난 뭐랄까 돈을 가져올 수 있으니까 power law가 정규분포만큼 중요하게 학교에서 다뤄졌을 거 같은데요, 통계학입문에서 배우지 않은 것으로 보아 앞서 질문한 것 처럼 power law가 robust하지만 활용이 어렵던지 수리적 결함이 있어서 그런가 하는 생각이 듭니다. 샘플링을 통해서 critical point를 알 수 있다면 많은 재밌는 분석이 가능할 거 같아요.


power law에서 지금 중요하게 다루는 부분은 그 메커니즘이라고 생각하는데, 자연과 사회에서 모두 발견되는 것은 이 분포가 어느정도 일반적임을 나타냅니다. 그 핵심은 feedback loop에 있다고 생각하는데요, 나이브하게 보면 power law는 기본적으로 지수함수이기 때문에 초기의 인풋이 아웃풋으로 나와서 그 아웃풋이 다시 인풋으로 적용되거나 최소한 영향을 줄 때 발생한다는 생각이 듭니다. 이런 게 self organized criticality인가요? 나무가 많이 뭉쳐있어서 불이 옮길 수 있다면, 이를 실시간으로 지켜볼 때, 처음에는 큰 숲에서 한 나무만 불이 붙지만 t+1에서는 주위의 나무 4개가 불이 붙고 t+2에서는 나무 8그루가 불에 붙습니다. 실제 뉴스에서도 산불이 '삽시간'에 번진다고 표현하죠.

수업에서 다룬 power law distribution의 가장 대표 예시는 음악시장(문화시장)입니다. 이런 시장에서의 power law는 메커니즘이 더 직관적인 거 같습니다. 저는 그 메커니즘의 핵심이 '선택'이라고 생각하는데요, 시장은 본질적으로 공급과 수요가 접하는 부분이고 거래가 발생한다는 것은 소비자의 프로덕트에 대한 선택이라는 과정을 포함합니다. 이 기원적 선택이 랜덤하든 질이 영향을 엏마나 미치든 프로덕트의 마켓쉐어에서 분포를 만들고, 마켓쉐어와 더불어서 마켓쉐어의 순위가 다음 차수의 거래에서 눈덩이 효과를 발생시켜서 power law가 발생합니다. 매튜효과와도 비슷한 거 같습니다. 특히 음악시장에서 power law가 두드러진 이유는 '차트'의 효과가 가장 클 것입니다. 소비가 되려면 노출이 되어야 하는데 사람들은 애초에 차트 상위권 노래만 접하고 그 중에서 소비를 하게 됩니다. 뉴스 댓글의 좋아요 싫어요 갯수도 power law인데, 이는 차트의 노출효과와 비슷한 거 같습니다.
WR
1
2019-11-27 23:13:35

1. 샘플을 통해 모수의 분포를 예측하는 것은 물론 power-law distribution에 대해서도 가능합니다. 논문에도 소개된 log-log plot이 대표적인 예이구요. power law 분포는 long-tail, heavy tail 등으로 통계학에서도 많이 다룹니다. 다만 분산이 무한대, 경우에 따라서는 평균값도 무한대인 경우라 일반적으로 통계분포를 결정하는 parameter들이 무용지물이고, 기본교과서 수준에서는 잘 안 다루는 것 같습니다.

2. 위 댓글에도 달았지만, self organized criticality는 phase transition, 요즘말로는 오히려 특이점 같은 메커니즘과 관련이 깊어 보이지지만, 사회 자료에서 power-law(예, preferential attachment, 매튜효과)는 이 메커니즘은 아닌 경우가 많은 것 같아요. powre-law 분포를 생성하는 메커니즘은 매우 다양해서 단일 메커니즘을 가정할 필요가 없다는게 논문의 요점이기도 하구요.
1
2019-11-27 22:43:31

. Measuring Power Laws에서는 power law 확률분포식에 따른 x값과 p(x)를 히스토그램으로 그리고 로그 스케일에 같은 히스토그램을 보여줍니다. 이때 right tale에 노이즈가 생기고 이것을 해결하기 위한 방법들이 제시되는데요, bin의 크기를 일정한 비율로 증가시키고 또 x보다 크거나 같은 누적 분포를 이용하기도 합니다. 이것들이 노이즈를 감소시키는 것에 대해서는 조금 감이 오지만 이것이 실제 자연이나 사회에서 나타나는 power law에 더 가까워지면서 부드러운 모양을 찾아가는 걸까요(bin 크기를 증가시켜가며 plotting하는게 실제 발생하는 현상들에 더 가깝다거나..) 아니면 초기설정에서 변화를 주면서 단순히 예쁜 모양을 만드는 방법인걸까요..? 그리고 least-squares fit으로 데이터에서 찾은 알파값이 실제 알파값과 작은 차이가 있는데, 이것에 비해 그 다음에 제시하는 공식은 어떠한 접근으로 알파값을 찾고자 한 것이길래 오차를 줄일 수 있었는지 잘 이해가 안됐습니다.

 

.

Power Law 분포는 논문에서 제시한 예시들에서 볼 수 있듯이 여러 영역에서 나타나고 분포가 만들어지는 메커니즘에는 여러가지 설명이 있습니다. 메커니즘 중 Phase transition and critical Phenomena 설명에서는 수업 초반에 했었던 small world network가 떠올랐습니다. 11로 연결지어 비교하기는 어렵지만, 둘 모두 단위연결이나 밀도가 갖는 파워가 선형적으로 변화하지 않는 다는 것이 공통점이면서도 급격한 변화가 일어나는 지점이 다릅니다. Small world network에서는 초반의 랜덤한 연결로 멀리 있는 노드들간의 경로의 효율성이 크게 증가합니다. 반면 Epercolation model에서는 percolation probabilitycritical value에 가까워지며 mean cluster size의 증가폭이 커지기 시작합니다. Critical point를 통한 설명은 square lattice나 산불모형같이 물리적으로 일정한 공간을 한정한 경우에만 의미있는 설명일까요..?!

교수님께서 small world network 수업시간에 논문을 설명해주시면서 일부 분포에 대해 사실 power law분포라고 하시고 넘어가신 적이 있는데 그 부분도 다시 짚어보고 싶습니다..!

WR
1
2019-11-27 23:21:31

I I. 질문은 수업시간에 다시 해주세요. 질문을 정확히 이해했는지 모르겠는데, bin 구간 조절은 단순히 예쁜 모양을 만드는 것에 가깝고, complemetary cumulative density function(CCDF)를 사용하는 것은 least-square fit과는 다른 기법으로 더 정확히 알파값을 찾는 겁니다. 

IV. self-criticality같은 메커니즘에 관심들이 많은 것 같은데, 저는 (자연현상이 아닌) 사회현상을 이 메커니즘으로 모형화할 수 있다만 정말 재밌을거라고 생각합니다. 그러나 바라바시를 비롯해 중요한 사회현상을 이걸로 모형화한 경우는 거의 없을 겁니다. 
수업시간에 한 말은, Duncan Watts가 자신의 random re-wiring model에 해당한다고 제시한 분포들이 사실은 그 분포가 아니라 power-law라는 뜻입니다. 바라바시도 그걸 눈치채고 논문에 언급을 한 것 같구요.
1
Updated at 2019-11-27 23:24:08

자연적으로 power law가 발생한다는 건 참 흥미로운 현상입니다. 앞선 글의 코멘트에서는 power law의 스케일을 제거하면 같은 모양을 갖게 된다는 점에서 이들 네트워크의 근본 특성이 뭔가 같다는 것을 의미하는 게 아닐까 하고 썼었는데, 이 글을 읽으니 power law가 형성되는 메커니즘이 각 네트워크마다 다르다고 설명되어 있어 의문이 해소되었습니다. 저는 멱함수분포 자체도 정말 흥미롭다고 생각했는데 멱함수분포가 형성되는 메커니즘은 더 흥미로웠는데요, self-organized criticality나 phase transition에 등장하는 critical value, 혹은 threshold가 현실 세계에서 자연적으로 충족된다는 것이 무얼 의미하는지 궁금해졌습니다. 마치 누군가 그렇게 정해두기라도 한 양 반복적 과정을 거치면서(forest fire model에서 나무가 자라고 다시 불타고 또 자라는 과정이 반복되는 것처럼) threshold를 찾아가는 건 인간이 아직 발견하지 못한 어떤 물리법칙 같은 것이 있어서일까요? 어떻게 이게 가능한지 신기하기도, 잘 와닿지 않기도 합니다.

한편 power-law의 중요한 임플리케이션 중 하나는 엄청나게 큰 값들(엄청나게 많이 인용된 논문, 엄청나게 큰 산불 등)의 가능성이 실제로는 우리 생각보다는 꽤 크고, 분명히 나타난다라는 것 같습니다. 값이 커질수록 확률이 0에 끝없이 다가가기는 하지만 절대 0이 되진 않으니까요.
WR
1
2019-11-27 23:24:04

바로 위 댓글에서 언급했듯이, 사실 사회현상에서 self-organized criticality 때문에 power law를 보이는 모형은 찾기 힘들어요. 적어도 사회현상에서는 와닿기 힘들죠.

1
2019-11-27 23:46:16

1. 시간이 지남에 따라 네트워크가 확장될 수 있다는 점이 직관적으로 이해가 되면서, 사실 실제 사람들의 연결망에 적용해서 생각해보려니 또 의문이 생기기도 합니다. 시간이 흐르면서 새로운 사람을 계속해서 만나고 새로운 관계들이 생겨나겠지만, 그것이 이전의 관계들이 지속적으로 유지된다는 것을 말하지는 않기 때문입니다. critical point를 계산할 때 연결의 최대값을 반영할 수 있다면 결과가 어떻게 달라질지 궁금합니다.

2. threshold를 찾아간다는 것을 실질적으로 필요 없는 사람은 쳐내고 새로운 관계를 만들어 가는 것과 같은 의미로 받아들일 수 있지 않나 생각해 봤습니다. 개인이 가지고 있는 한정된 에너지 상 자신의 네트워크를 얼마로 유지하는 것이 가장 효율적인지, 연결의 갯수가 증가함에 따라서 늘어나던 효용이 에너지 고갈로 꺾이는 부분인 critical point를 찾아 최적화 하는 것이 아닌가 싶습니다.

1
Updated at 2019-11-27 23:56:53

  어떻게 활용하는지 궁금증을 가지고 읽은 부분에서, 4페이지 (5)에 의하면 observed data를 통해 멱함수의 확률밀도함수 f(x) 식 중 지수(알파)를 추정하는 식이 제시되어있습니다. 그리고 알파를 추정대상인 parameter로 삼아 값을 달리 해가며 the maximum likelihood method에 따른 결과값이 TABLE 1에 정리되어 있습니다."The constant 알파 is called the exponent of the power law, (The constant C mostly uninteresting; once 알파 is fixed, it is determined by the repuirement that the distribution p(x) sum to 1)." parameter로서의 알파만 추정 가능하다면 멱함수의 확률밀도함수에 따라 분포를 정할 수 있는게 맞나요(?).

1
Updated at 2019-11-28 10:08:12

Barabasi의 논문이 power-law에 대한 설명이라면, Newman의 글은 power-law를 수리적, 경험적으로 해부한 논문이라는 생각이 듭니다. 그중에서도 4.Ecritical pointphase transition의 내용과 lattice를 rescale 하는 것이 인상 깊었습니다. 그런데 Fig. 12에서는 1000x 1000 lattice, Fig. 14의 경우는 40000 x 40000, Fig. 165000 x 5000인데, 왜 각각 square의 숫자를 다르게 설정하였는지 그 이유가 궁금합니다. 이렇게 설정한 특별한 이유가 있을까요?

그리고 식(79)에서는 rescaling factor b로 단위 면적을 a a/brescale 하는데, critical point와는 다른 맥락으로 b0에 가까울 정도로 너무 작아지면 systemordered 정도에 심각한 차이가 생기지 않을까, 그리고 클러스터들이 기존의 클러스터들과 유사하다 할 수 있는가 라는 생각이 듭니다. 만약 그렇다면 a 값에 비례하여 어느 정도까지 rescale 할 수 있을까 라는 고민이 생길 것 같네요.