Quantifying the evolutionary dynamics of language
 
1
  93
2019-11-29 18:31:36

"빅데이터 인문학"이라는 제목으로 번역된 책(원제: Uncharted)의 시발점이 된 Nature 논문이라 할 수 있습니다. 

"빅데이터 인문학"은 구글과 학계의 협업으로 google Ngram 서비스를 선보이게 된 다양한 이야기가 담겨있구요.
   
9
Comments
1
2019-12-04 15:43:56

이 글은 잘 사용되지 않는 영어 동사의 변화 규칙이 더 빠르게 잊혀져서 결국은 regularized된 형태로 진화함을 계량적인 방법으로 보여주었는데요, 논의의 전개도 간결하고 명확하다는 점도 좋았지만, 논문의 마지막 부분에서 (물론 지금까지의 변화 추이와 비슷하다면) 향후 어떤 단어들(ex. wed)이 regularized될 지 예측까지 해본다는 점이 재미있었어요. 


한 가지 든 생각으로는, 분석 샘플을 AD 800년 경부터 AD 1200, AD 2000년까지 계속해서 관찰되는 동사들로 한정하였는데, 그러한 샘플들에 selection이 있을 수 있다는 생각이 드네요. (이러한 까닭에 조금 더 분석 샘플의 heterogeneity를 줄여주기 위해서, 보다 더 과거로 추척해 들어가서 그러한 단어들이 언제부터, 어느 정도의 빈도로 사용되었는지 확인하는 작업이 동반된다면 더 좋지 않았을까 하는 생각이 들었네요. (물론 이러한 작업이 현실적으로 굉장히 힘들 것 같지만요..) 그리고 같은 맥락에서 결국은 추정하는 것이 특정 시점(가령 middle english time or modern english time)에 regularization이 되었는지 여부인데 사건사분석으로도 같은 분석을 진행해봐도 좋을 것 같았어요.
(사실 상기의 지점에 대하여 제가 추측해보기에는 "This unimodal distribution again demonstrates that irregular verbs are nor an arbitrary subset of all verbs, because a random subset of vervs would follow a power law distribution with a slope of three-fourths"(pp. 2) 라고 말하면서 저자도 나름대로의 defense를 하고 있는 것으로 읽히는데, 사실 이 지점이 잘 이해가 안되어서 하는 질문일 수도 이겠네요)

한편 (우선 자료의 한계상 어쩔 수 없어보이고, 또 두번째로는 다양한 방식을 통해서도 같은 결과가 도출되는 점이 사실이지만), 어휘 사용의 빈도를 측정할 때에 과거(Old english time, Middle english time)이 아니라 현대에서의 사용빈도를 활용하여서 일련의 fitting을 하는게 괜찮나 하는 의문이 남았어요. 
WR
1
2019-12-05 01:41:38

전반적으로 동의하지만,

1. 불규칙 동사의 unimodal한 분포가 전체 동사의 멱함수적 분포를 따르지 않는다는 점은, 규칙동사화가 랜덤이 아닌 저자들의 주장대로 움직인다는 나름의 근거가 될 수 있구요, 이런 주장을 확장해보면 보다 더 과거로 추적해도 같은 분석결과를 얻었을거라는 추론에 나름 타당성을 더해준다고 생각합니다.
2. 중요한 지적인데요, 현대의 사용빈도를 과거까지 가정하는 문제는...... 다른 분석들에서도 해결하지 못하거나 더 심한 문제라고 옹호해볼 수 있겠네요.
1
Updated at 2019-12-04 23:51:45

  예전에 영어 선생님이 "'불규칙동사'는 아주 오래전부터 사용되던 어휘이므로 영어에서 가장 중요하고 핵심적인 단어다"라고 말한 적이 있는데 그 말을 경험적으로 증명해주는 연구같아 즐거웠습니다. 먼저 질문 한 가지는, Figure 1b log-log plot에서 직선이 관측되고 있는데 이것을 Frequency에 따른 regularization rate가 power law를 따른다고 말할 수 있는 건가요? 한편, 저자는 "a random subset of verbs (such as all verbs that contain the letter 'm') would follow Zipf's law, a power law with a slope of -0.75)"(p. 713) 라고 주장하고 있는데 인간이 사용하는 어휘의 빈도분포에서도 power law가 관측된다는 것이 흥미로웠습니다.

  마지막으로 Frequency가 10^-6 ~ 10^-5 인 단어들의 regularization rate가 91%에 달하는데, 이것을 가지고 frequency가 낮을수록 규칙화되는 경향이 높다고 결론내릴 수 있을지 의문이긴 합니다. 불규칙동사가 -ed로 규칙화되는 것은 적당히 어중간하게 쓰이는 단어들이 발화자의 실수에 의해 -ed를 붙여 과거/과거분사로 쓰이면서 규칙화되는 것으로 보입니다. 그렇다면 너무 안 쓰이는 단어는 애초에 발화되지 않으므로 규칙화되지 않고, 그렇게 규칙화되지 않은 단어들은 사람들의 관심에서 멀어져 소멸해 버릴 가능성이 큽니다. 저자들은 Old, Middle, Modern English에서 모두 발견되고 있는 단어들만 선택하였는데 ("we compiled a list of 177 Old English irregular verbs that remain part of the language to this day." (p. 713)) 따라서 규칙화되지 않은 단어가 이미 소멸하여 데이터셋에 없기 때문에 이렇게 높은 regularization rate가 나타났다고도 볼 수도 있습니다. 그렇다면 이 bin에 속하는 wring 이라는 단어는 어떻게 규칙화되지 않고도 살아남았는가라는 의문을 가질 수 있을 것 같아요.
WR
1
2019-12-05 01:51:05

1. 예, 규칙동사화 비율이 powre-law를 따른다고 표현할 수 있지만, 그 그림은 확률분포의 그림이 아니기 때문에 우리가 보통 논의하는 power-law 맥락과는 큰 관련이 없습니다. 오히려 확률분포 그림은 Figure 1a 그림입니다.

2. 1번 답과 관련되는데, figure 1a가 동사 전체의 집단과 달리 power-law를 따르지 않는다는 점에서 불규칙 동사는 랜덤한 패턴을 따르지 않는다는 저자의 주장입니다. 인간 어휘가 power-law 혹은 Zipf's law임은 Newman의 논문에서도 중요한 예이기도 하죠.
3. 10^-6 ~ 10^-5 에 속하는 단어들은 사실상 소멸되는 와중이라고 생각할 수도 있겠죠. 결국 10^-6 ~ 10^-5 에 속하는 단어들은 실제 발생빈도는 작지만, 발생해서 관찰된 한에서 규칙화 비율을 추정하는 것이죠. 저자들의 방법을 확장해보면 규칙화 비율 뿐 아니라 소멸 비율도 비슷하게 예측해볼 수 있을거라고 생각이 들고, 그런 면에서 향후 연구를 촉발할 수 있는 좋은 제안을 해주셨다고 생각합니다.
1
2019-12-05 02:51:26

동사의 사용빈도와 정규화가 log-log scale에서 선형관계를 이루는 것을 보았는데요, 마침 스페인어를 배우고 있던 차라 스페인어의 경우에서 생각해보며 사용빈도만으로 설명하지 못하는 부분을 어떠한 것으로 설명해볼 수 있을지 아이디어가 떠올라 이야기해 봅니다. 일일이 따지면 20가지가 넘는 동사활용이 있고 각 활용에서도 인칭에 따라 6가지(1인칭 단/복수, 2인칭 단/복수, 3인칭 단/복수) 변화가 있는지라 동사활용을 배우며 스트레스를 받았었는데, 영어에서도 sing-sang-sung같이 i/a/u로 변하는 군이나 find/found/found 처럼 과거형과 과거분사 형태가 동일한 군 등으로 나누어 볼 수 있듯이 스페인어에서도 비록 불규칙이지만 불규칙의 규칙이 동일한 군들이 있습니다.


이러한 동사군을 보다 보면, 첫번째로 비슷한 형태로 묶이는 동사들이 불규칙형으로 오래 살아남을 수 있겠다는 생각이 들었습니다. 개별 동사의 사용빈도가 주는 효과와 동시에, 비슷한 형태를 가진 여러 동사들이 같은 규칙으로 불규칙변화를 한다면 그중 한 동사가 사용빈도가 낮다고 해서 쉽사리 규칙형태로 변화하지 않을 수 있을 것 같습니다. 비슷한 방법으로 변화하는 불규칙동사군의 하나가 변화하면 해당군의 다른 동사변화와 혼란이 있을 수 있으니까요.. 예를 들어 단순과거에서 불규칙 변화하는 주요 동사표를 보면 be동사나 알다’, ‘갖다’, ‘원하다’, ‘가다/오다와 같이 상식적으로 자주 쓰이는 동사들이 불규칙으로 살아남은 것을 볼 수 있는데, 그와 함께 producir(생산하다), traducir(번역하다), conducir(운전하다)와 같이 어간이 동일한 동사들도 불규칙 형태를 가지고 있습니다. 이러한 것을 보면 불규칙의 변화규칙을 공유하는 군의 규모 또한 불규칙 정규화에 함께 영향을 줄 수도 있을 것 같습니다.


비슷한 맥락에서 변화규칙을 공유하는 군의 규모가 작은 군에 속한 동사이고, 사용빈도가 그리 높지 않는 동사일지라도 형태가 사용빈도가 높은 동사와 비슷한 동사라면 마찬가지로 정규화가 잘 일어나지 않을 수도 있지 않을까요? 규모가 큰 군에 속하는 것을 클러스터의 규모로 보거나 사용빈도가 높은 동사와의 연결을 허브와의 연결로 보고 이번 논문에서 분석한 것에 네트워크 차원의 분석을 더할 수도 있다는 생각이 듭니다.


1
2019-12-05 03:17:24

앗 마지막에 '허브와의연결'이 아니라 '특정 노드와의 연결' 입니다..

1
Updated at 2019-12-05 03:44:51

언어마다 불규칭동사의 비율이나 수가 다른데 이 원인도 흥미로운 주제라고 생각합니다. 저는 독일어를 배웠었는데 독일어는 불규칙동사를 (사용되는 건)모두 외울 수 있을 정도로 수가 매우 적은데요, 독일어 선생님은 독일사람들이 규칙과 법칙에 민감해서라고 했지만 그렇다면 남미의 스페인어는 불규칙동사가 더 많을까요? 언어를 사용하는 민족의 범죄율과 같은 일탈과 상관관계가 있으면 재밌는 발견이 될 거 같습니다.

또 자주 사용되면 불규칙형태가 유지된다는 가설을 검증하기 위해 수화나 점자를 연구해도 좋을 거 같습니다. 수화를 많이 알지는 못하지만 자주사용하는 동사는 불규칙형태가 유지되어서라기보다는 설계된 느낌으로 short cut이랄까, 간단히 표현할 수 있게 되어있고 사용 비율이 낮은 동사는 잘 모르겠습니다. 수화를 아시는 분이 얘기해 주시면 졸을 거 같아요. 스케일링을 더 밀고 가보자면 동물의 의사소통(돌고래소리, 벌의 춤, 개미의 호르몬같이 실제로 의미를 담고 있다고 알려져있는)이나 컴퓨터언어에서도 뭔가를 발견할 수 있을까요?
1
Updated at 2019-12-05 09:22:52

log(불규칙의 반감기)와 log(단어의 사용 빈도) 간 선형관계가 흥미롭습니다. 저도 흥미로운 멱함수를 찾아보고 싶어졌네요. 근본적인 질문은 어째서 언어의 진화 방향이 불규칙에서 규칙이 늘어나는 방향으로 진행되었는가 하는 점입니다. 아마 다양한 언어 현상 중에는 규칙에서 불규칙이 늘어나는 방향의 변화도 있을 것 같은데, 그 사례로는 어떤 것이 있을까요? (네에서 넵, 넹, 넴, 네 히읗히읗이 발생하듯)

한편 같은 사용빈도를 나타내는 단어들 간에도 반감기의 개인차가 있을텐데, 어떤 방식으로 이를 설명할 수 있을지 궁금합니다. 어쩌면 함께 사용되는 경향이 있는 단어들끼리 연결된 semantic network 상에서 함께 사용되는 경향이 있는 단어들 사이에 정규화가 확산되는 diffusion이 있을까요? 그렇다면 그라노베터의 threshold model로 규칙의 확산 과정을 설명해볼 수는 없을까요? (network alter 중 몇 퍼센트나 정규화가 진행되면 자기 자신도 정규화되는지)

1
2019-12-05 09:54:07

지난번 언젠가 수업시간에 넵! 의 다양한 형태를 보고 다같이 웃었던 기억이 났어요. 변동성이 있는 언어를 모델링한다는 게 쉽지 않을거라 생각만 했었는데, 실제로 분석한 것을 보니 신기했어요.

조금 결이 다른 이야기일 수 있겠지만 그 변화에 영향을 미치는 것이 무엇일지 생각해 보는것도 재밌을 것 같아요. 사라지는 언어들이 왜 사라졌는지, 누가 쓰던 언어인지 등을 고려해 보는 것 등이요. 예를 들어 중요한 어떤 인물이 쓰는 언어가 영향을 미쳐 그와 그의 네트워크를 중심으로 언어 습관이 퍼져나갔다면, 그 사람에게 가중치를 두는 방식으로 어떤 식을 만들어서 다른 언어에서의 규칙성 변동을 예측해 볼 수 있을 것 같아요.