소시오톡
[수리] Bit by Bit Ch.1 (Intro.) & Ch.2 (Observing Behavior)
 
1
  137
Updated at 2019-09-24 03:58:10

Sociological Data Science 교과서 Bit-by-Bit의 첫 두 챕터입니다.

위 링크에 온라인 예비버전이 있습니다. 실제 출판본에 비해 오타도 많지만 읽을만 합니다.
사회학자 중 가장 주목받는 data scientist인 Salganik 교수가 안식년을 바쳐 쓴 교과서인 것 같은데, 매우 훌륭한 책이라고 생각합니다.  
첫 두 챕터는 책 전체에 대한 소개와 Big data의 특성에 대해 정리해주고 있습니다.
   
21
Comments
1
Updated at 2019-09-18 16:15:07

2019312285 CYJ


Bit by bit의 챕터 2는 빅데이터의 특성에 대해 일목요연하게 설명해주고 있다. 이 중 특히 흥미로웠던 고민거리 몇 가지를 던져보고자 한다. 먼저, 첫번째 장점으로 언급되는 데이터의 크기(Big)는 책에서 언급한 것처럼 그 자체로 목적이 되어서는 안될 뿐 아니라, 6번 Non-representative와 연결되어 매우 misleading한 결론을 이끌어낼 수 있다. 특정 집단의 데이터, 예컨대 트위터를 주로 사용하는 (혹은 할 것으로 여겨지는) 20~30대의 데이터가 수억 개 이상 수집된다면 이를 기반으로 한 추론은 넌센스에 가깝다. 한편 데이터의 크기 그 자체가 문제가 되기도 하는데, n수가 증가할수록 표준편차가 감소하여 통계적으로 유의한 결과가 산출될 확률이 높으므로 빅데이터를 기반으로 한 회귀분석 등의 통계적 유의성이 단순 통계적 착시에 불과할 가능성이 있다.
  한편 궁금한 점은 incompleteness에서 언급되는 구성타당성이다. 빅데이터에서 제시된 변수를 기반으로 지능 등의 요인을 포착할 수 있는가는 좋은 토론거리이다. 그런데 나의 구체적인 궁금증은, 알파값이 높은 하위변수 몇 개를 더해 요인을 포착할 때 하위변수 중 몇 개가 NA가 있다면, 이 하위변수를 먼저 impute해야 하는가, 혹은 최종 요인변수를 NA로 놓은 후 impute해야 하는가? 예컨대 아동청소년의 Externalizing behavior problem을 포착하기 위해 4가지 질문을 아동에게 서베이했다고 하자(Ext = V1 + V2 + V3 + V4) 이 4개 질문 중 1개가 NA값이라면, 4개 변수를 합한 최종변수 또한 NA가 된다. 그렇다면 NA였던 V1을 imputed하여 Ext를 구하는 것이 올바른지, 혹은 우선 Ext를 NA로 놓고 이 변수를 impute해야 하는지 논쟁이 될 수 있다 (그리고 늘 궁금했으나 명확한 답을 찾기 어려웠다.)
  마지막으로, Non-representative 부분에서 등장하는 within-sample comparison은 treatment effect를 포착하기에 좋은 방식으로 보인다. 그렇다면 빅데이터는 propensity score matching 등의 semi- /non-parametric 방법을 사용하기에 좋은 데이터셋이라고 볼 수 있을까? ICPSR 등 기존 데이터셋은 Matching 이후에 n수가 너무 적어지는 경우가 있다. 빅데이터의 Big 특성을 이용한다면, 그리고 demographic characteristics가 잘 살아있다면, matching에 아주 효과적으로 사용할 수 있지 않을까?
WR
1
2019-09-18 17:58:49

하나의 서베이 데이터를 놓고 "V1을 imputed하여 Ext를 구하는 것이 올바른지, 혹은 우선 Ext를 NA로 놓고 이 변수를 impute해야 하는지" 정답이 없는게 맞겠죠. 반면 bit by bit에서는 빅데이터를 이용해 V1을 impute하고 서베이 데이터를 분석하길 권장합니다. 즉, 최종분석대상 데이터 밖의 정보를 이용해 impute를 하는게 더 나을 수 있습니다. 


bit by bit에도 ebay의 예를 들어 매칭을 설명하고 있습니다. 그리고 이 매칭이 흔히 서베이 데이터로 하는 propensity score matching보다 훨씬 교과서적이고 이상적이죠. region of common support가 최대가 된다고 볼 수 있습니다.
저는 big data가 매칭에 필요한 정보만 있다면 당연히 더 효과적이라고 생각해요. 
1
2019-09-18 17:50:14
1. 2장의 자연 실험 방법에 따르면, 순응 집단(compliers)이 존재하고 세 개의 추가적인 가정을 할 수 있다면 관찰된 데이터에서도 CACE(순응 집단 내 평균 조치 효과; complier average causal effect)를 추정할 수 있다. 위 가정은 다음과 같다. 
1) 조치에 대한 배정은 무작위라고 가정
2) 단조성(monotonicity) 가정 : 사람들은 그들이 반항 집단(defiers)이 아니라고 가정
3) 배제 제한(exclusion restriction)을 가정 : 격려가 결과에 미치는 직접적인 영향이 없다고 가정
그런데 책에서도 지적하고 있듯, 이 세 각 가정들은 일상생활에서 위반되기 쉬워 보인다. 사람들의 행동은 예측하기 어려울 뿐만 아니라, 우리가 연구를 위해 분류한 변수들은 명백하게 또는 부지불식간에 서로 연관되어 있을 확률이 매우 높다. 책에서 나온 예에 따르면 징집된 사람들이 군복무를 피하기 위해 학교에서 더 많은 시간을 보내고 그것이 더 많은 소득으로 이어지는 경우가 있다. 이 경우 우리는 군복무가 소득에 미치는 영향을 clear하게 예측하기 어렵다.

책에서 추가 읽을거리로 언급했던 것 중, bollen(2012)도 사회학적 연구에서 이러한 문제들이 더 많이 드러나고 문제가 될 수 있음을 지적하지만, 각 오류를 보완하는 수학적 방법들이 있으며 우리가 사회학에서 이 방식이 사용되는 방식에 대해 걱정하는 것보다 이 방식이 거의 쓰이지 않는 것에 대해서 더 걱정해야 한다고 말한다.
더 많은 진단(diagnosis)를 통해 오류들을 보완할 수 있는가? 그렇다면 과연 우리는 추정한 방정식으로 사회를 얼마나 설명할 수 있는가? 사회 현상을 인과적으로 추정해 낼 수 있는가?  

2. 데이터 시스템의 변동성(2.3.7장), 알고리즘에 기반한 교란(2.3.8), 접근 불가능성(2.3.5)는 우리가 어떠한 연구를 하고자 할 때 각각 혹은 중첩되어 큰 편향을 불러일으킬 수 있다. 이러한 오류들에서 벗어나 통찰력을 갖는 방법은 무엇일까? 
나는 페이스북에 약 20명의 친구를 가진 사용자의 수가 지나치게 많다는 결과를 통해 magical social number에 대한 글을 쓸 수 있다. 하지만 내가 페이스북의 철저한 외부자라 페이스북 내부 규칙들에 문외한일 때, 나는 내 연구 결과가 잘못되었는지조차 모를 수 있다. 게다가 사용자들은 계속해서 변동하며, 내 연구결과가 잘못된 것이 아니라 원래 그런 것 처럼 보이게 할 수 있다(수행성과 이행성). 이러한 경우 "원래 틀린 해석"에서 어떻게 깨어날 수 있을까? 
WR
1
2019-09-18 18:05:16

1. 말씀하신 가정들이 지켜지기 어렵기 때문에 자연실험이 어렵습니다. 한편 (적어도 현재는) 자연실험이 그냥 observational data 분석하는 것보다는 인과관계를 보이는데 우월하다고 판단하고 있습니다. 빅데이터가 쌓이면서 자연실험(및 다양한 의사 실험)을 활용한 연구결과들도 더 쌓일거고, 그렇다면 p-value의 유용성을 논하듯이 자연실험의 효과를 논할 수 있는 때가 오지 않을까요? 아직은 그 효과를 논하기는 이른 것 같네요.


2. 일단 지르고 보는 수 밖에. 즉 오류를 통찰로 알고 한 연구라도 일단 세상에 빛을 보면, 다른 연구자들이 검증하다가 오류를 발견하겠죠. 그렇게 오류의 예로 '인용'되는게 아무도 인용 안 하는 것보다 백배 낫죠    
1
2019-09-18 18:48:43
개인적으로는 레디메이드(ex. 기업의 디지털 기록이나 정부의 행정자료 등) 자료의 용도변경을 통해 
커스텀메이드(ex. 설문조사 자료) 자료의 활용성을 증진시킬 수 있다는 지점, 나아가 레디메이드 자료를 용도변경을 할 때에는 그것이 발견된 데이터인 동시에 누군가의 목적에 의해서 고도로 '설계된 데이터'일 수 있음을 상기해야 한다는 지점이 흥미로웠습니다.  

저도 현재 노동패널을 주자료 삼아 연구를 진행하고 있는데, 연구의 필요에 의해서 '직종 수준에서 요구하는 직무 능력'을 통제해야하지만 노동패널조사로만은 불가능하여 다른 행정자료('직종별 직업사전' 2018 - 한국고용정보원)을 활용하여 해당 변수를 조작화하고자 하고 있습니다. 그런데 문제는 직종별 직업사전에서 조사한 직무능력은 육체 능력이나 인지 능력 등 상당히 전형적으로 '남성적인' 직무능력만 잘 측정되어 있고 소위 '여성적 직무능력'인 돌봄능력 등은 애초부터 간과되어 그것에 대한 측정 자체가 이루어지지 않았다는 문제가 있었습니다. 

앞서 흥미롭다고 말한 소위 '발견된 데이터'인 경우에도 데이터 수집 과정에서 모종의 사회문화적 편향이 반영되었을 수 있다는 지점의 예시가 뭐가 있을까 생각해보다가, 제가 현재 마주하고 있는 사례가 떠올라서 적어봅니다.

아무튼 결국 이렇게 애당초 젠더화(gendered) 되어 수집되어 있다는 한계를 극복하기 위해서는 다른 서베이든 빅데이터든 결합을 해서 어떻게든 돌봄능력과 같은 '여성적' 직무능력을 포착할 수 있어야 할텐데 이러한 문제를 어떻게 해결할  있을지는 여전히 난감하네요..!

WR
1
2019-09-18 22:14:39

심리학에서 competence와 warmth가 반대로 인식된다는 연구결과가 있는데, 이 때문에 여성의 직무능력(competence)이 평가절하된다고도 하더군요. 

직업사전에 직종별로 나타난 warmth와 competence 해당단어를 조사해보는 건 어떨까 싶네요. '돌봄'보다는 warmth가 더 포착하기 쉽지는 않을까 생각해봤어요.
1
2019-09-18 19:43:49

2.3.2. ‘Always-on’이라는 빅데이터의 특성은 연구자가 사후적으로 특정 현상과 관련된 개인의 행동 태도에 대한 데이터를 수집할 있게 해준다는 점에서 상당히 매력적이라고 느꼈습니다. 페이스북이나 트위터 같은 소셜 미디어를 이용하면서 개인들이 남긴 흔적, 소위 digital trace 특정 사건을 기준으로 사후적 데이터 수집 과정을 거쳐 분석하는 연구들이 대표적인 예라고 생각합니다


하지만 같은 데이터들은 해당 데이터를 보관하고 있는 플랫폼의 영향을 많이 받을 있다는 점이 문제인듯 합니다. 수집할 있는 데이터의 포멧 종류도, 해당 데이터를 보관하고 있는 플랫폼의 영향을 받겠지만, 수집 이용 가능성 자체도 상당부분 서비스를 제공하는 기업에 종속된 면이 있다고 느꼈습니다. 가령 페이스북이나 트위터의 경우에도 합법적인 방법으로 데이터를 수집하기 위해서는 (원칙적으로는) 해당 기업에서 제공하는 API 이용해야 하는 것으로 알고 있습니다. 페이스북의 경우 근래 들어 이용자들의 개인정보 유출과 관련된 문제가 생긴 이후로는 사실상 데이터 수집이 과거에 비해 많이 어려운 것으로 알고 있습니다. 프라이버시 문제가 같은 온라인상의 기록 관리에 미치는 영향이 커져감에 따라 API 이용한 데이터 수집과 같은 방법도 앞으로 얼마 동안이나 가능할지 의문입니다


결국 기업과의 협업도 같은 데이터를 연구에 이용할 좋은 방법일 듯합니다. 하지만 기업이 연구자와의 협업을 통해 사회과학의 이론 문제를 풀기 위해 이용자들의 데이터를 내어주는데 어떤 동인을 지니고 있을지 생각해볼 필요도 있어 보입니다. 요컨대, ‘Always-on’이라는 빅데이터의 특성은 무척이나 매력적이지만 프라이버시나 해당 데이터를 보관하고 있는 기업의 입장과 같은 문제를 함께 고려할 , 향후 연구자들이 그러한 데이터들을 얼마나 능동적으로 이용할 있을지 생각해볼 필요가 있다고 생각했습니다.

WR
1
2019-09-18 22:17:06

그래서 저자도 데이터 소유기업과의 협업이 쉬운 일은 아니라고 합니다. 

그래도 이러한 IT 기업들은 대학에 있는 능력있는 연구자가 주요 스카웃 대상이기에 협업을 할 동인은 있습니다. 물론 미국에 좀 더 해당되는 얘기지만.
1
2019-09-18 19:44:55
Living and producing science in such a fastly-changing environment is overwhelming and challenging, as well exciting and thrilling at the same time. I was amazed by the countless number of opportunities to mix traditional research methods with technologically advanced methods of data gathering, analysis. I think that it will definetely widen our understanding of life and give new ideas for research. Well, as author wisely pointed out, no research method is without flaws, and scientists should thoroughly think through ethical issues, issues of information security (in terms of research methodology, and in terms of how actually information could be misused by governements as in China case) and other technical issues, that could be similiar in nature with traditional research problems, or absolutely new one.
However, I have some concerns regarding education in social sciences. While definetely there is no way that everybody have to apply newest technology in reaserch or make research using big data, I concerned that education in social science is still conservative and less adaptive to new realities.  I do not question whether theory or practice is more important. Rather I question how social science education could be changed if it should be changed at all? 
Many people elaborate about inequality in information distribution and how the situation is changing (getting better or worse) due to expanding of technologies. I wonder about inequality of research opportunity among scientists. Earlier big survey projects and were more accessible for people who were able to get bigger grants, therefore they had more opportunity to conduct better research, while there were those who were from poorer country (or country where government do not value social sciences (e.g. USSR) or were less advantage to get money. With the technology development and more opportunity to get data quicker and cheaper, I wonder if the overall research quality increase and inequality gap between researchers would decrease? 
WR
1
2019-09-18 22:24:36

What you are concerned is already happening, I think. Bigger companies and elite researchers (computer scientists particularly) who have better skills and access to bigger companies are highly outperforming others. 

On the other hand, coding tools are, at least theoretically, democratized: completely open in developers' online communities. It will be interesting to see where the eventual course will head. 
1
2019-09-18 20:15:38

Big Data가 존재하는 현대 시대에서 그것을 활용하지 않는 것은 오히려 연구의 질을 높일 수 있는 시대적 기회를 져버리는 것과 마찬가지라고 생각한다. 오히려 Big Data가 양질의 연구를 만들어 내는 조력자로서, 기존의 전통적인 방법론과 함께 융화된다면 연구의 폭을 넓힐 것이라는 저자의 생각에 전적으로 동의한다. 책에서 소개하는 기술적인 방법이나 통계적인 방법을 완벽히 이해하지 못했지만 저자가 독자에게 전하고 싶은 Big Data의 존재가 연구의 영역에 어떻게 조화되어야 할지에 대한 진지한 생각을 할 수 있었다.

다만 2장의 Data first Approach에 대해서는 기본적으로 동의하지 않는다. 연구자가 애초에 modeling research design에 부합하는 Data를 통해 유의미한 결과값을 도출하는 것이 학문적인 발전에 있어서도 도움이 되지 않을까라고 생각한다. 만약 자신이 설계한 모형의 Data가 유의미하게 support되지 않는다고 자산의 연구 모델을 Data에 맞게 바꾸는 것은 기존의 Research Question이 갖는 첨예한 문제의식을 곧바로 저버리는 행위일 것이라고 생각한다. 오히려 유의미하게 나오지 않은 것을 왜 유의미하게 나오지 않았는지 Data에서 분석하지 않고, 자신이 설계한 모델 안에서 다른 가능성을 유추하고 스스로가 새로 모델을 짜보던지 future research로 남겨두는 것이 학자가 가져야 할 소양이 아닐까 싶다.

Matching이라는 기법에 대한 이해가 부족했다. 이것이 연구자 스스로가 기준을 세워 그것에 부합하는 Data들만 crawling (, 기준에 부합하는 data matching)하여 그 set 안에서만 연구를 진행하는 것인지 아니면 연구자가 세운 기준에 모인 data들을 서로 다른 기준의 data들과 각각 match한다는 것인지 궁금하다.

WR
1
2019-09-18 22:29:47

저는 상대적으로 data first approach에 우호적입니다. 다만 그런 접근을 하는 경우, 데이터에 적합한 연구주제를 찾아내기보다는 데이터를 자꾸 더 수집하는 쪽으로 진행할 위험이 높다는 점은 경계해야 한다고 생각합니다. 

저자가 소개한 매칭은 실험집단과 통제집단을 매칭한다는 뜻인데, 구체적인 방법은 다양합니다. propensity score matching은 그 중 하나구요.
1
Updated at 2019-09-18 21:27:45

3주 차 코멘트


  • 개인적으로 이번 리딩에서는 질문이나 토의 거리보다는 깨달음, 단상 같은 것이 더 많이 남은 것 같습니다. 논문이 아닌 일종의 개론서, 교과서 같은 글이어서 그런지도 모르겠습니다.

  • 전반적으로 가장 인상 깊었던 것은 Salganik교수가 '사회(과)학자'로서의 정체성이 뚜렷이 드러난다는 점입니다. (사회학 박사이니...)당연한 것이겠지만 '데이터 사이언스'식 사회(과)학을 어떻게 하는지가 아니라, 디지털 사회로의 변화 속에서 사회연구(social research)를 어떻게 (해야)하는지라는 질문이 본질적인 고민이라는 점을 느꼈습니다. 그래서 3장까지 읽으면서 빅데이터, 데이터 사이언스 쪽과 접합되는 부분을 새로 배우는 것도 있지만, 기존의 사회과학연구방법, 그 가치와 한계가 일목요연하게 정리되는 점도 좋았습니다.

  • 서장과 ch. 1 introduction
    • 특히 "The trick to staying relevant in the face of this rapid change is abstraction" (preface)라는 구절이 기억에 남았습니다. 사회학을 하면서 계속해서 바뀌는 프로그래밍 언어, 통계 방법론 등등을 배워야 한다고 생각하면 데이터사이언티스트들, 엔지니어들을 따라가며 허덕이는 것은 아닌가 하는, 무력함? 같은 것도 있었는데 이를 거꾸로 '사회학'에서 훈련하는 구체적인 사회 현상들을 추상화해서 이해하는 방법으로 해결할 수 있다는 답도 되었습니다. 

    • ch. 2, observing behavior
    • 빅데이터의 주요 특징들이 정리되면서, 최근까지도 '빅데이터'로 이러저러한 연구를 해보고 싶은데... 쉽지 않겠다고 느꼈던 것들이 왜 그런 것인지 이해할 수 있는 계기가 되었습니다. 
    • 예컨대 최근 흥미롭게 생각하고 있는 아이디어 하나는 한국에서 (학계가 아닌) 일반 담론에서 '페미니즘' 부여하는 "의미"가 어떻게 변화했는지에 대한 궁금증입니다. 트위터 데이터로 2015 메갈리아 2016 강남역 살인사건 등의 계기 이후 등장한 소위 '영영 페미'로 불리는 페미니즘이 그 이전의 '페미'와 다른지, 어떻게 다른지 등을 볼 수 있을 것이라고 생각했습니다.그런데 이 일종의 '이론적 구성물'(페미니즘의 의미, 가치)을 트위터 데이터로 본다는 것이 과연 얼마나 '타당성' 있는지 확신할 수 없었는데, 그 이유 중 하나가 리딩에서 제시된 'drifting' 변동성인 것 같습니다. 트위터야말로,'이용자'의 인구적 특성이 크게 변동한 미디어 플랫폼인데(이용자 수의 감소, 이용자의 인구적 특성의 편향?), 누가 말하는지를 특정할 수 없는 상황에서 의미변화가 진짜 일반담론에서의 의미 변화인지, 이용자 편향으로 발생한 왜곡효과인지를 알기 쉽지 않겠다는 생각이 들었습니다. 등등의 이유로 간략하게나마 장기간에 걸친 변화를 트위터와 같은 빅데이터로 보는 것의 위험성이 무엇인지, 왜 그러한지 이해할 수 있었습니다.
    • 또한 빅데이터와 관련된 사회학 '썰'풀기가 어렵게 느껴지는 점, 즉 '현상기술적인(descriptive)' 것으로 느껴지는 설명보다 더 나아가는게 쉽지 않은 이유도 빅데이터의 특성 중 하나에서 기인한다고 생각이 들었습니다. 예측으로 이어질 때, 기술적인 분석의 난이도가 높아지면서 일종의 벽이 있기 때문이라기 보다는 지금까지 사회학에서 설문조사 + 통계적 분석을 통해 익숙해졌던 주장, 이론틀들은 "표본 외부, 모집단으로 일반화"하는 것이었는데, (아무리 데이터의 규모가 크더라도) 특히 기업에서 생성된 빅데이터들은 알고리즘에 의한 교란이나, 시스템 변동 등의 특성상 근본적으로 분석결과를 일반화할 수 없다는 점이 이유인 게 아닌가라는 생각도 들었습니다. 즉, 이런 '빅데이터'를 분석할 때는 물어야 하는 질문자체가 다른 것일까요?


    WR
    1
    2019-09-18 22:38:17

    abstraction의 중요성은 저도 동의합니다. 사실 빅데이터를 다루는 기법은 워낙 빨리 변해서(예를 들어 데이터 크롤링하던 사람들도 AI는 생각보다 잘 몰라요) 협업을 통해 해결하는게 궁극적으로는 아마 더 현명할 겁니다. 하지만 급변하는 기법을 수행하는 협업자와 소통은 할 수 있어야겠죠.

    수십명으로 실험실 실험하는 연구자에게 대표성이나 외적 타당도를 비판하는 것은 사실 좀 공평하지 못하죠. 수십만, 수천만건을 다루는 빅데이터 연구자에게 이런 비판을 하는 것도 사실 좀 공평하지 못하죠. 흥미롭게도 빅데이터 분석이 던지기에 적합한 질문은 소규모 실험과 비슷합니다 (+ 이질성 탐구). 
    그런데 알고리듬 교란이나 시스템 변동을 걱정해서 연구를 주저할 필요는 없다고 생각합니다. 일단 시작하면 누군가 그 한계를 밝혀주면 되니까요.
    1
    2019-09-18 21:37:10

    Bit by Bit 교재를 1, 2장을 통해 빅데이터의 10가지 특징과 연구전략을 흥미롭게 읽을 수 있었습니다. 


    먼저 빅데이터의 특징 관련하여 제가 관심을 가지고 있는 치안분야로 한정하여 생각해본다면,

    패널데이터에 대한 연구 등 상시접근에 대한 부분에 있어서는 상황적 인식(situational awareness)과 관련하여 사건 이전, 도중, 이후에 대한 다양한 범죄 데이터의 실시간 분석을 통해 주요 범죄사건 발생시 다양한 상황적 정보 수집을 통해 범죄의 해결과 더불어 현장 출동 경찰관에 대한 위협요소를 제거하고 인근 주민들의 안전확보 효과를 높일 수 있다는 생각이 들었습니다. 예를 들면 우범지역의 마약범죄 신고출동시 대상 혐의자의 최근 범죄이력, 범죄 장소 주변 유사범죄 및 우범자 및 공범 정보 이력 등에 대한 분석을 통해 사전 위험요소를 도출하여 효과적인 경력운용, 출동경찰관과 지역주민의 안전 확보를 위한 사전조치가 가능할 것으로 생각됩니다.  

    빅데이터의 불완전성과 관련하여서는 최근에 경찰청에서 3년간 진행한 범죄예방 프로그램 R&D와 관련하여 텍스트마이닝 등 빅데이터 분석 엔진이 이미 개발되어 있다 하더라도 데이터의 본질적 한계로 인해서 범죄예측 알고리즘을 개발할 수 있는 범죄유형(예, 보이스피싱, 성폭력, 마약 등 수법범죄)과 그렇지 않은 범죄유형을 구분했더라면 실현가능 모델에 연구인프라를 투자할 수 있지 않았겠나 하는 아쉬움이 들었습니다. 

    빅데이터의 접근 불가능성과 관련하여서는 범죄데이터는 대부분 민감한 개인정보이다 보니 범죄수사 목적이 아닌 범죄 예방목적의 빅데이터 분석을 위한 데이터베이스화가 목적외 활용이라는 측면에서 법적, 윤리적 장벽을 넘어서기 어렵겠다는 회의적인 생각도 들었습니다.

    우리 헌법은 국가가 개인정보자기결정권이나 개인의 프라이버시권 등 헌법상 기본권을 침해하는 행위를 하는 때에는 반드시 법률에 그 근거를 두도록 적법절차 원칙을 천명하고 있습니다. 그러나 현행법은 오로지 정보취득의 정당화와 관련된 규정만 있을 뿐 취득된 후 정보의 대규모조직적 보관, 데이터베이스화라고 하는 현대적 문제에 대해서는 특별한 언급이 없습니다. 과거의 법제에서는 정보를 수집하거나 정보의 원천이 되는 유체물을 취득하기 위한 과정에서 대상자의 권리·자유를 침해하는 것이 아니라면 정보를 취득하여 그 후에 정보를 보관, 가공, 활용하는 데에는 법적인 문제가 없었지만 오늘날에는 특정 개인과 관계되는 정보가 보유됨으로써 그러한 개인의 권리이익이 침해되는 사태가 발생할 수 있다는 점을 염두에 두고, 그러한 정보를 보유하기 위해 취득하는 행위, 보관하는 행위, 이용, 제공하는 행위 자체가 개인의 정당한 이익에 대한 침해행위가 될 수 있다고 하여, 법적으로 규율 되어야 하는 대상으로 자리매김하고 있습니다.

    두번째 장 빅데이터 연구전략편에서는 미래를 예측하기보다는 예측에서 나온 아이디어를 바탕으로 현 상태를 측정하기 위한 시도, 즉 현재 상황을 예측한다는 현재예측 모델이 범죄통계 분석을 통한 시기별, 장소별 범죄대응에 보다 효과적으로 활용할 수 있겠다는 생각을 해보았습니다.

    예를 들면 여름철에 침입강절도가 많이 발생하므로 해당 시기에 이를 예방하기 위한 경찰활동에 집중한다던지, 지역별로 중국인 밀집지역에 폭력사건이 많이 발생하니 이를 예방하기 위한 맞춤형 치안활동을 전개하는 것이 바로 여기서 이야기 하는 현재예측과 관련된 부분이 아닌가 싶습니다.

    WR
    1
    2019-09-18 22:43:30

    학기 후반 WMD를 읽으면 범죄예방에 관한 비판적 시각도 다룰 예정입니다. 

    bit by bit에서 지적하는 변동성(drift) 문제건, WMD가 지적하는 문제건, 의도하지 않은 피해가 발생하지 않도록 실제 예측력을 높이는 문제가 범죄예측에서 가장 중요할 것 같습니다. 
    책에서 소개된 것처럼 출소자를 더 잘 이해할 수 있는 창의적 연구방법도 고려할만한 것 같습니다.
    1
    2019-09-18 23:49:15

     빅데이터의 원천은 크게 정부와 기업으로 나눌 수 있다. 빅데이터 프로젝트에 참여하며 살펴본 바로는, 정부가 제공하는 공공데이터는 접근 불가능성은 크지 않지만 지저분함이 심했다. 또한 공식적인 연구자의 지위를 가지고 있지 않은 입장에서 기업이 보유한 데이터에 접근할 수 있는 가능성은 매우 낮았다. 기업이 데이터를 쉽게 공개하지 않는 까닭 중 하나는 데이터가 해당 기업, 혹은 그것이 제공하는 서비스의 부정적인 측면을 보여줄 수 있기 때문이다.


     공유형 전동킥보드 개인형이동수단(PM: Personal Mobility)의 사고 데이터가 주어진다면, 사고위치/도로형태/기상/운전자의 특성/시간대 등 다양한 특성을 이용해 사고에 영향을 미치는 요인을 볼 수 있을 것이다. 하지만 ‘도로의 무법자’와 같은 타이틀의 기사로 전동킥보드가 다루어지고 있는 상황에서 기업이 사고데이터를 쉽게 내어주기는 어렵다. 하지만 교통수단은 안전, 도시계획에 관련한 문제인데다 국가의 공공시설물인 도로나 도보를 이용하는 사업이기 때문에 공유킥보드가 먼저 시작된 나라에서는 기업이 정부에 데이터를 제공해야한다는 주장이 점차 힘을 얻고 있다. 이런점에서 연구자는 사회과학과 데이터 사이언스를 보완재로 보는 접근을 취하는 것 뿐만 아니라 어떠한 데이터가 누구의 손에 있어야하는지 주장할 근거를 마련해야 한다.


     지역의 범죄율과 같은 특성과 집값의 관계를 본 뉴스기사가 심심찮게 보인다. 위치기반의 더 많은 데이터가 개방된다면 원하는 기준, 규모(작은 그리드 단위에서 행정구역 단위까지) 대로 전국의 지역을 모두 서열화 할 수 있을 것이다. 이것이 공공연한 정보가 된다면  지역의 빈부가 강화되는 경향이 더욱 강해질 수 있지 않을까? 데이터를 이용한 연구 뿐만 아니라 연구분야(지역, 교통)에 데이터가 가져올 변화도 연구주제로 삼아보고 싶다.


    1
    2019-09-19 00:04:59

    우리가 사회로부터 얻을 수 있는 data로 사람들의 행위를 포착하는 것이 그동안 사회과학자들이 해온 일이다. Data를 얻는 경로가 달라졌고 이로 인한 data의 특성이 기존의 그것과 차이를 두기 때문에 빅데이터의 특성은 사회과학 연구에 맞게 개념화, 재정의되어야 하는데 저자가 이 지점에서 중요한 역할을 했다고 본다.
     
    그동안 빅데이터는 흔히 3V(크기, 다양성, 속도)로 알려진 것과 달리 저자가 내세우는 빅데이터의 특성 10가지는 사회과학 연구에 긍정적인 혹은 부정적인 속성으로 구분된다. 단순히 빅데이터를 활용하는 아이디어에 사회학적 배경지식(Background)를 쓰는 것-내가 대학원에 오기 전에 접한 빅데이터 연구 대부분이 이랬다-이 아닌, 디지털 시대를 반영한 사회과학 연구에서 어떻게 제대로 데이터 과학을 정립할 수 있을지에 대한 가이드가 담겨있다. 일찍이 빅데이터에 대한 관심 때문에 경영정보학 등에서 빅데이터를 접했으나 관심과 접근 자체가 다르기 때문에 (그만큼 빅데이터를 활용하려는 분야가 다양하다) 어려움이 많았다. 이처럼 빅데이터 연구 자체는 여러 연구자들에 의해 그 해석이 복합적이며 저자는 이 복합성이야 말로 데이터 과학 연구가 사회연구의 미래가 될 수 있다고 한다(Introduction).
     
    사회과학 연구에서 빅데이터의 본질은 단순 데이터의 규모(big)이 아닌, 레디메이드 데이터와 커스텀메이드 데이터를 포괄하는, 전통적 설문조사 연구와 데이터 과학을 결합함으로써 새로 생겨나는 통찰이다. 또한 빅데이터 연구에서 Research Design이 중요한 이유는 3장에도 나오듯, 빅데이터 연구는 행동 데이터만을 통해서는 얻기 어려운 부분들이 존재한다. 사회적 결과와 예측에서 매우 중요한 부분은 감정, 지식, 기대, 의견들과 같은 내면 상태인데, 내면 상태는 사람들의 머리 속에 존재하며 때때로 질문(Asking)하는 것이 내면을 파악하는데 가장 효과적인 방법이다. 저자에 따르면, Research Design이란 질문과 대답을 연결하는 것이다. 질문에 강점이 있는 서베이 데이터와 대답에 강점이 있는 빅데이터의 결합이 곧 저자가 강조하는 연구의 방향이 아닐까 생각된다. (관련하여 3장 댓글에 더욱 자세히 쓰겠다)
     
    그동안 개인적 연구 관심으로 주의 깊게 살펴본 수행성은 저자가 말하는 빅데이터의 특성 중  Algorithmically confounded, Drifting과 관련이 있었다. 첫번째로 Algorithmically confounded와 관련하여, 저자는 빅데이터를 연구하는 환경이 특정 행동을 유도하도록 설계된 고도의 공학적 환경이라는 점을 강조한다. 알고리즘의 교란이 수행성을 지닐 경우 데이터의 교란 요소는 감지하기 매우 어렵다. 수행성(performativity)은 간단히 말해 이론이 현실에 미치는 영향을 설명하는 개념이다. 행위자들은 이론의 타당성을 믿고 그에 따라 행위함으로써 현실은 이론이 기대하는 효과를 만들어낼 수 있다. 현실은 이론이 기대하는 효과를 만들어낸다(Espeland and Sauder, 2007). 우리가 data를 얻어오는 플랫폼 혹은 검색 엔진은 설계자의 목적으로 인해 데이터에 일정 패턴이 발생하게 될 수 있으며, 설계자에 의해 이론 자체가 시스템 작동 방식에 개입할 수 있다.

     두번째는 Drifting 중 시스템 사용 방식(behavioral drift)과 관련된다. 특히 알고리즘에 의해 구성되는 소셜미디어 혹은 검색 엔진은 철저하게 사용자 반응 결과(: 게시물 조회 수) 피드백을 바탕으로 설계된다. 사용자가 시스템을 사용하는 방식, 특히 의도적으로 사용자가 방식을 바꾸는 경우 이를 피드백으로 받아들인 알고리즘으로 구성된 디지털 환경에 나타난 data를 어떻게 해석할지는 또 다른 교란의 양상이라 생각된다.

    1
    Updated at 2019-09-19 00:36:27

    Forcasting and nowcasting 파트는 빅데이터가, 측정하기 어려운 것을 측정하는데 어떻게 활용될 수 있는지 이야기합니다. 떠올랐던 것이, 게이다 (Gaydar) 사례입니다.


    두 대학원생이 빅데이터와 딥러닝을 통해 사람들의 성적 지향을 예측하는 '게이다' 머신을 만들어 논란이 된 적이 있습니다. 그들의 딥러닝 알고리즘은 81%/74%의 정확도로 특정 사진에 나온 인물의 성적 지향 (동성애자, 이성애자 등)을 예측합니다. 사진 다섯장이 있으면 예측 정확도가 91%/83%로 올라갑니다. Deep neural net을 사용하여 예측하고 있기 때문에, 사진의 어떤 특성이 성적 지향을 예측하는 것인지는 모릅니다 (cf.  | https://medium.com/… )물론 이 예측머신이 드러내는 건, 얼굴과 성적 지향 간의 본질적 관계가 아니라 얼굴과 성적 지향의 관계에 대한 "편견"이라는 논란이 있습니다. 딥러닝과 여러 머신러닝 알고리즘은 예측을 위한 방법이 블랙박스 안에 있는데, 빅데이터를 통한 "편견 학습"을 어떻게 피할 수 있을까요.

    사실 이 보다 더 궁금한 점은, 주어진 factor들로 측정하기 어려운 변수들을 예측하는 nowcasting 기술을 amplified asking에 활용할 때 생길 수 있는 문제입니다. 이에 대해서 Ch.3에 적었습니다.
    1
    Updated at 2019-09-19 01:33:19

    Bit by Bit 2장의 내용 중에서 자연실험(natural experiment)[2.4.3 ]의 내용이 흥미롭게 다가온다. 일반적으로 실험은 통제 상황에서 이루어지는데, 자연 실험에서의 이 통제하지 못하는 것(무작위 또는 무작위처럼 보이는 것)은 자연실험에서 source로써 always-on data (상시 접근 데이터)와 결합하여 인과관계를 보여준다.

     

    하지만 자연실험에서도 big data를 이용한 연구에서 나타나는 비대표성(2.3.6 )의 어려움이 존재하는 것 같다. 만약 대표성을 쉽게 획득할 수 있다면 추정된 인과관계를 통해 수 많은 이론들이 만들어졌겠지만, 안타깝게도 always-on data는 공간에 따라 발견되는 데이터가 다르다고 생각된다. Alexander Mas & Enrico Moretti(2009)가 이용한 슈퍼마켓의 계산대 데이터는 서울의 어느 한 슈퍼마켓 계산대의 데이터와 다를 수 있을 것 같고, 어떤 무작위적 현상에 대해서 트위터와 인스타그램에서 발견되는 데이터는 다를 것 같다. 이는 대표성 확보를 어렵게 만들지만, 데이터와 실험에서의 인과관계 속에서 일치되는 패턴들을 찾아 패턴이식(transportability)을 통해 일반화하는 것이 big data를 연구하는 하나의 재미가 되지 않을까 싶다.

    1
    2019-09-26 09:44:55

    저에게 흥미로웠던 디지털 실험의 사례는 Nicholas Christakis가 2017년 네이쳐에 발표한 봇 실험입니다 ( | https://www.ncbi.nlm.nih.gov/… ).

    간단한 human coordination 실험입니다. 온라인 참가자들에게 힘을 합쳐 주어진 문제를 빠르게 풀어야하는 미션을 줍니다. 문제를 풀기 위해선 모든 참가자가 rational한 선택을 해야하는데, 계속해서 Random한 선택만 하는 noisy bot을 참가자 중에 넣었을 때 문제해결 속도가 빨라지는지, 느려지는지를 실험한 논문입니다. 실험 결과 noisy bot이 존재할 경우 문제 해결이 더 빨랐습니다. Noisy bot이 문제해결에 방해가 될 수도 있었지만, 오히려 문제 해결 과정에서의 교착 상태를 해소하는데 도움을 주었기 때문이었습니다.

    이처럼 특정 시나리오에 따라 행동하는 봇을 사용하여, 인간 행동의 이해를 넓힐 수 있다는 점이 디지털 실험의 장점 중 하나라고 생각해왔습니다. 이번 챕터를 읽고보니, 타당도가 큰 문제가 될 수 있겠다는 생각이 듭니다. 아직은 기술적 문제로 아주 한정된 맥락에서만 bot을 이용할 수 있기에, 단순화된 문제에서의 실험 결과로 더 일반적인 함의를 끌어낼 수 밖에 없는데, 그 단순화된 문제가 연구하고자 했던 현실의 문제를 얼마나 반영할 수 있는지가 생각해볼 문제일 것 같습니다.