소시오톡
[수리] Bit by Bit Ch. 4 (Experiment)
 
1
  101
Updated at 2019-09-24 03:59:11

Bit by Bit에서 가장 긴 장이고, 아마 가장 중요한 장이기도 합니다. 

Data science가 왜 data mining과 다른지 잘 보여주는 장이기 때문입니다.
   
33
Comments
1
2019-09-24 17:04:42

4장 실험하기 편을 읽고...

 

교수님이 말씀하신 데이터 마이닝과 데이터 사이언스의 차이를 말해주는 부분이 무엇일까 고민해보았습니다.

 

네이버에 두 단어의 뜻을 검색해 보았습니다.

데이터 마이닝이란, “많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 말한다.”(두산백과)라고 정의하고 있고,

데이터 사이언스란, “데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다.”(위키백과)라고 정의하고 있습니다.

 

위 두 개념이 좀 비슷하게 정의되어 있긴 하지만 데이터 사이언스는 데이터 마이닝을 포섭하는 광범위한 개념이면서도 여러 가지 측면을 고려한 종합적인 관념이라는 생각이 들었습니다.

 

데이터 마이닝이 데이터를 추출하고 분석하는 기술적인 부분에 치중하고 있다면, 데이터 사이언스는 단순한 실험을 넘어서서 타당도를 증명하고 실험효과의 이질성까지 고려하면서 왜 그리고 어떻게 그것이 일어났는지 기제를 식별해야 하는 의무가 부과(?)되어 있다는 느낌이 들었구요

 

아울러 이를 실현하는 방법론에 있어서도 기존 환경을 활용하거나, 본인의 실험을 구축하거나, 직접 제품을 생산해내거나 힘있는 조직과 제휴하는 여러 가지 측면을 고려하여 가장 합리적인 방법을 선택해야 합니다.

 

한편 효율성과 함께 윤리적인 측면도 함께 고려해야 하는데, 디지털 실험의 장점을 십분 활용하여 가변비용이 거의 들어가지 않는 실험을 진행하면서도 윤리적 의무를 다하기 위한 대체, 정제, 축소라는 일종의 윤리적 필터링을 거쳐야만 크라머와 동료들이 수행한 감정전염연구와 같이 윤리적 논쟁으로 인해 연구성과가 평가절하 되는 일이 없을 것이라는 생각이 들었습니다. 특히 축소 부분과 관련하여 실험을 수행함에 있어서도 적합성, 최소침해의 원칙, 법익균형의 원칙으로 구성되는 과잉금지원칙을 준수해야 한다는 부분은 국민의 기본권과 관련된 헌법적 원리를 준수해야 하는 것이 비단 국가 등 공공기관만의 의무는 아니라는 사실을 확인할 수 있었습니다.

 

읽다가 잘 이해가 되지 않았던 부분은 타당도와 관련하여 디지털 실험에서는 연구자가 회사나 정부와 제휴해서 조치를 가하고 상시 접근 데이터 시스템을 이용해 결과를 측정하기 때문에 실험과 이론적 구성물 사이의 일치가 느슨할 수 있다는 부분이 잘 와 닿지가 않았습니다.

인상 깊었던 부분은 빅데이터로 작업할 때 대부분의 작업이 데이터를 얻은 이후에 이루어지지만 실험은 데이터 수집 전에 사전분석 계획을 구체적으로 수립해야 한다는 점과, 하나의 실험만으로 완벽할 수 없으므로 서로를 강화해 줄 일련의 실험들을 설계해야 한다는 일반적 조언 부분이었습니다. 또한 가변비용을 줄이기 위해 건강정보를 제공하는 웹사이트, 운동 프로그램, 무료음악, 재미있는 게임, 영화추천 등 지루하지 않고 사람들이 참여하길 원하는 실험을 고안해야 한다는 부분도 흥미로운 부분이었습니다.

1
1
2019-09-25 17:41:04
안녕하세욤 
구성적 타당도와 관련해서 저도 곧 바로 감이 오지 않았었는데요, 아마도 연구자와 협업 파트너 간의 괴리에서 오는 문제라는 생각이 드네요. 예를 들어 지난 시간 강정한 선생님의 '호모필리'에 관한 연구 사례가 떠올랐는데, 같이 협업한 스타트업에서 개인정보의 문제나, 기업 비밀의 문제 등으로 연구 이론에 직결되는 데이터로 접근하지는 못하는 경우이든지, 또 기업이나 정부에서 가지고 있는 빅데이터 자체가 내가 보고 싶은 연구질문과 직결되지 않을 수 있는 경우에는, 할 수 없이 꿩 대신 닭의 느낌(?)으로 그나마 연구의 취지에 맞게 접근 가능한 데이터로부터 조작화를 해서 일종의 proxy를 만들어야 하는데, 바로 이러한 지점에서 모종의 '느슨함'이 생기지 않나 생각이 들어서 글 남겨봅니다 (별 이상한 말을 나열한 것 같아서 죄송 8_8) 

 
WR
1
1
2019-09-25 22:34:59

잘 설명해 주셨네요. 아무래도 제휴한 회사 눈치가 보이니 정확히 측정 못하고 대리변수(proxy)를 써야 할 가능성이 높죠.

1
1
Updated at 2019-09-25 17:48:50

말씀하신 타당도 부분은 이렇게 이해하면 되지 않을까요?
아날로그 실험에서는 연구자들이 각 실험에 필요한 데이터를 얻을 수 있도록 각 실험 및 조치를 설계하고 결과를 측정합니다. 하지만 디지털 실험에서는 연구자 스스로가 그 연구의 목적에 맞게 데이터를 수집하는 것이 아니라, 회사나 정부와 제휴해서 일종의 '원래 수집되고 있던 데이터'를 이용해 조치를 취하고 결과를 얻습니다. 즉, 아날로그 실험에 비해 데이터와 구성물(construct)을 자유롭게 커스터마이징하지 못하죠. 이 차이를 말하고 있는 것 같습니다!

(새로고침 하니까 위 댓글도 보이네요! 좋은 예시인 것 같습니당!! )

1
2019-09-25 21:39:17

저는 구성적 타당성을 사회조사방법론의 조작정 정의랑 측정 문제랑 비슷하다고 생각했어요

WR
1
1
2019-09-25 22:37:11

데이터 사이언스는 "설명"을 추구한다는 점에서 데이터 마이닝과 다릅니다. 

물론 실험을 통한 설명은 "인과성"을 보장하는 데는 좋지만 메커니즘을 보여 "왜"에 대답하는데는 약합니다. 한편 저자는 디지털 실험은 "왜"에 대답하는 데 기존 실험보다 유리함을 주장하구요.
1
2019-09-25 09:52:32

휠씬 큰 통제력(공변량의 완벽한 통제)은 정말 신뢰할 수 있는 결과를 가져올까?

디지털 실험은 본문에서 나열한 바대로 정말 많은 장점을 가지고 있다. 규모에 있어서 비교가 안되고 상시 접근 측정 시스템은 긴 시간 변화를 측정하여 과정적 기제를 탐색하는데 최적의 실험 조건을 만들어 준다. 특히, 관찰 연구에서 결과 해석상 제한적 요인으로 작용하는 변수들간의 공변량도 완벽하게 통제 가능한 것으로 보인다. 또한 반복 실험이 가능하여 결과를 입증하는데 최적의 환경이라고 생각한다. 그렇지만, 여기서 실제 실험 사례로 제시된 “the spread of behavior in an online social network experiment (Centola,2018)” 는 다른 네트워크 간의 상호작용을 완벽하게 통제한 결과(An important assumption of this study is that the effects of network topology will not be overwhelmed by individuals' exposure to other social factors)로 실제 현실에서 일어날 것 같은, 혹은 실제 현실에서 일어나는 현실적인 현상까지도 통제해 버려 반대의 결론을 가져 올 우려가 있다. 또한 실험 효과의 이질성을 관찰하고 더 나은 실험 설계로 유도하여 새로운 사실의 발견하는 기회를 애초에 차단할 수도 있다고 생각한다. 물론 이 논문의 결과를 의심하는 것은 아니지만, 여기에서 가정한 “random network” (the idea case for this lack of redundancy is a random network, in which, in expectation for a large population, each of a individual’s ties reaches out to different neighborhoods)은 지금까지의 weak tie와 매우 다르게 정의 되었다고 생각한다. 연구 목적에 따라 디지털 실험에서 통제가 필요한 혼란 변수와 실험 목적에 필요한 연관변수들을 구별하여 설계하는 것은 매우 어려운 작업으로 보인다.

WR
1
2019-09-25 22:40:17

"현실적인 현상까지도 통제해 버려 반대의 결론을 가져 올 우려가 있다"는 부분은 실험의 장점이라고도 알려진 관심 원인 변수의 분리(isolation)의 문제이기도 합니다. 특정원인의 분리는 인과관계 규명에는 좋지만, 그 변수만 분리되어 영향을 미치는 경우는 현실에 드문 경우들은 얼마든지 있으니까요.

1
Updated at 2019-09-25 17:19:42

randomization이 잘 되지 않았다면 아무리 완벽히 설계되고 수행된 실험이라 하더라도 일반화하기 어려울 수 있다. 올코트(Allcot, 2015)의 연구 결과를 예로 들 수 있다. 그에 따르면 실험 시행 시기가 늦을수록 실험 효과가 줄어들었는데, 이는 시간이 지남에 따라 실험 조치가 적용된 참여자의 유형이 달라졌기 때문이었다. 온라인 실험에서는 참가자가 계속해서 모수를 대표할 수 있게끔 랜덤으로 잘 표집되었다는 것을 어떻게 확인할 수 있을까?
random sampling 문제를 차치하고, 두 번째 걸림돌이 있다. 실험 참가자가 누구인지 추적이 가능하다 하더라도, 그들과 관련된 인구통계학적 데이터가 없으면 어떤 변수에서 차이가 비롯된 것인지 찾아내기 어렵다. 코스타와 칸(Costa and Kahn, 2013)은 기존 데이터에 새로운 데이터(오파워의 데이터와 제 3의 업체로부터 구매한 데이터)를 결합해서, 가정 에너지 보고서가 정치 이념에 따라 어떤 효과를 내는지 찾아낼 수 있었다. 이들의 경우 기존 데이터와 새 데이터를 id에 따라 결합할 수 있었기 때문에 좋은 성과가 나왔을 것이다. 하지만 실험 데이터 혹은 새로운 데이터 둘 중 하나라도 id를 식별할 수 없다면 데이터를 잘 결합하고 질문을 확장할 수 있을까? 어떤 데이터를 어떻게 결합해야 하는 것일까?

1
2019-09-25 21:45:55

id 식별은 두 데이터 셋 간의 병합에서도 문제가 되지만 앞으로는 아예 데이터들이 식별이 되지 않게 유통될 것 같아서 더 어려워질 것 같습니다. 데이터 공개가 식별가능성 떄문에 많은 경우에 기각되는데, 컴퓨터과학과 이원석 교수는 완전 비식별성이 가능하다고 주장하면서 두 데이터 셋 간 인스터스를 특정할 수 있는지 챌린지 웹페이지를 만들었습니다. 완전 식별을 할 수 없게 하는 게 가능하다면 데이터 공개가 가능해질 수도 있는데 이는 기업 내부에서 내부 데이터를 다루지 않는 이상, 혹은 직접 데이터를 수집하지 않는 이상 데이터셋 간의 병합이 더 어려워질 전망을 나타내는 것 같습니다.

WR
1
2019-09-25 22:45:46

흥미롭네요. 수업시간에 좀 더 소개 부탁해요.

WR
1
2019-09-25 22:45:21

실험에서 조치의 분배는 randomize해야 하지만, 보통 참가자의 표집은 랜덤하지 않기에, 말씀하신 Allcot(2015)의 문제가 들어납니다. 실제로 Amazon mechanical turk에서 표집된 실험들이 얼마나 대표성있는지 자체가 중요한 연구분야입니다. 썰에 의하면 대학교 교양수업에서 표집하는 대상자보다는 대표성있다고도 하네요  

1
2019-09-25 18:17:53

사실 디지털 실험에 대한 개론을 읽으면서 가슴이 뛰기도 하지만, 다른 한편으로는 그러한 떨림이 곧 바로 식어버리기도 하는데, 아마 소개된 연구들이 대체로 다른 기업이나 정부기관과의 파트너쉽을 바탕으로 연구를 진행했기 때문이다. 그래서 개인적으로 가장 인상적인 지점은 자신의 실험을 기존의 환경과 접목시키는 일종의 '우회'전략을 소개하는 지점이었다. 그런데 대체로 연구의 좋은 사례로 제시된 것들은 모두 '현실이든 온라인이라는 실험실'에서 측정 단위가 개인에게 모종의 처치를 한 후에 그에 따른 반응을 확인할 수 있는 구조라고 생각된다. 그렇다면 혹시 '디저털 시험'이라는 세팅에서는 분석단위를 가령 기업과 같이 개인과는 다르거나 큰 수준으로도 삼은 연구가 있는지 궁금하다.  

WR
1
2019-09-25 22:48:55

저자가 본인의 학위논문 실험을 소개하고 있는데, 이 실험은 700명이라는 집단을 분석단위로 하고 있습니다. 조직을 단위로 한 경우는 모르겠네요.... 

아, Centola의 연구(건강정보 온라인 커뮤니키)도 분석단위가 특정 네트워크 소통구조를 갖는 한 커뮤니티가 되겠네요.
1
2019-09-25 19:25:46

디지털 실험은 설계나 분석 단계에서 참여자의 배경 정보를 사용할 수 있다. 아날로그 실험에서는 참여자에 대해 거의 아는 바가 없기 때문에 평균 효과에 집중하게 되지만, 디지털 실험에서는 조치 전 정보(pre-treatment information)라는 이러한 배경 정보를 상대적으로 많이 갖고 있기에, 우리는 참여자 개개인에 집중해볼 수 있다.

그렇지만 어떤 아날로그 실험은 조치 전에 이미 실험을 위해 정보를 얻는 경우도 있는 것 같다. 본문에서 예시로 나온 아날로그 현장 실험인 Schulz et al.(2007)의 사회 규범과 에너지 소비 간의 관계에서도 treatment(조치; 문고리 메모) 이전에 취득한 계량기 정보가 있었다. 하지만 이들은 조치 전과 후의 정보를 얻기 위해 무려 300개의 가구를 8주에 걸쳐 다섯 번이나 방문하였다.

그런데 만약 계량기 값의 데이터를 상시 접근(Always-on) 할 수 있었다면, 더 긴 기간의 조치 전 정보와 조치 후의 정보를 보다 손쉽게 얻을 수 있었을 것이라는 생각이 든다. 그리고 이것이 디지털 실험 방식의 큰 이점 중의 하나라고 생각한다. 하지만 상시 접근을 통해 조치 전후의 더 긴 기간 동안의 정보를 얻는다고 해서 뚜렷하게 높은 내적 타당도(internal validity)를 기대할 수 있을까 라는 의문이 든다. 그리고 실제로 본문에 의하면 슐츠와 동료들이 조치 전에 두 번씩 읽은 계량기 정보도 역시 높은 내적 타당도를 갖는다고 하였다.

이어서 본문에서는 Costa and Kahn(2013)은 에너지 데이터와 다른 데이터를 결합하는 실험을 소개하는데, 이 경우에 에너지 데이터가 상시 접근 데이터라면 용도 변경(repurposing)에 더 용이하고 결합이 더 수월한 데이터가 아닐까 라는 생각이 든다. 만약 그렇게 상시 접근 데이터가 적절하게 사용된다면 상시 접근이라는 특성이 이질성 감소에 기여할 수 있다고 생각해 볼 수도 있을 것 같다.

1
2019-09-25 21:49:42

저는 내적 타당도가 그냥 실험 절차를 잘 수행하면 얻을 수 있는 것으로 생각했는데 상시접근과 내적 타당도의 관계를 좀 더 구체적으로 설명해주실 수 있나요?

1
Updated at 2019-09-26 08:50:22

말씀하신 것처럼 내적 타당도는 실험의 절차들이 제대로 수행되었는지에 중점을 둡니다. 하지만 저는 조치 전 정보 처리(혹은 표본 수집) 역시도 배경 정보로서 실험에서의 조치를 어떻게 할지에 영향을 주기 때문에, 조치 전 정보 처리 역시도 실험 절차의 일부가 될 수 있겠다 라는 생각을 해보았고, 그렇다면 상시적 접근 데이터를 이용한다면 슐츠 실험의 조치 전 후에 수집 된 정보보다 long-term의 정보를 쉽게 얻을 수 있을텐데(8주간 5번보다는 많이), 이것이 항상 높은 (내적) 타당도를 보장할 수 있는가? 라는 의문을 적어보았습니다.

WR
1
2019-10-07 11:46:34

표준적인 타당도 논의에서 face validiity라는게 있는데, 즉각적 타당도? 뭐라고 번역해야 하나...이게 실험에서 내적 타당도와 비슷하지 않나 싶어요. 사실 구분하기 어렵죠. 

WR
1
2019-09-25 22:56:12

그림 4.11을 보면, 물사용량 절약에 미치는 영향력이 연도가 갈수록 줄어드는 걸 볼 수 있습니다. 모든 연구에 그렇지는 않지만, 장기간 효과를 보고 싶다면 더 긴 기간동안 정보를 얻는게 더 타당할 겁니다.

1
2019-09-25 20:25:45

실험을 통한 이론의 검증이 아직까지는 익숙하지가 않지만, 디지털 시대라는 시대적 환경이 기존의 실험의 한계를 뛰어 넘을 가능성을 제시해준다는 점에 있어서는 분명하게 동의할 수 있었다. 특히 기존의 방식과는 극적으로 다른 비용구조를 갖기 때문에 보다 많은 사람들(피실험자들)에게 보다 많은 내용을 보다 짧은 시간에 해낼 수 있다는 점이 인간이 스스로 모든 것을 통제하고 진행하던 기존의 실험과는 차이를 갖는 점이라고 생각된다. 앞서 2,3장에서 다루었듯이 인간이 근본적인 전처리 작업만 잘 디자인한다면 그 이후 과정은 컴퓨터가 알아서 해주는 디지털 시대의 실험은 분명 매력적이고, 연구자들에게는 각광 받을만한 요소이다. 그러나 이러한 장점이 있는 반면 저자가 마지막에 제시하는 수많은 윤리적 우려에서도 벗어나기 힘든 것이 사실 같다. Sample size가 커질수록 추정치의 분산이 작아지기에 디지털 시대의 실험은 맹목적으로 많은 사람들을 target으로 실험을 진행하는 유혹에 약할 수 밖에 없다. 그러한 점에서 저자가 지목한 3R 과 같은 윤리적 억제 요인이 디지털 시대의 실험을 하는 연구자들에게는 필수적일 것이고, 디지털 시대의 실험이 주는 장점을 균형 있게 받아들이는 것이 중요할 것이다.

최근 수업 중 두 가지 논문을 접했다. 한 논문은 연구자가 직접 실험을 설계하고 진행한 classic한 방법의 실험이었고, 다른 하나는 실험과 같이 treatment 받은 집단과 안받은 집단이 나뉘는 setting에서 연구를 진행한 quasi-experimental research였다. 이러한 quasi-experimental research가 진행되는 디지털 시대의 setting을 찾는 것도 저자가 말한 자연실험(natural experiment)의 일종이기에 상대적으로 윤리적인 책임으로부터 자유로울 수 있지 않을까라고 생각한다. 한 가지 예로, WOW 라는 게임에서 어떠한 바이러스가 생겨 캐릭터끼리 접촉만 해도 바이러스가 전염되는 경우가 있었다. 마치 중세시대의 흑사병과 같이 순식간에 온라인 공간으로 퍼져 나갔고, 게임 유저들은 자신의 캐릭터가 죽어가는 과정에서 익명의 사람들과 여러 유형의 커뮤니케이션 반응을 보였다. 어떤 유저는 이기적으로, 어떤 유저는 이타적으로 행동했다. 물론 게임 회사에서 일부러 바이러스를 퍼뜨린 것은 아니지만, 이러한 온라인 상에서의 행동과 반응들은 실제로 연구소재로 아주 흥미로울 것 같았다. 연구자들이 자신의 실험 내에서 통제력을 높이기 위해 직접 관여하는 것도 중요하겠지만, 자연스럽게 갖추어진 setting을 찾아 그 속에서 결과변수에 영향을 준 독립변수와 기재를 확인하는 것 또한 디지털 시대의 실험이 줄 수 있는 큰 장점 중 하나라 생각한다.

1
2019-09-25 21:53:32

저도 디지털 연구에서 아날로그 연구에 비해서 자연실험이 더 용이해졌다는 것에 동의합니다. 그러나 저는 사회과학의 가장 큰 약점이 실험이 불가능하다(어렵고 비싸다)는 것이었는데 디지털 실험을 통해서 이런 약점이 보완되는 것 같아서 저는 윤리적인 부분을 보완해서라도 더 실험이 많아졌으면 좋겠습니다.

WR
1
2019-09-25 23:05:57

언급하신 WOW연구는 흥미롭네요. 수업에서 좀 더 소개 부탁해요.

 
1
1
Updated at 2019-09-26 10:09:36

wow게임의 "오염된 피"사건으로 알고있습니다.



세컨드라이프 관련

1
2019-09-25 20:28:59

사실 앞선 장들에 제시된 연구들을 보며 들었던 여러 생각중 하나는, "흥미롭고 관심이 가긴 하는데 이런 데이터를 내가 어떻게 구할 수 있을까"라는 생각이었습니다. 하지만 이번 장에서 제시하는 연구들은 (재정적으로 뒷받침만 된다면....) 관심있는 연구문제에 한번 적용해볼 수도 있지 않겠나 하는 생각이 들어서 더 흥미롭게 읽었습니다. 디지털 실험은 연구 참가자를 동원하는데 있어서도 WIERD에 해당하는 표본에 한정되는 데에서 어느 정도 자유로울 수도 있고, 특히 여러 레벨을 지닌 적지 않은 수의 factor들을 한꺼번에 고려한 full factorial design이 가능하다는 점에서 매력있다고 생각했습니다. 비교적 최근에 나온 사회과학 논문들 중에서도 많은 수의 factor를 한꺼번에 투입한 conjoint analysis를 이용해 변수간의 인과관계에 대한 문제에 답을 제시하려는 경우도 많던데, 그런 맥락에서 저도 관심있는 주제에 적용해보고 싶다는 생각입니다. 나아가 연구 참가자에 대한 사전정보를 얻을수도 있다면 이를 이용해 pre-test 상태도 추적할 수 있다는 점도 무척이나 흥미롭습니다. 아무래도 사회과학에서 주로 논의되는 사회 현상에 대한 이론들은 변수 간의 인과관계에 관심을 두는 경우가 많은듯한데, 그러한 맥락에서도 유용한 연구 방법들이라고 생각했습니다. 교수님께서 위에 적어두신 Data science가 왜 data mining과 다른지에 대해서도 저는 이런 맥락에서 이해했습니다.

WR
1
2019-09-25 23:13:22

보통 연구자에 대한 서전정보는 매개관계를 밝히거나 중간 기제를 찾는데는 별 도움이 못 됩니다. 

반면 전체 피험자를 나눠 부분 샘플내에서 분석하는 데는 확실히 잇점이 있을 겁니다.
1
2019-09-25 21:36:04
방학 동안에 데이터 사이언스를 배우면서 강조되었던 내용은 '(비교적) 강력한 설명이나 예측이 하나라도 발견되어야 함'이었습니다. 따라서 풍부한 설명보다는 하나라도 건지려는 좁은 목표를 가질 수 밖에 없었습니다. 이는 데이터 사이언스가 이름만 과학이지 완전 데이터 마케팅에 더 가깝기 때문인 거 같습니다. 살가닉의 실험에 대한 내용들은 저의 과학다운 (정밀하고 타당하고 한편으로 우아하기까지 할 수 있는) 데이터 사이언스가 꼭 1테라가 넘는 데이터를 때려박는다고 되는 게 아니라 그의 말대로 생각을 많이 해야지(설계가 꼼꼼해야지) 가능하다는 것을 일깨워줘서 뭔가 갈증이 해소되는 느낌이었습니다. 여담이지만 현재 빅데이터라고 하는 필드는 너무 돈돈돈, 어떻게 돈을 더 벌까, 더 비싼 걸 팔까만 고민하는 것 같아서 이질감이 들었습니다. 그래서 당시 제 프로젝트로 후보자 얼굴 정보와 실제 선거 결과의 관계였으나, 평가 점수 자체에 상업성이 너무 많은 부분을 담당하고 있어서 결국에는 성능좋은 선거예측 모델을 통한 서비스 개발 쪽으로 발표내용을 맞춰야 했습니다. 심지어 프로젝트 주제를 들은 교수는 듣자마자 저에게 "내년에(총선이 있으니) 떼돈 벌려고 하는구나?"라고 하였습니다.
그러나 제가 하고 싶었던 것은 단순히 선거 결과를 잘 맞추는 게 아니라 어떤 얼굴이 얼만큼 선거에 유리한지, 얼굴 특징 별로 유리한 지정학적 배경에 차이가 있는지, 후보자 얼굴 간 가위바위보 같은 상성이 존재하는 지 등 더 풍부한 연구에 가까웠습니다. 이번 4장을 읽고 이러한 제 연구문제도 디지털 실험으로 가능하지 않을까 생각할 수 있었습니다. 온라인 실험으로 하고 참가 인센티브를 점수화하여 랭킹을 표시해주는 방식으로 가변비용을 낮출 수 있을 것 같습니다. 비슷한 참고 게임으로는 구글 검색량 맞추기 게임이 있습니다. 예컨대 '감자탕'과 '홍대입구'라는 두 키워드를 주고 구글에서 뭐가 더 검색량이 많은지를 맞추고 많이 맞출수록 높은 점수를 얻는 구조입니다. 얼굴-선거결과도 실제 선거의 후보자들(예컨대 1위 2위만, 혹은 3등까지)의 얼굴을 놓고 1> 누가 이겼을 것 같나요? 2> 누가 더 능력 있어 보이나요? 3> 누가 사회성이 더 좋아보이나요? 등의 질문에 대해 참가자가 고르게 할 수 있습니다. (능력은 미국 선거에서 선거 결과와 상관 있다고 밝혀졌고, 한국의 경우에는 능력이 아니라 사회성이 그러한 영향을 준다는 연구가 있습니다. 제 실험은 이러한 연구실 실험의 디지털 버전이러고 볼 수도 있습니다.) 이러한 실험 결과 데이터를 바탕으로 사진 데이터들의 특성들을 추출하여 머신러닝으로 클러스터링을 수행하면 원하는 답을 얻는데에 도움이 될 것 같습니다. 간단히 만들어본 실험 계획이지만 문제점이나 향상 가능성에 대해서 코멘트 해주시면 감사하겠습니다.

이하는 제가 책을 읽으면서 적은 노트입니다.

실험은 인과적 질문 답학에 이상적이다. less confounders, there are infinite # of  confounders, therefore controliing in very difficult
과거에는 비싸고 어려웠지만 이제는(미래에는) 더 싸고 더 쉬우며 새로운 방법을 적용할 수도 있다.
특히 randomized controlled experiences는 그냥 experiments에 비하여 통제집단이 존재하므로 더 좋은 실험이다. 긴밀한 통제에 더블어 현장 실험의 현실성도 갖출 수 있다.

위키실험. 통제집단의 중요성을 보여준다. 그러나 디지텅 실험이 큰 비용이나 거대한 데이터를 구입하지 않아도 가능하다는 것을 보여준 것이 더 인상깊다. 당장 한국에서도 여러 변형으로 반복 가능한 실험모델인 것 같다.

field 실험은 더 자연스럽다. lab은 통제가 용이하지만 참여자가 편향된다(대학교 학생으로)
motherhood penalty관련해서 field와 lab에서 조치의 효과가 같은 원인에 의한 것인지는 정확히 할 수는 없지만 둘은 상보적인 관계다.

디지털 실험이 꼭 온라인 실험인 것은 아니다. 디지털 기기(센서)를 통해 데이터 수집이 가능하다. 이 떄문에 빅데이터를 분석하는 것 만이 아니라 단순히 센서 사업도 돈을 많이 버는 것 같다. 예컨대 구글은 원예에서 사용되는 온습도 조절 어플리케이션을 매우 큰 돈을 주고 인수했다고 한다.
풍부한 실험은 타당성, 조치 결과의 이질성, 기재를 고려하여 설계하고 평가할 수 있다.
풍부하다는 것은 - 누구에게 조치의 결과가 얼마나 다른가? 더 효과적인 조치가 있는가? 사회 이론과의 연관성이 있는가? 등의 질문에 답이 가능한가와 연결된다.
디지털 실험은 처치 전 정보를 가지고 있으므로해서 혼합 실험이 더 용이하다.

통계적 결론 타당도: 통계쩍인 분석이 올바르게 이루어졌는가?
내적 타당도: 실험 절차가 제대로 수행되었는가?
구성 타당도: 데이터와 이론적 구성물 간의 일치여부 - 이 문제는 사회조사 방법론의 유명한 문제인 조작정 정의과 타당한 측정의 문제와 같다. 이 문제는 디지털 실험에서 유념해야 한다.
외적 타당도: 일반화가 가능한가?

효과가 모두에게 동등하지 않다.
이는 이도훈 교수님 수업(생애과정론)에서 다룬 Age-Cohort-Period 문제랑 직접적인 연관이 있다. 이도훈 교수님이 많은 사회과학 연구가 하나의 독립변수와 하나의 종속변수만을 다루는 것일 지적하셨고 실제 교수님 연구들은 매우 정교하게 이질성을 감지하는데에 초점이 맞춰져 있다고 느꼈다.

메커니즘은 더 큰 데이터가 있고 여러 조치들을 검정 가능할 때 발견할 가능성이 높아진다. 메커니즘이야말로 "무엇이 왜 어떻게"를 답해주는 것으로서 많은 연구들에서 다음 연구자가 하길 바란다고 남기는 부분이다. 이 부분이 더욱 촘촘해질수록 훨씬 멋있는 연구가 된다.

비용, 통제, 실제성, 윤리성은 절충되어야한다.
가장 포기가 쉬운 것은 윤리다. 윤리가 타협되는 부분은 연구 결과를 발표할 수 없는 임계치인 것 같다.
게다가 기업들은 윤리 상관 없이 더 자유로운 연구를 할 것 같다. 내가 틴터 직원이라면 정말 재밌는 연구들을 할 수 있을 것 같다. 왜냐면 거기에는 사진과 텍스트와 네트워크가 모두 있기 떄문이다.

실험을 통해 데이터를 모으는 경우에는 특히 데이터 수집 전에 많이 생각해야 한다. 이는 아마 연구의 완성도만 높여주는 것이 아니라 전처리나 해석에 있어서도 엄청 도움을 많이 주기 떄문일 것이다.
하나의 큰 실험이 좋은 게 아니라 보완적인 여러 실험이 더 낫다.

윤리적 관적에서 이제는 데이터가 너무 크지 않은지를 고민해야 할 수도 있다. 그런데 진짜 이걸 고려하는 사람은 거의 없을 것 같다.

WR
1
2019-09-25 23:23:28

실험 설계에 대한 코멘트는 수업시간에 받으면 더 풍부할 것 같네요. 

일단, 전혀 모르는 외국 선거 후보들 사진을 보여주면서 실험하는 것도 괜찮을 것 같아요.. 국내 선거는 사전지식이 개입할 수 있으니. 
혹은.... 실제 인물사진을 가공시키는 앱 있나요? 그걸 거쳐서 실제 후보를 못 알아보게 한 후 피험자에게 보여주는 것도 좋을 듯.
1
2019-09-25 23:10:50
Data mining(특히 Text mining)Data science가 어떤 차이가 있는지에 대해 항상 모호한 태도를 가져온 저로써는 Data scienceBIT BY BIT에서는 어떻게 특징지으며 정의할까 기대 반 궁금증 반으로 읽고 있습니다. (답은 실험에 있겠죠)
 Data mining
중 우리가 지주 접하는 Text mining의 경우 연구 자료로 활용되는 자연어 data의 특징은 앞서 우리가 읽은 2장에서 Big Data의 특성을 그대로 따릅니다. 특히 자연어 자료는 1)조사자의 프레임과 응답자의 회고에 덜 오염되는(non-reactive) 경향을 가지며-자발적으로, 실시간으로 작성되는 자료인 경우- 2)규모(Big)-특히 text의 경우 디지털 시대에 수집 방법이 굉장히 다양-을 합니다. 따라서 언어 자료에 존재하는 특이한 구조 혹은 패턴을 잡아내기 위해 unsupervised learning methods를 유용하게 쓰며(e.g., semantic metwork, topic model, vector space embedding medel) 주로 1) 등장 단어의 종류와 빈도를 추출하거나 2) 등장 단어들 사이의 관계 네트워크(동시 출현, 순서, 위치 등)를 보는 연구가 많다고 생각합니다.
 
여기까지 봤을 때, “과학이라는 용어를 붙일 수 있을지가 항상 의문이었습니다. 이에 저자는 개수를 세거나 상관 관계를 보는 것을 넘어 인과 관계에 대한 질문에 타당성, 신뢰성을 갖추고 대답하는 것이 실험을 통해 가능하다고 답합니다. 인과적 질문에 답하는 방법으로는 기존 데이터에서 패턴을 찾는 것이나, 교란요인의 문제로 인해 집단 간 관찰 가능한 차이를 교정하여 집단 간 비교를 공정하게 해야 하고, 그 방법이 바로 실험입니다. 특히 무작위 통제 실험(randomized controlled experiment)를 강조하고 교란 요인이 아닌 실험 조작에서 두 집단 간 결과의 차이를 보여주는 역할을 하는 통제집단에 대해 집중합니다.
 
구성타당도에 대해서는 앞서 2장에서 Big data의 특성 중 불완전성을 이야기할 때 언급된 바가 있습니다. 애초에 연구를 목적으로 생성된 data가 아니기 때문에 1)인구학적 정보 2)다른 플랫폼에서의 행동을 알기가 어렵습니다. 데이터와 이론적 구성물이 결합될 때 생기는 문제는 실제로 수집하거나 속성추론 또는 귀책, 레코드 연계(record linkage)를 통해 어느정도 해결할 수 있다고 했었는데, 연구자가 회사나 정부와 제휴해서 조치를 가하고 상시 접근 데이터 시스템을 이용해 결과를 측정하기 때문에 실험과 이론적 구성물 사이의 일치가 느슨할 수 있다고 새로 언급한 점은 디지털 시대 연구의 또 다른 어려운 걱정거리를 숨기고 있었다는 생각이 듭니다. 상시 접근성(Always-on)은 실시간 정보를 보기엔 좋지만 오랜 시간 동안의 변화 추적에는 적합하지 않기도 하고 변동성(Drift)와도 연관이 있어보입니다. 그 중 정부나 혹은 기업에 의해 시스템 자체에 변화가 생긴다거나 혹은 연구의 결과가 사용자의 변화 혹은 시스템을 사용하는 방식의 변화를 가져올 가능성이 있다면 연구자는 이론적 구성물을 구상하기 쉽지 않을 것입니다.

WR
1
2019-10-04 15:13:18

지적하신 우려들 때문에 디지털 자료로 객관적 학문을 하기 어려운 면이 확실히 있다고 생각합니다.

한편 학자가 "창의적"이 되어야 하는 영역이 이론에서 자료로 확장되어야 하는 시대가 되었다고 볼 수도 있을 것 같네요. 그렇지 않다면 디지털 자료가 가져다 주는 잠재력을 그냥 지나치게 될테니까요. 
1
Updated at 2019-09-26 00:48:54
2019312285 CYJ
Bit by Bit은 fancy한 방법론을 본인 스스로 판단할 수 있게 해주는 기준을 제공한다는 점에서 항상 흥미롭다. 이번 글은 먼저 타당성의 관점에서 흥미로웠다. 대표성이 없는 데이터로 어떻게 external validity를 확보할 수 있는가에 관한 문제는 '일단 한번' 실험의 플롯이 만들어지면 여러 번에 걸쳐 각기 다른 참여자를 모집할 수 있다는 점에서 해결 가능한 것이 된다. Successes for cultural products를 연구한 Salganik의 논문에서 참여자가 주로 10대였다는 것이 문제라면, 단지 음악의 종류와 홍보 매체를 바꾸는 것만으로도 새로운 사회인구학적 배경을 가진 이들을 모집할 수 있는 것이다. 여기서 우리가 주목해야 할 개념은 Generalizability보다는 수많은 replication을 통한 transferability일 것이다.
  사실 이러한 방식의 데이터 수집, 실험, 연구는 기존의 ready-made 데이터셋을 통한한 연구보다 더 realism을 제공할 수 있으리라고 생각한다. FFCWS, Add Health 등 각 분야에서 대표적인 거대하고 양질의 데이터셋이 존재한다. 하지만 이 데이터셋이 아무리 다양한 변수를 제공한다 하더라도, 이 샘플만을 가지고 수천 개의 연구가 쏟아진다면 이들이 정말 인간에 대한 이해를 증대시킨다고 말할 수 있을까? 간혹 이 연구들이 그저 '이 샘플'에 대한 연구일 뿐은 아닌지 의심스럽다. 이마저도 그러한데 몇십 년이 넘은 데이터셋은 더욱 그러할 것이다. 반면 '방금 수집한' 빅데이터를 통한 Randomized Controlled 실험은 더욱 현재의, 살아 있는 지식을 제공할 수 있다.
  그러나 구성타당성의 측면에서, 글에 제시된 두 연구--Falk and Heckman 2009와 Adam Kramer, Jamie Guillroy, and Jeffrey Hancock 2014--는 다소 의심스럽다. 전자의 경우 allocator를 정치인에, lottery를 정치인과 관계없는 good, bad news에 대입하는데, 내가 보기에 이 연구는 투표자의 정치적 판단에 관한 연구라기보다 그저 하나의 행동심리학(?) 연구같다는 느낌을 준다. allocator를 바꾸는 행위가 정말 다른 후보자에게 투표하는 행위를 포착한다고 말할 수 있는가? 후자의 연구 또한 (본문에 등장하듯) 페이스북 게시글의 positive, negative emotional words가 게시자의 감정상태를 포착한다고 말하기 어려울 수도 있다. 이러한 상황에서 3 R's까지 고려한다면, 연구자는 본인이 원하는 treatment를 정확히 정의하기 위해 3 R's와 멀어지거나, 3 R's와 최대한 가까워지면서 보다 느슨하게 treatment를 정의해야 하는 상황에 처할 수 있겠다.
  마지막으로, 빅데이터를 통한 randomized controlled experiment도 당연히 만능은 아니다. 결국 연구자의 연구설계와 이론적 틀, 해석이 중요한데, 이는 Falk, Armin, and James J. Heckman. 2009 에서도 잘 드러나는 것 같다. 기본적으로 위키피디아에서 100명에게 상을 주고 다른 100명에게 상을 안 준 것은 SUTVA를 위반할 여지가 커 보인다. 또한 여기서 포착한 treatment effect는 ATT라기보다 ATC라는 생각이 든다. 이를 바탕으로 treatment 그룹의 활동량이 60% 더 많았다고 결론내리는 것은 다소 misleading하지 않을까?
WR
1
2019-10-04 15:19:41

한 서베이 자료로 수많은 연구를 하는 것과 한 가설에 대해 여러 실험을 재현하는 것의 대조가 흥미롭네요.

그 외에 구체적인 코멘트들도 흥미로운데, SUTVA, ATT, ATC 등의 용어와 코멘트에 대해서 더 구체적으로 논의할 기회가 있으면 좋겠습니다.
1
Updated at 2019-09-26 06:22:06

 실험실 실험은 통제력이 강하고, 현장실험은 현실성이 강하다는 장점이 있다. 그리고 저자가 소개한 디지털 현장실험은 이 두 장점을 모두 가져갈 수 있는 방안이다. 실험실 실험을 하는 심리학교양과목 같은 것을 제외하면 전공수업에서 실험방법을 사용한 연구를 거의 다루지 않았기에 (지식정보사회에서 다루었던 4챕터의 음악 차트 실험을 제외하면), 특히 이번 챕터를 읽으며 이 책을 교과서로 하는 수업이 있다면 좋겠다는 생각을 여러 번 했다.

 소개된 4개의 타당도중 구성 타당도는 데이터와 이론적 구성물 사이의 일치여부라 하였는데, 알고자 하는 개념을 어떠한 데이터로 대변할지 잘 정의하였는지를 의미한다고 이해하였다. 다른 기관과의 제휴를 통해 디지털 실험을 수행할 시 이미 세팅 된 환경에서 데이터를 수집해야 하거나 연구자가 원하는 방법을 100% 적용하여 데이터를 수집할 수 없기 때문에 구성타당도의 문제가 발생할 수 있어 주의해야 한다. 이 대목에서 구성타당도는 위의 문제 때문에도 위협을 받지만 빅데이터 분야에서 흔히 말하는 도메인 지식또한 구성타당도에 큰 영향을 준다는 점이 떠올랐다.

 사실 도메인 지식이 중요하다는 생각은 개인적인 바람이기도 하다. 방학에 참여했던 빅데이터 과정에서 친환경 에너지를 사용한 전기자동차 충전소 배치방안이라는 프로젝트를 진행했던 팀이 있었다. 프로젝트의 주요 내용은 다음과 같다.

1.     전기자동차가 친환경 자동차로 보이지만 사실상 충전소의 전기는 발전소에서 오는 것이므로 그 의의가 퇴색된다.

2.     전기자동차 충전소를 친환경발전과 연계할 필요가 있다.

3.     옥상에 태양광패널을 설치하기 좋은 곳과 충전수요를 복합적으로 고려하여 충전소를 배치하여, 근처에서 태양광발전 된 전기를 제공하는 전기차 충전소를 만들자

 해당 팀은 전기자동차관련 데이터, 건물의 높이나 옥상면적, 일조량 등의 데이터를 활용하여 충전소의 최적 위치를 제안하였다. 빅데이터 쪽에서는 잔뼈가 굵지만 도시관련 전공자는 없는 팀에서 진행한 프로젝트였기에, 도시를 전공으로 대학원에 진학하고 취업할 생각을 하는 사람 입장에서 위기의식을 느꼈다. 도시나 교통에 대한 도메인 지식을 더 쌓은 뒤, 저 프로젝트를 다시 들여다보고 문제점과 개선점을 짚을 수 있게 되기를 바란다.

 ‘실험효과의 이질성부분에서는 자전거 교통사고 데이터를 분석했던 것이 떠올랐다. 교통사고 기록은 이미 발생한 자연실험의 데이터이다. 운전자가 어떤 법규를 위반하였는지, 주행하던 도로의 특성, 교통수단의 종류, 날씨와 노면상태는 어떠했는지 등이 일종의 실험조치라면 얼마나 심각한 사고가 발생했는지가 조치에 따른 결과이다. 나는 사고데이터와 사고가 일어난 공간의 데이터를 결합해 사고의 심각도를 더욱 잘 예측하는 모델을 만들고자 하였다. (가령 신호등이 있는 경우에 사고의 심각도가 달라진다거나..)

 자전거 교통사고는 서울 전체에서 감소 추세였고, 구별로 보았을 때도 모든 구가 감소 추세를 따랐으며 적어도 동단위로 보았을 때 추세를 따르지 않는 동들이 있었다. 따라서 공간의 데이터 또한 최소한 동단위로는 세분화가 되었어야 했다. 예를 들면 동별 전체도로대비 자전거도로길이의 비와 같은 것 말이다. 이상적으로는 사고지점을 기준으로 한 작은 크기의 그리드 단위로 공간데이터를 모았어야 했다. , 결과가 어떤 단위에서 이질성을 보이는지는 발견하였지만 해당 단위에서 이루어진 조치의 차이를 알지 못했던 것이 더 이상 분석을 진행할 수 없는 이유였다.


WR
1
2019-10-04 15:31:10

말씀하신대로 '도메인 지식'은 매우 중요합니다. 데이터 과학이 협업이 많고 중요한 이유기도 하죠. 데이터 전문가가 그 데이터가 속한 도메인에 대한 지식이 항상 높을수는 없으니까요.

자전거 교통사고의 예를 '자연실험'으로 간주하기 위해서는 고려해야 할 점이 많을 것 같네요. 그래도 '동'단위에서 분석이 가능하다면 매칭을 이용해 실험효과를 볼 수도 있을 것 같네요.