소시오톡
[수리] Bit by Bit Ch.3 (Asking Questions)
 
1
  127
Updated at 2019-09-24 03:58:44
18
Comments
1
2019-09-18 18:11:26

책에서도 질문 방식의 효과를 지적하듯이, 질문에 따라 응답자의 답이 바뀔 수 있다. 실제로 면접원을 했던 경험에 따르면 면접원이 어떻게 질문을 하느냐에 따라서 응답자의 질문이 바뀔 수도 있을 것이라 느꼈다. 질문자의 뉘앙스나 질문에 대한 설명을 위한 예시라던지 등에서 오는 차이는 면접원 교육을 통해 통제 시도를 한다 하더라도 여전히 남아있을 수 있다.


우리는 데이터를 어떻게 신뢰할 수 있을까?

1. 데이터의 규모가 커지면서, 적은 규모의 데이터일 때보다 그 오차들 또한 증폭될 수 있다. 이러한 데이터를 통해 기계학습을 한다면 2장에서 지적한 알고리즘에 기반한 교란을 야기할 수 있지 않을까? 

2. 다른 데이터를 합할 때, 각 데이터에서 위와 같이 질문 방식의 효과가 나타난다 하더라도 우리는 그를 식별할 수 없을 수도 있다. 설문에 기반한 데이터들을 증폭 혹은 확장할 때 생길 수 있는 오류를 어떻게 알아볼 수 있을까? 또한 그를 어떻게 보완할 수 있을까?
WR
1
2019-09-18 22:48:11
질문 방식의 효과, 면접원 효과 등에 대응하기 위해 끊임없이 서베이 실험, 응답자를 다시 접촉해 면접원에 대해 질문하기 등이 이루어지고 있습니다. 완벽한 데이터는 없으니 향상시키려 할 뿐이죠.

1번 문제는 학기 후반에 더 다룰 기회가 있을 겁니다. 

2번 문제는 현재 매우 중요한 문제일 겁니다. 일반적으로 synthetic data가 구성되면, 지적한 것처럼 각 자료가 갖던 문제를 추적하기 매우 힘들어지죠. 
1
2019-09-18 18:50:21
자료 증폭은, (1) '좁지만 두터운 수준의 설문조사 데이터'를 통해 설문조사 응답을 예측하기 위한 모델을 만들고, (2) 이러한 예측모델을 통해 '넓지만 얕은 수준의 빅테이터'에서의 결측치를 처리(impute)하는 방식이라고 이해했습니다. 

이를 브루먼스톡의 연구에 대입해보면, (0)연구자는 150만명의 데이터 pool에서 1000명을 무작위 추출하고, (1) 추출된 표본을 통해서 예측모델을 만든 후, (2) 기계학습을 통해서 전체 데이터에서의 결측값을 imputation하는 방식입니다. 

무언가 여러가지 연구의 가능성이 열릴것만 같은 느낌이 드는 것이 사실인데요, 이러한 지점에도 불구하고 문든 제가 궁금한 지점은, 가령 임의 추출한 1000명만으로 회귀분석을 돌려서 우리가 얻을 수 있는 회귀계수와, imputation을 마친 후 전체 데이터를 바탕으로 회귀분석을 돌린 계수값이 크게 다르지 않을 것 같다는 것입니다. 왜냐하면 결국 새롭게 imputed 값들 역시 1000명 표본에서의 값들을 학습한 결과이니까요. 만약 이렇듯 회귀계수의 개선도가 크지 않다면, 데이터에서 표본을 추출하고 기계학습을 해서 애써 imputation을 하는 이유가 무엇인지 의문이 드네요..!
WR
1
2019-09-18 23:37:56

말씀하신 회귀계수 즉 변수간의 관계정도를 추정하는 거라면 자료증폭이 결정적이 아닐수도 있습니다. 하지만 특정 변수의 전체 분포를 알고 싶다면 중요할수도 있을 것 같습니다. 

예를 들어 우리나라 세밀한 지역별 소득 지니계수를 impute할 수 있다면 매우 흥미로울 것 같아요.
1
2019-09-18 20:16:10

Big Data의 존재가 연구에 도움을 주는 것은 새로운 흐름이라고 말할 수 있겠지만, 오히려 2장과 3장을 읽으며 이것이 오히려 연구자의 research design을 보다 더 정교하게 할 것을 요구하고, methodological한 영역에서 기여하는 바도 크지만 이론적인 타당성이 부합하지 않는다면 사용하지 않는 것만 못 할 것이라는 생각이 들었다.

예를 들어, 2장에서 제시한 Supervised learning approach 3장에서 제시한 자료 증폭과 같은 기법은 Big data를 분석하는 가장 기본적이면서도 핵심적인 방식이다. 작은 sample data를 연구자가 스스로 분석하고 나머지 부분에 있어서는 기술적인 도움을 받아 방대한 양의 data를 같은 방식으로 처리하는 것이다. 이것은 마치 통계 속의 통계를 보는 듯 했다. 우리가 일반적으로 연구에서 통계를 활용할 때도 여러 bias methodological 문제들에 봉착하게 되는데, 방대한 양의 data를 올바르게 추정하는 하나의 알고리즘을 만들기 위해서는 우선적으로 연구자 스스로가 자신의 연구모델에 있어서 확신을 갖고, 빈틈없이 준비하지 않으면 더 큰 bias를 만들 수 있을 것이다 3장에서 제시한 설문조사 3기의 설문에서도 주체가 어떤 질문을 하느냐가 추상적이고 방대한 무작위적인 Data를 어떻게 operationalization하는 가에 대한 issue인 것 같았다.

WR
1
2019-09-18 22:55:44

data science로 갈수록 연구설계가 생각보다 중요하다는 생각을 하게 됩니다. 

chapter 4는 실험인데, 여기서는 더욱 그렇구요. 
서베이 데이터에서 주어진 종속변수에 대해 유의한 독립변수 찾는 것(종종 p-value hacking이라고 비판받는 활동)보다 빅데이터에서 재밌는 패턴 찾는게 몇 배이상 어려울 겁니다.
1
Updated at 2019-09-18 20:29:56
2019312285 CYJ
Chained equations를 통한 MI는 데이터셋의 결측치를 추정하기 위해 흔히 사용되며, 여러 개의 데이터셋을 여러 번에 걸쳐 추정할 경우(50개의 데이터셋을 20번의 iteration을 통해 추정하는 등) 정확도가 높다고 배웠다. 그러나 여기에는 문제점이 있는데, 주어진 데이터 내에서 알려진 값을 통해 추정하기 때문에 변수들의 분산이 작아진다는 점이다. R 등의 통계 패키지에서는 따라서 각각의 데이터셋에서 추정한 model들을 하나로 합쳐(pooling) 분산을 보정하는 함수가 만들어져 있다.
  그런데 넓고 얕은 빅데이터와 좁고 깊은 서베이 데이터를 활용하여, 넓고 깊은 데이터셋을 (즉 서베이 데이터가 없는 빅데이터 응답자들의 데이터를 추정) 만들 수 있다면 그 데이터셋이 정말 강력할 수 있을 것이라고 생각한다. 하지만 Blumenstock의 연구는 자신들의 추정한 결과값(wealth index)을 비교할 벤치마크가 있었다는 점이 미래에는 오히려 큰 걸림돌이 될 것이라고 생각한다. 왜냐하면 이와 같은 방식으로 진행될 향후 연구들은 그러한 벤치마크가 없을 가능성이 높기 때문이다. 그렇다면 추정값의 정확성을 어떻게 보장할 수 있는가? 혹은 벤치마크가 있다고 하더라도, 빅데이터를 통한 추정값은 그 벤치마크 결과가 얼마나 정확한지, 혹은 빅데이터를 통한 추정이 얼마나 정확한지 검증하는 용도로만 사용될 뿐이다.
  또한 수집된 빅데이터 정보를 imputation에 활용하는 것이 정말로 정확한 imputation을 가능하게 할까? 즉 신촌 지역의 음식점을 방문한 100만명의 지불 정보(방문한 식당, 사용한 금액, 신용카드 결제여부 등)가 있다고 하더라도, 이 정보를 통해 좁고 깊은 서베이 데이터를 추정하기에는, 머신 러닝 '기술'이 아무리 발달한다 하더라도, '지불 정보'라는 데이터가 서베이 데이터에서 흔히 묻는 '가족구조'나 '행복도', '정치성향' 등을 추정하기에는 그리 적합해보이지 않는다. 한편 이러한 의견이 아직 본인이 빅데이터에 문외한이기 때문인지 또한 궁금하다.
  개인적으로 챕터3에서 가장 흥미로웠던 부분은 non-probability sampling의 가능성을 보여준 3.4. Who to Ask 부분이었다. 정규분포나 확률표본 등의 가정을 점점 더 맞추기 어려워지는 사회과학의 현실 속에서 non-probability sampling을 잘 이용한 "Mr. P"는 매우 인상적이었다. 집단의 개수가 많아질수록 해당 응답자가 없을 가능성이 많다는 점에서, 빅데이터의 표본 크기는 큰 장점이 된다. 결론적으로 빅데이터 자체가 정확한 분석을 보장하는 것이 아니라 이 또한 검증된 이론과 분석 방법을 심도있게 적용하는 것이 중요하다는 것을 되새기게 되었다.
WR
1
2019-09-18 23:05:20

코멘트가 전반적으로 "어떻게 효과적인 supervised learning을 할까"와 관련된 것 같네요.

'지불 정보'라는 데이터가 서베이 데이터에서 흔히 묻는 '가족구조'나 '행복도', '정치성향' 등을 추정하기에는 그리 적합해보이지 않는다는 우려도, 결국 learning의 예측도가 얼마나되는 판단할 ground truth를 갖고 있느냐의 문제일 것 같네요. 

그리고 우려하는 것처럼 벤치마크가 없다면 궁극적으로 supervised learning을 할 준거가 없다는 소리인데, 저는 조심스럽지만 낙관적인 편입니다. 빅데이터를 이용한 예측과 학습, impute가 활발할수록 벤치마크의 필요성도 증가할 것이고, 전통적인 사회조사 자료를 수행할 필요성도 커지지 않을까 생각해요.
1
Updated at 2019-09-19 11:28:20

  • ch.3 asking questions


  • survey와 big data를 연계하는 방법은 둘을 별개의 독립된, 심지어 대립하는 조사방법으로 여길 때는 풀기 어려운 연구들을 가능하게 하는 방법일 것 같습니다.
  • 한 가지 예를 들면, 행위자의 정체성(identity)이  디지털 시대에 어떻게 변화하는가(하지 않는가)라는 주제와 관련되어 하위질문으로 (1) 페이스북, 카카오톡과 같이 오프라인의 기존 사회적 관계에 크게 기반하는 소셜미디어에서의 정체성과 트위터, 익명커뮤니티 등 상대적으로 온라인상에 국한되고, 새로운 사람과 연결되는 경우가 많은 플랫폼에서의 정체성은 얼마나 다를지,  (2) 한 사람이 동시에 여러 플랫폼(카톡, 인스타그램, 트위터, 페이스북, 커뮤니티, 포털 등등)을 사용하면서 얼마나 동질한 정체성 혹은 다중적인 정체성을 가지고 있을지 등이 궁금했습니다. 이를 실제 '행동'데이터를 바탕으로 이 질문에 답하기 위해서는 2장에서 'book of life'라는 표현으로 함축되었듯 한 개인이 여러 플랫폼에 걸쳐 이용하고 있는 서로 다른 장들을 하나로 연계해서 합쳐진 데이터가 필요합니다. 그러나 이는 여타의 현실적인 제약에 더해 특히 윤리적인 프라이버시 침해 문제가 매우 문제시될 영역일 것입니다. 그렇다고 온전히 이용자 설문조사로 조사할 때는 발현된 속성들, 특히 네트워크적인 특성들을 보는 것에 제약이 있을 것입니다.
  • 그래서 이런 질문은 연구질문이 되기 어려운가..라고 생각했었는데, 책에 소개된 Burke & Kraut(2014)처럼 (거의 전수가 있는) 빅데이터와 설문조사를 연계하면 타 플랫폼에서의 행위, 그에 대한 주관적 평가와도 연결할 수 있는 우회로가 있을 수 있다는 점이 흥미로웠습니다. 여전히 완전한 관찰데이터에서 수집가능한 것과는 차이가 있겠지만, 별개의 것으로 여겨왔던 빅데이터와 서베이데이터가 사실 '사회조사'라는 맥락에서는 마치 인터뷰(질적)와 설문조사(양적)를 섞어서 mixed method로 쓰듯이 서로 연계되고 유용하게 쓰일 수 있을 것 같습니다. 
WR
1
2019-09-18 23:09:29
survey와 big data를 연계한 제 연구의 예는 가능하면 수업시간에 소개하겠습니다. 
그런데 솔직히 이 연구가 가능했던 주요 이유는, online data를 얻을 수 있는 플랫폼 사업자를 제가 나름 잘 알아서 가능했어요 
1
2019-09-19 00:21:26

제3장 질문하기편을 통해서 설문조사와 빅데이터가 상호보완제로 작용할 수 있다는 점을 명확하게 이해할 수 있었다.


종합 설문조사 오류체계 편에서 측정방식에 따라 오류나 왜곡이 발생할 수 있는 문제의 경우, 수사면담과정에서 유도심문, 반복질문, 복합질문을 통해서 피의자의 진술을 왜곡할 수 있는 부분과 유사한 맥락으로 느껴져 흥미로웠다.

"2013년 9월전에 B카드가 착오로 송금한 것을 알고도 그 금액을 다 쓴 것이죠?라는 검사의 질문에 , 맞습니다”라고 답변한 사건에서 복합질문은 동시에 2개 이상의 답변을 요구하고 있어, 답변하는 사람이 하나의 질문에 대하여 답변하고 나머지 질문에 답변하지 않아 어떤 질문에 답변한 것인지 여부를 불분명하게 만들 수 있는 위험성이 내포되어 있다며 무죄를 선고한 사례가 있었다.(2014노2984)

피의자 조사 과정에서도 피의자 진술의 왜곡을 방지하기 위해 영국의 PEACE 기법을 도입하는 등 객관적인 수사면담 프로토콜을 도입하고 개방형, 구체적, 폐쇄형 질문중 개방형 질문을 권장하면서도 경우에 따라 구체적 질문과 폐쇄형 질문을 사용하도록 하고 있다.  


질문을 던지는 새로운 방법들 편에서 생태순간평가에서 131명의 출소자들의 표준 확률 표본을 표집한 사례는 보이스 피싱 등 조직범죄 수사에 있어서 SNA 알고리즘을 어떻게 활용할 수 있을지에 대한 본인의 연구주제와 관련하여 채택할 수 있는 연구방법론이 될 수도 있겠다고 느꼈으며,


아직 막연하긴 하지만 설문조사 방식, 빅데이터에 설문조사를 연계하는 방식과 관련하여 위키설문조사와 게임화 방식을 적절하게 활용하면서 자료의 풍요화와 증폭을 위한 빅데이터 연계 모델을 구상해 볼 수도 있겠다는 생각도 해보았다.

 

1
2019-09-19 00:32:27
앞 글에 이어서, 얼굴 사진을 이용해 성적 지향을 예측한다는 Gaydar 사례로 Amplified asking에 대한 이야기를 해보고 싶습니다.

많은 predictor를 이용함으로써 성적 지향 등 소수자 분류 머신이 정교화되었다고 할 때 (매우 정확도가 높아졌다고 할 때), 그것을 imputation에 활용할 수 있을까요?

소수자에 대한 통계적 연구는 어렵습니다. 소수자에 대한 사회적 낙인 때문에 본인이 소수자라는 점을 공개하기가 어렵고, 소수자로 분류되는 사람들의 수(n)도 적기 때문입니다. 그렇다면 머신러닝을 통해, 소수자인지 여부를 예측할 수 있는 여러 factor들을 이용해 imputation을 진행한 뒤, "특정 소수자라고 응답한 사람들 + 특정 소수자 그룹에 해당될 것으로 예측되는 사람들"의 데이터를 바탕으로 연구를 진행할 수 있을까요.
가령, 동성애자에 대한 사회적 오명이 심각해 자신의 성적 지향을 숨길 가능성이 높은 한국에서는, "동성애자일 것으로 예측된 사람들의 데이터"를 통해, 동성애자에 대한 stigma, social economic status, health status 등에 관한 연구를 진행할 수 있을까요? 이러한 imputation 방식은 통계적 연구의 길을 열어줄지도 모릅니다. 하지만 만약 stereotypical predictor들의 예측력이 높다면, 이러한 연구는 편견을 재생산할 뿐인지도 모릅니다.

1
2019-09-19 01:32:32

자료증폭(amplified asking)은 예측 모델을 통해 조사 데이터와 빅데이터를 결합한다. 예시로 제시된 블루먼스톡은 약 천명의 고객들은 무작위로 추출하여, 부와 복지를 측정하기 위한 몇 가지 질문들을 하였고, 그 기록을 바탕으로 기계학습을 시키고 그 모델을 통해 150만 고객의 조사 응답을 예측하였고, 그 예측의 정확도는 상당히 높아 보인다.

 

우선 가장 놀라웠던 점은 1000명의 데이터만을 이용하였음에도 높은 정확도를 가졌다는 것이다. 한편 그림 3.14을 참고하자면, 무작위 추출한 사람들에게 14개의 질문을 한 것 같은데, 이 질문은 모두 공통적으로 Yes-No Question이었다. 만약 응답에 척도가 있었다면, 그 정확도가 차이가 생길지 아닐지에 대한 의문이 든다. 비록 기계학습을 통한 모델링이 높은 정확도를 가졌었지만, 더 고차원의 모델링이 필요하기에 아마 정확도에 차이가 존재하지 않을까 싶다. 그리고 만약 그렇다면 1000명이 아니라 얼마만큼의 사람을 무작위 추출해야 그림 3.14와 같이 모든 항목에서 60%이상의 정확도 확보가 가능할 것인가라는 궁금증도 생긴다.

1
Updated at 2019-09-25 17:45:21


1. 전통적인 사회조사에서의 Asking, 질문하는 것은 사람의 내면을 파악하는데 가장 효과적인 방법이다. 3.2절에서 저자는 빅데이터는 (전통적 사회조사가 가지는)질문의 가치를 높인다고 주장한다. 저자가 강조하는 Research Design이란 질문과 대답을 연결하는 것이며 이러한 논리에 따라 3.6절에서 저자는 빅데이터에 설문조사를 연계하는 연구 전략을 소개하기도 한다.
 
그러나 기존 전통적 조사(설문조사 등) 연구자와 빅데이터를 활용하려는 연구자 간 긴장이 있어 보이는 것은 단순히 혼자만의 느낌일까? 사회과학연구 영역에 빅데이터를 활용하는 것에 대한 회의론적 입장을 지닌 것일 수도 있지만 그에 앞서 서로의 연구가 대척점에 있다고 느끼기 때문이 아닐까 싶다. 그러나 저자가 말하듯, 빅데이터는 설문조사를 대체할 수 없으며 빅데이터의 풍부함이 설문조사의 가치를 감소시키는 것이 아니라 오히려 증가시킬 수 있다.

2. 설문조사 연구의 역사는 기술과 사회 영역의 변화와 함께 연구 분야가 진화한다는 것을 보여준다(3.1). 저자는 설문조사 연구 3기가 비확률 표집 방식, 컴퓨터-운영 면접, 그리고 빅데이터 자료와 설문조사의 연계로 특징지어질 것이라 예상한다.
 
여기에서 기술적인 변화가 설문조사 연구에 가져온 변화에 대해 언급하고 싶은데, 저자가 예로 든 1970년대 전화기(2)를 넘어 3기에 해당하는 데이터 환경이 떠올랐다.
 
저자는 설문조사 연구의 시기를 세 가지로 나눴으나 이는 1기에서 2기 그리고 2기에서 3기로의 완벽한 전환을 뜻하는 것이 아니다. 실제 설문조사는 설문의 양과 목적에 따라 1기부터 3기까지의 특징을 복합적으로 가지고 있다. 최근 내가 경험한 실제 설문조사는 1기와 2기의 특징을 모두 가지고 있다. 정부 혹은 기업의 용역으로 서베이를 수행하는 리서치 업체들의 최근 조사연구방식을 살펴보면, 1) 1기에 해당하는 (지리적) 확률 표본을 바탕으로 2)RDD를 활용하여 면접대상자에게 면대면(face-to-face)설문조사 동의를 구한 후 3)면대면(face-to-face)으로 태블릿PC를 활용(Computer-administered)하여-종이설문지는 이제 태블릿pc 오타점검 용도의 보조수단이다- 독립 설문조사(Stand-alone survey)를 수행한다. 4)태블릿PC에 입력된 데이터는 빅데이터의 특성인 Always-on을 그대로 지녀 연결된 서버로 바로 전송된다. 한마디로 리서치 회사 직원은 서베이 데이터가 수집되는 실시간 정보를 확인할 수 있다는 뜻이다.
 
서베이를 태블릿PC으로 수집함으로서 메타데이터가 쌓일텐데, 이 메타데이터는 서베이데이터와 연관되어 Table형식의 자료로 남을 것이다. 서베이데이터와 이 메타데이터를 결합하는 연구를 해볼 수도 있지 않을까?

1
2019-09-19 06:05:13

1.     새로운 질문 방법

3장의 말미에서는 새로운 질문방법들을 제시한다. 생태순간평가는 연구자가 알고자 하는 바를 보다 자세하고 빈번하게 질문할 수 있다는 점에서 유용하며, 전통적인 양적연구설계에서(알고자 하는 바를 개념화, 조작화 하고 이를 최대한 충실히 측정하여 변수 간의 관계를 살피는…) 활용하기 어렵지 않은 것 같다.

반면 다음으로 제시한 위키설문조사를 주요한 연구자료로 활용하는 데에는 한계가 있어 보인다. 책에서는 위키 설문조사를 통한 데이터 수집의 성공적인 예시로 뉴욕의 지속가능성 계획 사례를 들었다. 설문을 시작할 때 시장실에서 제시한 아이디어의 수가 25개이고 새롭게 제시된 아이디어가 464개임을 보면 상위에 랭킹 된 아이디어의 대부분이 시민들이 추가로 제시한 아이디어에서 나오는 것이 놀랍지 않다. 위키 설문의 강점은 연구자가 어떤 질문을 추가해야 할 지 고민하는 대신 설문조사의 틀을 유지하며 유효한 질문을 늘려나갈 수 있다는 데에 있다.

변수화를 해야 하여 경향이나 상관관계를 살피는 양적연구에서 위키설문으로 수집한 자료가 어떻게 활용될 수 있을까? 자료를 가공하지 않는 다면 연구질문에 긴 대답을 할 수는 있지만 설득력 있는 주장을 할 수는 없을 것이고 자료의 차원을 축소한다면 개방성을 준 의미가 퇴색된다. 따라서 위의 프로젝트 사례에서의 기능과 같이, 선행연구가 많이 이루어지지 않거나 변동성이 큰 대상으로 한 연구에서 사전조사로 활용해 연구 질문을 던지는데 도움을 얻을 수 있다.

2.     자료 증폭

 데이터를 수집하는 과정에서 막혀 진행하지 못하였지만, 장애인(휠체어이용자)의 이동환경 측정을 위해 자료증폭의 아이디어를 시도한 적이 있다. 일부 국가의 구글지도나, 공공에서는 휠체어 이용자를 위한 지도를 제공한다. 때로는 데이터가 미수집되거나 현실을 반영하지 않는 경우도 있기에 크라우드 소싱방식으로 사람들이 지도에 참여해 휠체어가 이동하기 좋거나 어려운 시설을 표시하는 지도도 있다. 하지만 대부분의 휠체어 내비게이션 서비스는 지하철 역사나 관광지 등 특정 건물이나 시설에 휠체어가 진입할 수 있는지에 중점을 두고 있으며 도보와 같은 이동경로에 대한 정보는 제공하지 않고 있다. 실제로 휠체어는 인도의 턱과 같은 장애물에 취약하여 차도를 이용하다 사고가 나기도 한다.

 국립재활원(2011)의 「장애인 이동 환경 자동 평가 시스템 개발」에서는 휠체어가 정해진 경로를 돌아다니며 이동 편의성을 자동으로 전송받고 저장하는 시스템을 개발하였다. 하지만 모든 길을 휠체어로 다녀보고 이동편의성을 측정하기란 어렵다. 이에 공유킥보드의 이동경로 데이터로 소규모의 지역에서 수집된 휠체어 이동편의성을 예측하는 모형을 만들고, 이 모형을 다른 지역의 휠체어 이동편의성을 예측하는데에 활용해보자는 아이디어가 나왔다. 휠체어의 이동편의성을 예측하는데에 공유킥보드의 데이터를 활용한 까닭은 과 같이 두 수단이 취약한(우회하게되는) 환경의 특성이 비슷하고 무엇보다 많은 데이터가 수집되기 때문이었다.

WR
1
2019-09-19 08:18:25

공유킥보드를 활용한 휠체어 이동환경 자료증폭 아이디어는 흥미롭네요. 반면 공유킥보드가 주로 다니는 길로 휠체어도 다닐 수 있을지는 좀 더 어려운 문제일 것 같구요.

1
Updated at 2019-09-19 10:16:47

이번 장에서 저자가 예시로 든 Blumenstock의 연구를 보며 빅데이터와 서베이 데이터의 결합이 가져올 수 있는 가능성을 느꼈습니다. 매우 높은 수준의 정확도 하에 prediction이 이루어지는게 인상깊었습니다. 특히 그러한 prediction을 그렇게 많은 샘플수가 없이도 할 수 있는 효율성이 흥미로웠습니다. 해당 연구는 실제 서베이를 통해서 구성된 데이터를 기준으로 비교해 prediction의 정확도를 확인하는 듯한데, 만일 직접 이런 방식의 지도학습을 연구에 이용하려면 이 같은 정확도를 비교할 기준을 어떻게 구하거나 상정할지에 대한 생각이 들기도 했습니다. 


또한 비확률표집이 빅데이터를 이용한 연구에서 충분히 고려될 수 있다는 내용이 흥미로웠습니다. 표본의 대표성을 확보해야한다는 압박을 빅데이터가 지니는 속성을 통하면 어느정도 특정한 상황에서는 해결할 수도 있다는 것이 인상깊게 다가왔습니다. 
WR
1
2019-09-19 15:59:04

기계학습의 정확도에 대해서는 precision, recall을 합한 F score를 많이 참조합니다.