소시오톡
[수리사회학] 누가 인터넷 스타일까? (Measuring User Influence in Twitter : The Million Follower Fallacy)
 
1
1
  238
Updated at 2017-06-08 22:52:51
 SNS 는 이미 우리 삶에서 뗄 수 없는 존재가 되었고, 독자적인 영향력을 가지고 있습니다. 학력과 같은 전통적 진입자격을 요구하는 기성매체와 달리 SNS 상에서는 누구나 평등하게 자신의 목소리를 낼 수 있으며, 누구나 스타가 될 수 있다고 이야기됩니다. 쉽게 자신이 전하고자 하는 메시지를 퍼뜨릴 수 있으며, 그 파급력은 전 세계까지 퍼져나갈 수도 있습니다. 이미 따봉충, 트잉여, 블로거지 등 과도하게 영향력을 추구하는 이용자들에 대한 멸칭이 존재한다는 사실은, 역으로 홍보 수단으로서 SNS가 가지는 위력을 방증해줍니다.

 일반적으로 SNS 상에서의 영향력은 구독자 수를 통해 추정합니다. 정치인이나 기업 홍보 페이지들은 대부분 팔로워나 좋아요를 통하여 자신들의 영향력을 과시하곤 합니다. 그렇다면 과연 이러한 영향력 측정 방식이 정확한 것일까요? 누구나 SNS에서의 영향력을 이야기하지만, 이 영향력이라는 건 어떻게 측정할 수 있을까요? 이 글에서는 실제 데이터를 통해 대표적인 SNS인 트위터에서 사용자의 영향력과 변동을 구체적으로 측정한 Meeyoung Cha et al. 의 “Measuring User Influence in Twitter : The Million Follower Fallacy” 라는 논문을 소개하며 이 질문에 답변을 시도합니다.

세계최강의 트잉여>

1. 영향력은 어떻게 확산될까?

 사회적 영향력의 확산에 대한 기존의 이론들은 다음과 같습니다.

  • 고전적 이론 : 사람들에게 높은 설득력을 갖춘 소수의 영향력 있는 사람들(influential)에 의해 혁신이 확산되며, 이 사람들을 식별할 수 있다면, 혁신의 확산도 예측이 가능하다
  • 현대적 이론 : 소수의 혁신가가 아니라 평범한 사람들 사이의 관계(직장동료, 친구, 가족 등)를 중시하며, 혁신에 대한 사회의 수용 태세가 중요하다고 주장

어떤 분야에서든 혁신은 그 객관적 우월함에 의해 곧바로 전파될 수 있다고 주장하는 고전적 이론에 비해 현대적 이론은 우리의 직관적 경험과 잘 부합합니다. 예컨대 삼성의 휴대폰이 스펙상으로는 가장 우월하다 하더라도, 시장점유율의 절대강자가 되지 못하는 이유는 바로 애플을 사용하는 사람들의 가치관과 그들 사이의 유대감 때문입니다. 하지만 직관과 달리 실제로 광범위한 대규모 자료를 사용하여 실제로 사회적 영향력과 확산 과정을 살펴본 연구가 없었기 때문에, 이 논문은 엄청난 수의 사람들이 사용하며 상호작용을 사후적으로 추적 가능한 트위터를 대상으로 연구를 수행합니다. 구체적인 연구질문은 다음과 같습니다.

  • 뉴스의 전파 양상 : 누가 어떤 영역에서 가장 영향력이 클까?
  • 주제/시간에 따른 영향력의 차이 : 주제별 영향력의 분포 양상 / 시간의 흐름에 따른 영향력 분포 변화
  • 영향력을 얻기 위한 방법 : 어떤 사용자가 단기간에 영향력을 얻을 수 있을까?

2. 측정방식과 자료

트위터에 대한 기존의 연구들은 대부분 다수와 연결되어 있다는 점을 곧바로 영향력과 등치시키는 경향이 있었지만, 이 연구에서는 백만명의 팔로워가 있다 하더라도 실제 영향력과는 별개일 수 있다고 지적하며 트위터 상에서의 영향력의 유형과 크기를 좀 더 세분화합니다.

  • 인디그리(Indegree) : 팔로워(follower : 구독자)의 수
  • 리트윗(Retweet) : 리트윗(펌) 된 횟수
  • 멘션(Mention) : 멘션(답글)을 받은 횟수

연구에 사용한 트위터 자료는 다음과 같습니다.

  • 자료 수집 방식 : 트위터 운영진 측에서 제공
  • 2009년 8월 기준으로 총 8,000만개의 계정 중 54,981,152 개의 실사용 계정 추출 : 1,963,263,821 개의 상호연결 / 1,755,925,520 개의 트윗
  • 사용자 간 네트워크로 구성된 군집들 중 전체 사용자의 94.8%, 연결 및 트윗의 99%를 차지하는 단일 군집(5200만 사용자) 선별
  • 군집 내에서 영향력 확산 연구의 직접적 대상이 되는 활동적인 사용자 선별(10개 이하의 트윗, 코딩에 적절하지 않은 계정명 배제) : 6,189,636 사용자

최종적으로 5200 만개의 계정으로 구성된 군집 내에서 활동적인 6,189,636개의 계정이 가지는 영향력을 중심으로 연구가 이루어지게 됩니다. 활용된 자료의 규모를 보면 사회적 영향력에 대한 기존 연구들이 경험적 근거가 결여되어 있다고 비판한 패기가 납득이 됩니다. 그렇다면 이 연구에서는 구체적으로 어떤 방식을 통해 방대한 규모의 자료 속에서 사회적 영향력을 읽어낼까요? 사회적 영향력의 측정 방식은 다음을 따릅니다.

  • 인디그리, 리트윗, 멘션의 숫자에 따라 각 영역별로 사용자에게 순위(rank)를 부여합니다. 즉 수치(numerical) 자료에서 서수(ordinal) 자료로 변환을 해줍니다.
  • 이어서 서수 자료 사이에서 상관계수를 구할 수 있는 스피어맨 순위 상관계수(Spearman’s rank correlation coefficient)를 통하여 영역간의 상관관계를 계산해줍니다.
     
    P= 상관계수(-1~1 사이의 범위)
    Xi, Yi = 각 영역에서의 순위
    N = 사용자의 수

3. 결과

3.1. 영역별 영향력 분포

단순히 팔로워, 리트윗, 멘션의 숫자로만 순위를 매겼을 때 최상위 100위권 사용자들의 비중은 다음과 같습니다.
 

대부분의 사용자들이 인디그리, 리트윗, 멘션에서 각 영역별로 독자적 영향력을 가지고 있으며, 중첩되는 영향력을 가진 사용자의 비중은 매우 적다는 점을 알 수 있습니다. 그렇다면 각 영역에서 최상위 20위권에 들어가는 사용자들은 어떤 계정들일까요? 결과는 다음과 같습니다.

  •  인디그리 : 뉴스 사이트, 셀레브리티, 공인
  •  리트윗 : 뉴스 사이트, 컨텐츠 모음 서비스, 기업인
  •  멘션 : 셀레브리티

그리고 3개의 영역 모두에서 최상위 20위 안에 드는 사용자는 단 2명이었습니다. 바로 배우 애쉬튼 커쳐(Ashton Kurcher)와 래퍼 푸프 대디(Puff Daddy)입니다. BBC, CNN, NYT 와 같은 쟁쟁한 뉴스 사이트들을 누르고 셀레브리티가 트위터 최강자의 지위를 차지했습니다.

3.2. 영역별 영향력 연관성

앞서 언급한 스퍼아맨 상관계수를 사용하여 영역별 연관성을 분석한 결과는 다음과 같습니다.


All 로 표시된 열의 경우에는 다수의 유저들이 낮은 순위에 포진하고 있었기 때문에 상관계수 자체가 높이 나오는 교란이 일어났기 때문에 큰 가치가 없습니다.

주목해야 할 지점은 리트윗과 멘션 사이의 강한 상관관계입니다. 최상위 10%, 1% 사용자들로 범위를 줄이더라도 상관관계는 강하게 유지됩니다. 반면 인디그리는 다른 영역과 상관관계가 약하게 나타납니다. 따라서 단순히 팔로워가 많다고 해서 상호작용과 같은 적극적 영향력이 높다고 볼 수는 없습니다.

3.3. 주제별 영향력 분포

이번에는 분석대상이 된 2009년에 트위터상에서 가장 많이 언급된 3개의 주제를 선정하여 분석을 해보았습니다. 우선 3개의 주제는 이란 대선(정치) / 돼지독감 유행(건강) / 마이클 잭슨 사망(사회) 이었습니다.



표에 나온것과 같이 해당 주제와 관련된 키워드를 선정하여 2개월간 키워드를 포함하는 트윗을 추출하였으며(2개월 이상으로 넘어가면 유행 키워드를 이용한 스팸 메시지가 등장하여 교란하기 때문에), 결과적으로 2000만명 이상의 사용자들에게 1개 이상의 주제와 관련된 트윗이 도달하였다는 점이 확인되었습니다. 즉 전체 트위터 이용자의 40% 이상이 해당 주제를 보거나 직접 언급하였습니다. 그리고 3개 주제를 모두 직접 다룬 이용자는 전체의 2%인 13,219 명으로서, 통계적 분석을 하기에 충분한 수 입니다.



위의 그래프는 유행하는 주제에 대한 영향력과 사용자 순위 사이의 교차표입니다. 팔로워 수는 주제별로 차이가 없기 때문에 리트윗과 멘션만 활용을 하였습니다. 전반적으로 멱함수 분포(power-law)를 따르고 있다는 점을 확인할 수 있으며, 이로부터 최상위 이용자들의 영향력 크기는 순위와 정비례하지 않고 일반 이용자들의 수배 이상에 이른다는 결론을 내릴 수 있습니다.

3.4. 주제별 영향력 연관성

영역별 분석과 마찬가지로 이번에도 스피어맨 상관계수와 더불어 순위 분포도를 살펴보겠습니다.



영역별 분석때와 마찬가지로 전반적으로 주제 사이에서 영향력의 상관관계가 강하며, 1% 로 한정하면 효과 더 강해진다는 점을 확인할 수 있습니다. 또한 멘션을 자주 받는 사용자보다는 리트윗이 자주 되는 사용자가 좀 더 여러 주제에서 영향력을 가진다는 점을 확인할 수 있습니다.

또한 이란 대선 주제에서의 영향력이 5위 안에 드는 최상위 사용자는 다른 주제에서도 순위 유지하는 양상을 보이며, 중간 순위의 사용자들도 같은 경향을 보입니다. 따라서 가장 영향력 있는 사용자들은 다양한 주제들을 가로질러 영향력을 행사할 수 있으며, 다수의 대중보다 소수의 영향력 있는 사용자를 이용하는 정보확산이 더 효율적이라는 결론을 내릴 수 있습니다.

3.5. 시간과 영향력

지금까지는 상호작용 방식 영역과 다루는 주제에 따라 트위터 상에서의 영향력이 어떤 방식으로 작동하는지를 살펴보았습니다. 그렇다면 마지막으로 시간의 흐름에 따른 영향력의 작동방식을 살펴보겠습니다. 여기서는 크게 2가지 주제를 살펴봅니다.

  • 영향력 최상위 사용자들의 장기적 순위 유지 여부 : 8개월에 걸쳐 최상위 100위 사용자(총 233명)의 영향력(인디그리, 리트윗, 멘션) 변화 추이
  • 주제 내에서 단기간에 영향력을 얻은 사용자의 인기 비결 검증 : 8개월에 걸쳐 각 주제별로 최상위 20위 사용자(60명)의 영향력 변화 추이

그리고 두 주제 모두 영향력을 검증하기 위해 P라는 단일변수를 만들어서 활용합니다. P변수는 (15일 동안 리트윗되거나 멘션을 받은 수 / 15일 동안 전체 트윗의 수) 로 정의됩니다. 간단히 말하자면 15일 동안 전체 트윗 중 반응을 얻은 트윗의 비율입니다.

3.5.1. 시간 흐름에 따른 영향력 변화


위 그래프는 사용자의 순위에 따라 3개의 집단으로 나눈 후 영향력의 변동 추이를 월 단위로 보여주고 있습니다. 각 집단의 특성과 패턴은 다음과 같습니다.

  • 최상위 10위 내(주로 뉴스) : 멘션은 시간이 지날수록 영향력 감소
  • 최상위 11~100위(주로 셀렙) : 영향력 유지
  • 최상위 101~233위(주로 공인이나 오피니언 리더) : 시간이 지날수록 영향력 증가
평범한 다수의 이용자들이 뉴스 사이트를 상대로 개별적 소통을 시도하지는 않기 때문에 리트윗과 달리 멘션 비율은 시간에 따라 떨어지는 경향이 나타났습니다. 반면 셀렙은 기존에 가지고 있던 네임밸류로 인하여 지속적인 영향력을 유지하며, 공인과 오피니언 리더들은 소통에 유의미한 노력을 투입하여 영향력을 증가시켰습니다. 예컨대 연예인들은 직접 답글을 하지 않더라도 지속적으로 팬들이 조공을 바치며, 온라인 논객들은 직접 키보드 배틀을 통해 새로운 팬 층을 형성합니다.

3.5.2. 신흥 강자의 등장

이번에는 주제별로 나누어 영향력이 증가하는 양상을 살펴보았습니다.
주제별 결과는 다음과 같습니다.

  • 이란 대선(6월 12일 실시) : 선거의 정점이던 시기(6~7월)에 리트윗 비율은 크게 증가한 반면 멘션은 크게 증가하지는 않았습니다.
  • 마이클 잭슨 사망(6월 25일 사망) : 이란 대선과는 정 반대로 리트윗 비율은 조금 증가하였지만, 멘션은 대폭 증가하였습니다.
  • 돼지독감 유행 : 특별한 격변이 없는 사건이었기 때문에 영향력 변동이 없었습니다.

이란 대선의 경우에는 주로 뉴스 사이트들을 통해 소식이 전해졌기 때문에 영역별 결과와 마찬가지로, 뉴스 사이트의 리트윗/멘션 특성으로 인해 저러한 결과가 나왔을 가능성이 높습니다. 결론적으로 단일 주제에 집중하여 트윗을 하는 이용자가 영향력이 가장 많이 증가하였습니다.

4. 결론

지금까지의 분석결과를 통하여 트위터상에서 영향력을 측정하는 각 지표에 대해 다음과 같은 결론을 내릴 수 있습니다.

  • 인디그리 : 사용자의 인기를 반영하지만 실질적 영향력은 약함
  • 리트윗 : 트윗의 질을 반영
  • 멘션 : 사용자의 네임밸류를 반영

또한 트위터 상에서 영향력이 확산되는 방식에 대해서는 다음과 같은 결론을 내릴 수 있습니다.

  • 가장 영향력 있는 최상위 사용자들은 주제를 초월하여 영향력을 가짐.
  • 사용자 유형별로 시간에 따른 영향력 변화 추이가 다름.
  • 영향력은 우연의 산물이 아니라 정제된 노력의 산물.



우스개소리로 트위터는 인생의 낭비라는 말이 있지만, 오프라인에서 기성 이름값을 가지지 못한 온라인 신규 진입자가 영향력을 획득하기 위해서는 인생을 낭비해야 한다는 결론이 도출되었습니다. 단순히 숫자로만 따진다면 트위터상에서의 최강자는 셀렙이지만, 주제를 초월한 영향력을 지니기 위해서는 지속적 노력을 투입하여 다른 사용자들과 상호작용을 해야합니다. 예컨대 한국의 트위터에서 공지영씨나 이외수씨는 본업은 작가임에도 불구하고 정치, 사회, 문화 전반에 걸쳐서 내놓는 트윗들이 많은 호응과 반론에 휩싸이며 영향력을 발휘합니다. 이 연구는 다소 단순한 방법을 택하고 있지만, 전례를 찾기 어려운 대규모 자료를 통하여 사회적 영향력이 확산되는 방식에 대해 다루고 있다는 점에서 무시할 수 없는 강력한 결과를 보여주었습니다.

   
NO
Comments
아직까지 남겨진 코멘트가 없습니다. 1 님의 글에 코멘트를 남겨주세요!