Exploring toxic behaviors in LOL

LOL의 트리뷰날 기록 146만 건을 가지고 쓴 논문을 우연히 보게 됐다. (Exploring cyberbullying and other toxic behavior in team competition online games., Kwak, H., Blackburn, J., & Han, S. (2015))

“Using a dataset of over 10 million player reports on 1.46 million toxic players along with corresponding crowdsourced decisions, we test several hypotheses drawn from theories explaining toxic behavior.”

저자들은 게임 내에서 다른 플레이어들에게 피해를 주는 행위를 ‘독소 행위(toxic behavior)’라고 정의하고, 이 안에 사이버불링(cyberbullying), 그리핑(griefing), 장난(mischief), 치팅(cheating)을 넣었다. 일반적으로 게임 안에서 다른 플레이어들을 괴롭히는 행위들을 그리핑(griefing)이라고 해 왔는데, 이걸 LOL의 신고 기준에 맞게 좀 더 크게 분류를 잡고 부적절한 아이디(inappropriate name)나 도배(spamming) 같은 것들을 포함했다.

일단 크게 네 개의 가설을 잡고 검증했는데,

  1. 독소 행위를 하는 플레이어를 신고하도록 요청을 하면, 신고가 증가한다. 아군 진영에 독소 플레이어가 있고, 신고 요청을 하는 경우, (요청이 없는 경우보다) 상대 진영의 신고가 16.37배 증가한다고 한다. 보통 방관자 효과(bystander effect)라고 해서, 도움 요청이 없을 경우, ‘나 말고 저 사람이 도와주겠지’하는 것을 말하는데, ‘신고 해달라’는 요청이 있을 경우 다른 플레이어들도 적극적으로 신고를 한다는 것이다.
  2. 이런 신고는 양쪽 모두가 피해자일 경우, 말하자면 부적절한 아이디라든지 욕설이라든지 양쪽 모두에게 피해를 주는 것일 경우에 그 가해자가 아군이면 신고를 덜 한다.
  3. 한국의 경우는 특이한 부분이 좀 나타났는데:
    1. 사이버불링에 대한 신고인 경우, 검토자가 ‘처벌’을 선택하는 비중이 다른 지역 서버(북미, 유럽)보다 낮다. 저자들(셋 중 둘이 한국인임)은 이에 대해서 한국 고유의 왕따 문화에 기인하는게 아닌가 추측했다. 이런 왕따의 피해자보다는 가해자에 대해서 더 이입을 하는 걸로 보인다고.
    2. 게임의 결과에 영향을 크게 미치는 독소 행위(의도적인 피딩(intentional feeding)이나 적을 도와주는 행위(assisting enemy))에 대해서 신고 비율이 높다.
    3. 그리고 이런 행위들에 대해서, 다른 지역들보다 처벌 비중이 높다. 
  4. 지는 팀에서 신고하는 비중이 높다. 신고된 사례들을 보면, 승률이 명백하게 낮다. LOL의 매칭이 50%를 가정하고 이뤄지는 것에 비해서, 신고된 사례와 결과를 보면 이적 행위와 피딩의 경우는 10%대 승률, 부정적 태도(negative attitude)나 공격적 발언(offensive language), 욕설의 경우는 25% 수준, 도배와 부적절한 닉네임은 35% 승률을 보였다.
  5. 지는 팀에서 신고된 내용은 (졌으니까) 용서하는 비중이 높을 것이라고 가설을 잡았는데, 실제로 보니 승리팀의 경우에 용서를 하는 비중이 진 팀의 경우보다 높았다. 이겼으니까 용서를 해준다는 걸로 보인다.

이 논문에서 특히 인상적인 부분은 한국 지역이 다른 지역에 비해 두드러지게 다른 점이 나타났다는 것이다.

As we previously noted, a likely explanation for this is due to the Wang-tta concept in KR. Particularly invasive in gaming culture, Wang-tta probably leads to reviewers empathizing not with the cyberbullying victim, but rather the alleged toxic player who verbalized his displeasure with the victim’s performance.”

다른 지역에 비해서, 부적절한 이름(inappropriate name), 공격적 발언, 도배 같은 것에 대해서 상대적으로 관용적이라는 것이고, 반면 결과에 영향을 직접적으로 미치는 행위들에 대해서는 처벌을 선택하는 비중이 상대적으로 높았다.

개인적인 해석을 좀 보태자면, 이건 한국 게임 문화가 성차별적이라든지 인종차별적이라든지 하는 부적절한 이름을 사용하는 것을 웃으며 넘기는 문화가 있는 것, 욕설이라든지 도배 같은 내용에 대해서는 신고를 하기보다는 그냥 차단을 하고 각자 선에서 무시해버리는 빈도가 높지 않느냐 하는 것이 영향을 미쳤지 않나 싶다.

또한 반대로, 승부의 결과에 직접적으로 영향을 미치는 행위는 자신에게 게임 이후 기록으로 남는 직접적인 결과 피해이므로, 훨씬 적극적으로 제재를 하려는 것이 아닐까 생각한다.

나쁜 플레이어와 나쁜 직원

optimize
인용 기사 중 발췌

라이엇게임즈는 좋은 인재를 인채 채용하는 것보다 나쁜 인재를 제거하는 것이 더 중요하다는 생각을 했다고 한다. 그래서 직원들의 리그오브레전드(League of Legends, LOL) 플레이 기록을 가지고 데이터를 분석해 이를 가려냈다는 기사가 났다.

“면담을 한 대부분 직원은 채팅 기록을 보며 자기 스스로도 ‘오싹했다’며 반성했다. 많은 이들이 무의식 중에 폭력에 노출돼 있었던 것이다. 이 직원들은 이후 생산성이 높아졌다.”

‘리그오브레전드’로 좋은 직원, 나쁜 직원을 가려냈다

이 기사를 보면, 라이엇은 “게임에서 악성 행동을 보이는 사람들이 실제 사무실에서도 악성 직원이 될 가능성이 높다”라는 가설을 세웠고, 직원을 고용하기 전에 LOL의 채팅 기록을 당사자에게 직접 보여주는 걸로 문제를 해결했다고 한다.

(일단, 이건 자사의 게임이기 때문에 사용자의 개인 정보 문제가 타 서비스의 것을 인용하는 것보다는 덜 문제가 될 수 있지만, 직원이자 서비스 이용자인 사람의 서비스 이용 기록을 열람하고 이를 분석하는게 문제가 없는지는 조금 논란이 될 소지가 있다. 다만 이 내용을 사전에 고지하고 열람했다면 문제가 없을 수 있다.)

만약, ‘악성 플레이어’가 이와 같이 자신의 채팅 기록을 보고 ‘오싹해’하고 반성할 수 있다면, 게임 서비스들은 플레이어에게 ‘오늘의 채팅 기록’을 이메일로 전송해서 보여주는 것으로 악성 이용자를 감쇠할 수 있지 않을까? 플레이어 자신이 한 말만 분리해서 본인의 이메일로 보내 보게 하는 것이라면 법적으로 문제도 없을 것이고, 오늘 내가 무슨 감정으로 게임을 플레이 했는지도 반성하게 할 수 있을 것이다.

상호 검증 기능

한 5~6년 전 쯤에 한 데이팅 사이트에 가입을 한 적이 있었다. 이 사이트는 본인 인증을 해야 했는데, 신분증을 찍어서 올리면 그 신분증을 확인하고 실명 본인 인증을 해주는 것이다. 와 수십만 명이 사용하는 서비스에 이걸 일일이 다 체크하려면 존나 빡세겠다 생각을 했더랬는데, 며칠 뒤 의문이 풀렸다.

서비스 이용자에게 랜덤으로 서비스에 기여하는 기회를 제공하고 약간의 이익(benefits)을 주는 기능이 열린 것이다. ‘기여 의사’를 밝히면, 다른 사람들이 올린 신분증 사진과 실명, 사진을 비교할 수 있게 된다. 예를 들면 이런 질문이다. 이 사진들이 같은 사람의 것입니까? 사진과 신분증의 사진이 일치합니까? 이용자 이름과 신분증 이름이 일치합니까? 같은 것들이다.

랜덤한 사용자에게 보여주고 확인을 하게 하는 것이므로 주변인을 동원하는 어뷰징은 불가능하고, 여러 사용자들에게 보여주고 그 결과를 취합하는 것이므로 검증 인력을 내부에 둘 필요가 없다. n명의 사용자에게 보여줬는데 n명의 답변이 일치하면 그대로 인증을 해주면 된다. 만약 10% 정도의 불일치가 있으면, 그건 내부 인력으로 마지막으로 확인을 하면 될 것이다. 그 이상의 불일치라면 오류를 던져서 본인 인증을 신청한 이용자에게 ‘다시 시도하라’고 회신하면 된다.

이런 식의 사용자들의 상호 검증과 인증은 여러가지 장점이 있다. 일단 사용자들의 서비스에 대한 충성도가 생긴다. 자신이 뭔가를 기여한 서비스는 애착이 생기기 마련이다. 그리고 내부에 검증을 위한 인력이 필요하지 않게 되므로 인건비를 크게 절감할 수 있게 된다. 또 이런 식의 검증 시스템은 서비스 자체의 신뢰도를 높일 수 있다. 그리고 이런 상호 인증 방식의 신뢰도도 낮지 않다.

어떻게 보면, 이것들을 (요즘 유행하는) 학습형 인공지능을 통해서 할 수 있지 않나 싶기도 한데, 온갖 다양한 형태의 신분증과 다양한 각도의 사진들을 학습하는 것보다 훨씬 비용이 싸게 들 것이 자명하기 때문에, 위의 장점들을 볼 때 훨씬 나을 수 있다. (심지어 인공지능이 더 싸진다고 하더라도, ‘사용자의 기여 → 충성도’라는 과정을 볼 때, 인공지능보다 장점이 있다.)

스크린샷 2017-08-03 오후 5.08.09
The Foundry of Neverwinter Online from official site

이런 상호 검증 기능은 사실 게임 서비스에도 많은 부분 활용할 수 있다고 본다. 실제로 플레이어의 게임 태도에 대한 평가 같은 것은 이미 LOL의 트리뷰날(tribunal)로 활용된 적이 있기도 하고,네버윈터 온라인(Neverwinter Online)의 사용자가 만든 퀘스트인 ‘the Foundry’의 평가도 이런 식으로 볼 수 있을 것이다. 또 비슷한 예로 아키에이지(ArcheAge)의 법정도 있겠다.

어쨌거나 이 기능의 기본 요지는 ‘불특정의 다른 사용자들이 평가한다’이므로, 특정 아이템의 밸런스 같은 것에도 활용할 수 있겠다. ‘사용해본 결과 이 아이템의 성능은 어떻습니까(별점)’ 같은 식으로 아이템마다 사용자들의 평가 별점이 보여지는 것은 실제 효용에 대해서 보여줄 수도 있다. (다만 이런 식으로 평가들이 기준 없이 별점으로객관화되면 플레이어들의 획일적 취향이 만들어질 수도 있다는 명백한 단점이 존재한다.)

뭐, 다른 활용처는 좀 더 생각을 해보는 것으로.

Most played pc games, DEC 2014

3rHMdCw

위의 이미지를 보고 나서 어라?하는 느낌이 들어 소스를 확인. 아마도 스태티스타를 소스로 해서 만든 걸로 보인다. (데이터가 같음)

This time last year, League of Legends boasted 27 million players on a daily basis, with peak times clocking 7.5 million concurrent users. Riot Games wrapped up their annual League of Legends Championship series event in October last year, which peaked with a viewership of 27 million.

– Riot Games Building Its Own Network for League of Legends, Gamespot

LOL은 2천 7백만 DAU에 750만 CU를 작년에 찍었다는 뉴스가 있었고, DOTA는 스팀 통계에 따르면 피크에 84만, 카스 글옵이 40만.

그래서 저 점유율이라는게 어느 정도나 신뢰성이 있는지를 좀 믿을 수가 없는 상태다. 만약 저 데이터 대로라면 LOL은 400만 정도 동접이 될 거라는 소리고 카스 글옵과 도타는 둘 다 스팀 독점이라 비율 그대로 2:1이어야 하는데 그렇지도 않다.