타깃은 여고생의 임신을 알아맞혔는가 1 중매媒 몸體 (Media)

이 글은 미국 대형 소매점 타깃이 빅 데이터를 이용해 여고생의 임신을 예측했다는 사례와 관련하여,

1. 한국 언론 보도의 문제
2. 이런 사실이 선풍적으로 알려진 과정
3. 빅 데이터와 예측 분석법의 속성

등을 짚어보는 글입니다. 1과 2는 이 글에 들어있으며, 3은 분량이 너무 길어져서 다음 글로 옮겼습니다.



--- ** --- ** ---


여고생이 임신을 했다. 그 부모는 그런 사실을 전혀 몰랐다. 그러나 대형 소매점인 타깃은 이 학생이 임신을 했다는 사실은 물론이고 몇 개월인가까지 정확히 알고 있었다. 수많은 고객의 구매 행위를 분석한 모델을 적용한 결과다. 타깃은 여고생에게 육아 물품 정보가 담긴 할인 쿠폰을 보냈고, 이 사실을 안 학생의 아빠는 타깃에 찾아와 항의를 했다. 그러나 나중에 아빠는 딸내미가 임신한 게 사실임을 알게 되었고, 타깃에 사과했다.

몇 년 전에 미국에서 벌어졌다는 일이다.

이것은 마케팅에서 빅 데이터의 가치와 위력을 강조할 때 흔히 인용하는 사례다. 실로 놀랍지 않은가. 빅 데이터를 분석하면 아무도 모르는 아주 은밀한 개인사까지 캐낼 수 있는 것이다. 타깃이 그랬듯, 이러한 결과를 마케팅에 되먹임하면 고객의 필요에 부응하는 맞춤 상품 정보를 제공함으로써 큰 이익을 낼 수 있을 것이다.

그런데 과연 타깃은 정말로 저 여고생의 임신을 알아맞혔는가?

이 질문에 대한 답을 살펴보기 앞서, 그보다 덜 중요한 것처럼 보이지만 더 중요할 수도 있는 다른 질문들을 먼저 해 보자:

▷ 이런 일은 언제 벌어졌고 어떻게 알려졌는가?
▷ 임신한 여고생의 아빠는 타깃을 찾아와 사과하였는가?
▷ 이런 일을 한국 매체는 어떻게 보도하고 있는가?


--- ** --- ** ---


"여고생 임신, 부모는 몰라도 '빅데이터'는 안다"

빅 데이터의 위력과 가능성을 강조하는 글인데, 문제의 타깃과 여고생 사례가 대표로 들어갔다. 두 해 전인 2013년 6월에 한 신문 웹사이트에 실린 글이다. 매체 글임에도 기사라고 하지 않은 이유는, 어떤 행사를 안내하는 알림글 성격을 갖고 있기 때문이다.

이 글은 이렇게 시작한다:




길지 않은 두 단락에 잘못된 사실이 넷이나 들어 있다.

1) 아버지가 딸의 임신 사실을 알고 다시 매장을 찾아가 사과했다는 것은 사실이 아니다. 이 글이 근거로 제시하는 <뉴욕 타임스> 기사 원문을 밑에 보이겠지만, 이런 일은 전화 통화로 이루어졌다. 본인이 직접 전화를 건 것도 아니고, 타깃 관리자가 건 전화를 받고 그런 사실을 밝혔을 뿐이다. 위 진술처럼 아버지가 관리자에게 사과하기 위해 다시 매장을 찾아갔다면, 그 아버지는 지나치게 예의바르거나 매우 한가한 사람일 것이다. 보통 사람들은 대체로 그렇게 과도하게 예의바르거나 한가하지는 않다. 게다가 지금 적잖이 창피한 상황이 아닌가.

2) 여고생의 아버지는 딸이 '임신 3개월'이라고 말한 적이 없다. 8월에 출산 예정이라고 했는데, 이 일이 벌어진 것이 언제인지 드러나지 않았으므로 여고생이 임신 몇 개월인지는 알 수 없다.

3) 이런 사실을 보도한 <뉴욕 타임스> 기사가 나온 것은 '올해(2013년)'가 아니라 2012년 2월이다.

4) '튼살 방지 크림과 임산부용 속옷'은 글쓴이가 상상력을 발휘해 만들어낸 것이다. 원문에는 그저 로션(lotion)과 임산부 옷(maternity clothing)이 제시되었을 뿐이다. 원문에서 로션은 '튼살 방지'가 아니라 무취 로션을 말하며, 출산이 가까워지면 아이 낳은 뒤를 대비해 무취 로션(말하자면 베이비 로션)을 대량 구입한다는 맥락으로 쓰였다.

또다른 기사 하나를 보자. '여고생 딸 '임신' 엄마보다 마트가 먼저안다?'라는 기사다.




여기서도 잘못된 진술이 줄줄이 쏟아져 나온다.

1) 저 해프닝이 벌어진 게 언제인지 햇수로 지정되지 않았음은 이미 보았다. 2012년은 이런 일이 벌어진 때가 아니라 <뉴욕 타임스> 기사가 보도된 시점이다. 해당 기자는 1년 이상 장기간 취재한 뒤 이 기사를 썼다. 본문에서 저 해프닝의 시기에 대해 언급된 것은, 타깃의 빅 데이터 분석 담당자가 임신-예측 모델을 만든 지 1년 뒤라는 것뿐이다. 담당자가 타깃에서 빅 데이터를 분석하기 시작한 것은 2002년이며, 2010년에 이미 이 모델을 통해 상당한 매출 증가 효과를 거두고 있다고 발표한 적이 있다(아래에서 봄).

외신 기사를 놓고 이런 것을 다 따져볼 겨를은 없더라도, 없는 말을 지어내 쓰면 곤란하다. "2012년에 <뉴욕 타임스>(등 외신)에 보도된 기사에 따르면"이라고 했으면 사실 관계도 정확하였을 뿐만 아니라 기사에서 빠진 출처도 밝히는 모양이 되었을 것이다.

2) 타깃의 매장 관리자가 저런 말을 한 적은 없다. 아래 원문을 참고하면 쉽게 알 수 있다. 원문에는 없는 겹따옴표 인용이 새로 만들어져 들어갔다.

3) 원문에서 서술된 타깃의 임신-예측 모델은 '초기-영양제, 중기-로션, 말기-유아용품'이라고 단순하게 도식화되어 있지 않다. 임신 중기가 시작될 때 많은 양의 로션을 사며, 임신한 뒤 20주(초기~중기) 동안 여러 영양제를 사고, 출산일이 다가오면 무취 비누, 대형 포장 솜, 손 세척제, 타올 등을 사는 징후가 나타난다고 했다.

4) 여고생이 구체적으로 어떤 구매를 했는지는 원문에 나오지 않는다. 기자가 3)의 잘못된 도식에 맞게 자의적으로 집어넣었다.

5) '한달 뒤 반전'이 아니라 며칠 사이에 벌어진 일이다. 원문에는 'a few days later'라고 되어 있다.

이런 기사들이 기대고 있는 원문 기사는 2012년 2월19일자 <뉴욕 타임스 매거진>(신문 일요판 부록. 웹판으로는 2월16일)에 실린 '기업들은 어떻게 당신의 비밀을 파악하는가'다. 매거진 기사이므로 분량이 상당한데, 그 중 해당 부분은 이렇게 되어 있다:


(타깃의 빅 데이터 분석 책임자)이 임신-예측 모델을 개발한 지 1년쯤 지난 어느 날, 한 남자가 미니애폴리스 교외의 타깃 매장에 와서 관리자를 찾았다. 그는 자기 딸에게 배달된 쿠폰들을 움켜쥐고 있었다. 당시 현장에 있었던 한 직원에 따르면 그는 화가 나 있었다고 한다.

그 남자는 "내 딸이 이걸 우편으로 받았소. 걔는 아직 고등학생인데, 그런 애한테 신생아 옷이랑 침대 쿠폰을 보낸단 말이오? 애한테 임신하라고 부추기는 거요, 뭐요?"라고 말했다.

매장 관리자는 이게 무슨 말인지 영문을 몰랐다. 그는 우편물을 살펴봤는데, 아닌 게 아니라 수신자는 그 남자의 딸이었다. 우편물 광고에는 임산부 옷, 신생아용 가구 같은 제품이 미소짓는 아기들 사진과 함께 들어 있었다. 관리자는 사과하였으며, 며칠 뒤에 다시 사과하기 위해 전화를 걸었다.

그러나 이 전화가 연결되었 때, 그 아버지는 좀 창피한 어투로 이렇게 말했다. "딸과 이야기했습니다. 우리 집에서 내가 전혀 모르는 일이 일어나고 있었던 모양이요. 딸애가 8월 출산 예정이라는군요. 사과해야 할 사람은 납니다."


어떻게 이런 원래 기사로부터 잘못된 사실로 가득한 한국 매체 글이 나올 수가 있는가? 그것은 해당 기자와 신(神)만이 알 수 있을 것이다.

또다른 한 기사에서 보듯, 언론이 이렇게 대충대충 기사를 쓰며 끼워넣은 잘못된 사실은 사람들의 인식을 왜곡할 뿐만 아니라, 이런 기사를 1차 자료로 활용해야 하는 전문가에게까지 그대로 흘러들어간다.


--- ** --- ** ---


여보쇼! 빅 데이터가 중요하다는데, 그런 일이 언제 벌어졌는지, 그놈의 아빠가 타깃을 왔는지 안 왔는지가 뭐가 중요해!

중요합니다. 빅 데이터가 비즈니스와 마케팅에 중요한 것만큼이나, 저널리즘에서는 그런 것들이 중요하다.

사실을 제대로 쓰지 않은 한국 매체 글을 자세히 본 이유 중 하나는, 이러한 양상이 빅 데이터의 위력을 지나치게 강조하려는 의식에서 나온 게 아닌가 하는 생각 때문이다.

'여고생 임신! 타깃 예상 적중! 항의하던 아빠 치욕!' 등의 타블로이드식(혹은 한국 언론식) 제목으로 표현할 수 있을 정도로 충격적인 형태로 드러난 빅 데이터와 예측 분석법(predictive analytics)의 위력. 그러나 이는 사실보다 훨씬 크게 과장되었을 수 있다.

<뉴욕 타임스> 기사가 나오고 난 뒤에 이 사건은 널리 회자되며 크게 화제가 되었다. 일이 어떻게 시작되었는지를 해당 기사와 한 사이트를 참고해 다시 짚어 보자.

1.

2002년에 타깃은 데이터 분석 전문가 앤드루 폴을 마케팅 부서에 데려왔다. 폴은 팀을 이끌며 빅 데이터 분석을 시작했다. '임신-예측 모델' 같은 것을 개발하며 회사에 큰 수익을 안겨주면서 그 자신도 승진했다. 지금은 타깃 본사가 있는 미니애폴리스 교외의 저택에서 산다.

2.

2010년 10월에 워싱턴 D.C.에서 열린 '예측 분석법 컨퍼런스(Predictive Analytics World Conference, PAW)'에서 폴은 발표자로 등장했다. 그는 타깃이 빅 데이터를 마케팅에 어떻게 활용하고 있는지에 대해 45분에 걸쳐 발표했다. 자신감 넘치는 태도로 타깃의 마케팅 방법을 자세히 설명했는데, 내가 보기에는 기업 비밀에 해당할 만한 내용도 있다. 그의 발표는 이곳에서 볼 수 있다. 빅 데이터를 통한 예측 분석이나 이를 활용한 마케팅에 관심 있는 사람은 <뉴욕 타임스> 기사와 앤드루 폴의 발표를 자세히 보면 상당한 도움을 받을 수 있을 것이다.

이 발표의 후반에 폴은 '임신-예측 모델'에 대해 잠깐 언급한다. 이러한 모델을 적용한 결과, 마케팅 홍보물을 보낼 목표가 되는 고객을 30% 더 확정할 수 있었다고 한다. 이 부분에서 폴이 보인 슬라이드는 다음의 것이다.




이 발표에서는 이처럼 타깃이 어떻게 여러 데이터를 통합하여 마케팅 전략을 수행하고 있는지가 제시되었는데, '임신 여고생' 같은 실제 사례는 나오지 않는다.

이 컨퍼런스를 조직한 예측 분석법 전문가 에릭 시겔은 2013년에 펴낸 베스트셀러 <예측 분석법: 누가 클릭하고 구매하고 거짓말하고 죽을 것인가에 대한 예측의 위력(Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die)>에서 이 상황을 다음과 같이 묘사하고 있다:


2010년 PAW 컨퍼런스의 대회 책임자였던 나는 앤드루 폴을 연사로 초청했다. 폴은 타깃에서 다양한 예측 분석법(PA) 프로젝트를 수행하는 직원 수십 명을 관리한다. 그해 10월에 열린 컨퍼런스에서 폴은 타깃의 광범위한 PA 적용에 대해 뛰어난 발표를 했다. 그는 무대를 장악하고 청중과 역동적으로 교류했으며, 자세한 사례, 흥미로운 이야기, 의미 있는 사업 결과를 공개하면서 객석을 흥분하게 만들었다.

발표가 끝나갈 무렵에 폴은 고객의 임신을 예측하는 프로젝트에 대해 설명한다. 한 가족이 출산을 준비할 때 엄청난 구매가 발생한다는 점을 고려하면, 이러한 프로젝트의 마케팅 잠재력에 대해 쉽게 짐작할 수 있다.

그러나 이것은 상당히 낯선 이야기였다. 나는 객석으로 머리를 돌려서, 관객 반응이 어떤지 살펴보았다. 조용. 고요. 청중의 반응은 완전히 제로였다.


책에 따르면, 폴의 발표는 뛰어났으나 임신-예측 모델을 설명할 때 청중은 인상적이라는 반응을 전혀 보이지 않았음을 알 수 있다.

3.

역시 위 책에 실린 시겔의 설명에 따르면, 컨퍼런스가 있은 뒤 몇 달 뒤에 <뉴욕 타임스> 기자 찰스 두히그가 그를 인터뷰하러 왔다. 두히그는 예측 분석법과 관련해 인상적인 사례가 없느냐고 물었는데, 시겔은 폴의 임신-예측 모델을 포함해 몇 가지 사례를 일러 주었다. 그 때까지만 해도 이 모델에 대한 대중적 관심은 거의 없었다. 시겔은 두히그 기자에게 폴을 소개해 주었다.

4.

두히그는 시겔을 인터뷰하고 폴을 소개받은 지 1년 만인 2012년 2월에 <뉴욕 타임스 매거진> 1면에 관련 기사를 펴냈다. 사실 이 기사는 많은 (한국) 사람이 오해하듯 빅 데이터의 엄청난 잠재력만을 서술한 것은 아니다. 기사의 초점은 그보다는 이러한 마케팅이 가져올 부정적인 영향을 살펴보는 것에 맞춰져 있다. 기사 제목이 '기업들은 어떻게 당신의 비밀을 파악하는가'인 것을 상기해 볼 필요가 있다. 그와 같은 부정적 사례 중 하나로 문제의 '임신 여고생' 사례가 들어갔다. 비교적 자세히 서술된 이 사례가 어떻게 취재된 것인지는 나오지 않는데, 아마 폴에게 이야기를 듣고 보충 취재를 했을 것이다.

당연한 일이겠지만, 이 기사가 나가고 난 뒤 타깃을 비롯한 기업들의 빅 데이터 마케팅과 여고생 사례에 대한 관심이 갑자기 폭발했다. 그래도 아직까지는 점잖은 편이다. 이 기사의 제목이 비교적 평이하다는 점을 다시 상기해 보자.

5.

이후 이 기사를 인용하며 쓴(받아 쓴) 다른 매체 기사들은 여고생 사례를 부각하며 자극적인 제목을 붙이기 시작한다. 대표적인 것이 <포브스>의 기사(?)인 '타깃은 10대 소녀가 임신한 것을 어떻게 아빠보다 먼저 알아냈나'다. 솔깃한 제목과 자극적인 사례 부각, 그리고 짤막한 길이 때문이겠지만, 이 기사는 엄청나게 공유되며 관심을 끌었다. 그러나 이 기사는 <뉴욕 타임스>의 내용에 (약간의 비꼼을 제외하면) 아무런 새로운 내용을 붙이지 않았다. 그나마 출처를 아주 명확히 제시하는 기본은 지키고 있다는 것이 다행이라면 다행이다. 똑같이 흥미 위주로 재생산한 기사들이면서도 한국 기사들과 갈리는 부분이기도 하다.

결론적으로, 임신한 여고생의 아빠가 타깃을 찾아와 항의하다가 체면이 구겨지게 됐다는 것은 사실이라고 할 수 있겠다. 그러나 많은 사람의 생각과는 달리, 이런 사례가 '타깃이 고객의 임신을 정확히 알아맞힌다'는 것을 의미하지는 않는다. 즉 문제는 다시 원점으로 돌아간다. 타깃에서 이러한 작업을 수행한 앤드루 폴은 통계학 전공자이다. 통계에서는 분석을 통한 결론을 이런 식으로 표현하지 않으며, 폴의 주장도 마찬가지다.

이 부분에 대해서, 그리고 좀더 생각해봐야 할 다른 부분에 대해서는 다음 글에서 계속.



Advertisement


 

덧글

  • Gatsby 2015/03/25 16:40 # 삭제 답글

    개인 블로그의 맞춤법 오기만으로도 충분히 부끄러운데 언론에 저와 같이 왜곡된 정보를 전하는 자들은 얼마나 부끄러울까요? 아니, 부끄러움이 없는걸까요?
  • deulpul 2015/03/26 22:30 #

    저도 궁금합니다. 보도에서 사실이 틀리는 문제는 흔히 빨리 보도하려는 데서 나오는 (어쩔 수 없는) 잘못으로 합리화하기도 하는데, 그것도 크게 잘못된 생각이지만, 이렇게 1년도 더 된 일을 쓰는데도 틀리는군요.
댓글 입력 영역



Adsense

Adsense2

구글 애널리틱스