어느 새 우리는 무기력하게 적응해버린 걸까요
찬비 "하늘이 높고 푸른 가을 🍁 당장 퇴근하고 싶네요 🤗"
|
|
|
안녕하세요! 에디터 찬비입니다.
이전 레터에서 할리우드 파업을 다루었는데요, 작가 파업의 결과에 대해 분석하는 이야기를 하던 팟캐스트에서 이런 이야기가 나오더라고요. 작가들은 AI를 만드는 회사에 가서 AI에 학습시킨 작업물에 대한 보상을 요구해야 한다고요. 무슨 말인가 했더니, 메타와 오픈AI에서 AI 모델에 학습시킨 것으로 유추되는 데이터셋에 저작권이 있는 출판물의 해적판이 포함되어 있었다고 하네요. AI 기업들은 데이터셋을 공개하지 않고 있지만, 더 좋은 성능을 위해 더 방대한 양의 데이터를 학습시켜야 하는 특성상 이러한 문제는 커지면 커졌지, 줄어들지는 않을 것으로 보입니다.
이런 뉴스를 접하면서 계속해서 비슷한 생각을 하게 됐어요. 빅테크와 AI 기업들이 올리고 있는 막대한 수익과 영향력, 과연 그 기반이 되는 데이터는 대체 누구의 것일까? 아직은 진행 중인 고민의 일부를 여기에 털어놓아봅니다. |
|
|
1. 내 데이터는 수집하지 말아줘
2. 구글이 시작한 '수탈의 사이클'
3. 과연 그게 우리에게 좋기만 할까? |
|
|
저의 개인적인 이야기로부터 시작해 보려고 합니다. 저는 학부에서 심리학을 전공했는데요, 당시에는 심리학 수업을 들으면 심리학 실험을 몇 개 이상 참여해야 했어요. 매 학기 그나마 쉽고 금방 끝나는 실험을 찾아다녔던 기억이 나요. 어떤 실험은 피곤하게 계속해서 무언가를 쳐다보고 클릭해야 했고, 어떤 건은 그냥 긴 서베이만 작성하면 됐기도 했어요. 그리고 그렇게 숙제처럼 한 것들은 누군가의 연구 논문의 기반이 되었겠죠.
심리학 연구를 할 때, 실험을 진행해 비교할 수 있다면 베스트이지만, 매번 실험으로 설계하는 것은 현실적으로 어렵기 때문에 자기보고식 서베이를 많이 활용하기도 했어요. 그때마다 저는 자기보고식 서베이의 신뢰도에 의문을 가졌습니다. 나도 내 마음을 잘 모르는 때가 많으니까요. 특히, 마케팅리서치에서 자주 묻는 ‘얼마까지 지불할 용의가 있는가?'에 대한 질문이 몹시 불편했습니다. 지금은 멋있는 척 높은 금액을 쓰더라도 실제 마주치게 되면 그 돈을 정말 내가 지불할까 싶더라고요.
그런 점에서 데이터로 일한다는 것은 저에게 너무나 매력적인 선지였습니다. 사람들의 노출과 클릭과 결제 등 모든 데이터가 수집되는 플랫폼에서 일하게 된다면 사람들의 행동을 누구보다 잘 관찰해 인사이트를 뽑아낼 수 있을 테니까요. 사람들의 행동 있는 그대로에서 어떻게 꾸며낼 수 없는 마음을 읽어내는 일을 하고 싶었어요. 한창 ⟪모두 거짓말을 한다⟫와 같은 책이 인기를 끌던 시기이기도 했고요. 그렇게 여차저차 해서 저는 데이터를 다루면서 사람들의 행동에서 인사이트를 뽑고 프로덕트를 개선하고 액션 아이템을 도출하는 일을 하게 되었습니다. |
|
|
그런데 오히려 그 시점부터 저는 모든 것에 굉장히 조심하게 되더라고요. 모든 마케팅 수신 동의 요청에 거절을 누르고, 애드블록을 쓰고, 앱 추적 요청에는 옵트아웃을 했어요. 데이터를 다루는 일을 하고 나니 수집될 수 있는 제 데이터에는 조심하게 된 거예요. 나도 모르는 사이에 내 데이터가 수집될 수 있고, 그것이 원치 않는 방식으로 이용될 수 있다는 걸 너무나 잘 알게 되었으니까요. 그랬기에 저는 어거스트의 첫 레터에서부터 데이터 투명성을 다뤄왔고, 최근에도 구글 지도가 수집하는 데이터 이야기를 했나 봅니다. 데이터를 다루는 사람이 오히려 데이터 수집을 두려워하게 되다니, 아이러니하죠?
이제는 각종 플랫폼이 우리에게서 다양한 데이터를 수집합니다. 플랫폼 회사들이 각광을 받는 이유 중에는 다양한 데이터를 수집할 수 있다는 점도 한몫 할 거라 생각해요. 그리고 이 점이 우리에게는 너무나도 당연해지던 이 시점, 챗GPT를 비롯한 대규모 언어 모델(LLM)의 출현으로 다시 한번 띵 맞은 느낌을 받게 되었어요. 온라인의 텍스트를 그대로 긁어다가 LLM에 학습시켰다는 것이 밝혀졌거든요. 위키피디아나 이미 저작권이 말소되어 온라인에 풀려있는 텍스트 이외에도 공개된 게시판에 작성한 글과 이미지 역시 학습되었을 가능성이 높다고들 이야기합니다.
위와 같은 우려는 코미디언이자 작가인 사라 실버맨을 비롯한 작가 3명이 오픈AI와 메타를 상대로 저작권 침해 소송을 제기하면서 확대되었어요. 원고들은 오픈AI가 ‘LibGen’, ‘Z-Library’, ‘Bibliotik’ 같은 불법 해적판 전자책 사이트를 사용해 AI를 학습시켰을 가능성이 높으며, 이 소스에서 원고들의 저작권 콘텐츠를 발견했다고 밝혔습니다. 이어 현지 시각 지난달 20일, 소셜·논픽션 작가 14천 명이 소속된 미국 작가 협회 역시 작가들의 저서가 같은 루트를 통해 LLM 학습에 사용되었다는 내용을 고발하는 소장을 뉴욕 남부 법원에 제출했기도 했어요. 이와 같은 문제를 제기한 애틀랜틱의 알렉스 레이스너는 “인공지능이 약속하는 미래는 훔친 단어로 쓰인다(The future promised by AI is written with stolen words)”고 비판하기도 했습니다.
저작권이 있는 텍스트도 학습되었다면, 그 외의 텍스트는 어떨까요? 메타는 최근 자사의 새로운 AI 가상비서에게 페이스북 및 인스타그램에서 전체 공개된 텍스트와 이미지의 일부를 학습시켰다고 밝혔습니다. 친구에게만 공개된 글이나 메신저의 내용은 담지 않았다고 하는데, 그럼에도 기분이 썩 좋진 않았습니다. 제가 어떤 플랫폼에 글과 사진을 공개적으로 올렸다는 것이 누군가가 그것을 가져다가 써도 된다는 의미는 아닌데, 인스타그램에 글과 사진을 올리면 그게 메타가 언어모델을 학습시키는 데에 써도 되는 데이터가 되어버리는 거니까요. 일론 머스크 역시 X(구 트위터)의 글을 xAI의 AI 모델에 학습하겠다고 이야기했고, 실제로 9월 1일 자로 서비스 이용 약관을 바꾸었다고 합니다. X를 사용하시는 분들 역시 머스크의 AI 개발에 기여하고 있다고 생각하셔도 되겠네요(?).
이쯤 되니 궁금해졌습니다. 내가 쓴 글은 아무리 플랫폼을 이용했다고 하더라도 플랫폼의 데이터가 아니라 내 데이터가 아닐까? 왜 나는 언젠가부터 나도 모르는 사이에 수집되는 데이터가 당연히 플랫폼의 것이라고 생각했을까? 하고요. 우리는 언제부터 우리의 데이터를 이렇게 포기하게 되었을까요? |
|
|
하버드 비즈니스 스쿨의 명예 교수인 쇼샤나 주보프의 책 ⟪감시 자본주의 시대⟫에서 제가 고민하던 문제에 조금 더 가까이 가닿을 수 있었는데요, 책의 내용 중 구글이 사용했던 ‘수탈의 사이클'에 대해 설명해 보려 합니다.
책의 전반부에서는 구글의 역사를 따라가면서 구글이 어떻게 대량의 데이터를 수집하면서 감시 자본주의* 체계를 완성할 수 있었는지를 이야기해요. 구글은 ‘세상을 연결한다'는 기치 아래 검색 서비스를 만들다가 닷컴버블이 터지면서 돈을 벌어야 할 필요성을 느끼게 됩니다. 그리고 그들이 수집하던 데이터를 활용해 사용자와 관련성이 있는 광고를 매칭하는 표적형 광고를 주요 비즈니스 모델로 하는 방향으로 회사를 틀게 됩니다.
이후로 구글이 출시했던 다양한 서비스들은 데이터 수집을 다양화하려는 일환이었다고 책에서는 이야기합니다. 지메일, 구글 스트리트 뷰, 모바일 운영체제인 안드로이드까지, 구글은 데이터 소스를 다양화하면서 최대한의 데이터를 확보할 수 있도록 노력합니다. 책에서 언급되어 기억이 났는데요, 혹시 과거에 인터넷 익스플로러를 사용하셨던 여러분, 구글 툴바를 기억하시나요? 인터넷 익스플로러에 설치하면 구글 검색을 쉽게 할 수 있었던 툴바가 알고 보니 사용자의 인터넷 활동 정보를 자사로 전송하고 있었다는 것이 밝혀졌었죠. 이 사실을 알고 후다닥 구글 툴바를 삭제했던 기억이 있는데요, 이 역시 구글이 사용자의 데이터를 닥닥 긁어모으는 방식의 일환이었다고 합니다. 사람들에게 직접적으로 알리고 동의를 구하면 수집할 수 있는 데이터가 적었겠죠? 하지만 아직 법적인 제재가 없었던 것을 십분 활용해 사용자들은 모르는 사이에 데이터를 최대한 모으는 것, 그것이 구글의 전략이었던 거죠. |
|
|
구체적으로 주보프 교수는 구글이 데이터를 수집한 방식을 ‘수탈의 사이클'이라고 명명합니다. 각 단계는 침입 → 습관화 → 각색 → 조준 변경으로 정의하는데요, 저는 이것이 우리가 어느 샌가 데이터에 대한 소유권을 포기하게 된 중요한 이유일 것이라 생각합니다. 침입은 일단 사용자들의 데이터를 어떤 방법으로든 수집하고 저항에 부딪힐 때까지 밀고 나가는 것입니다. 그리고 저항에서 비롯된 각종 소송이나 조사가 느리게 전개될 때, 서비스를 계속 발전시켜서 사람들이 “동의와 무력감, 체념이 뒤섞인 채 침입을 받아들이는 데 익숙(같은 책, 202쪽)" 해지도록 습관화시킵니다. 관행을 바꾸라는 압박을 받는다면 당면한 요구를 충족시킬 수 있는 정도로만 피상적으로 각색을 행하고, 막대한 예산을 바탕으로 유연하고 창의적인 방식을 통해 문제시된 작전을 딱 사회적·법적으로 충족될 수 있는 만큼만 조준 변경을 한다는 것이 주보프 교수가 이야기하는 수탈의 사이클이에요.
책에서 수탈의 사이클을 설명하기 위해 사용하는 예시는 놀랍게도 우리에게 너무나 익숙한 ‘구글 스트리트 뷰'입니다. 전 세계 골목의 풍경을 데이터베이스화했고, 이제는 너무나 많은 사람들이 자주 사용할 이 서비스는 초기에 다양한 저항에 부딪쳤다고 해요. 외부에 공개된 것이라고 해서 전 세계 사람들이 언제든 볼 수 있어야 하는 것은 아니니까요. 영국의 작은 마을에서는 아예 스트리트 뷰를 위해 데이터를 수집하는 차량을 들어오지 못하도록 막기도 했다고 해요. 하지만 당시 구글 지도 담당 부사장이었던 존 행키는 이러한 논란을 묵살해 버립니다(침입).
그리고 2010년, 독일 연방 데이터 보호 위원회는 구글 스트리트 뷰 차량이 사설 와이파이 네트워크로부터 개인 데이터를 비밀리에 수집하고 있다는 것을 발표합니다. 오프라인의 데이터를 최대한 수집하고자 하는 구글의 의도였겠죠. 이에 대해 유럽과 미국에서 실태 조사를 시작하자 구글은 한 엔지니어의 “실수"였다고 무마해버립니다. 이후 미국의 연방통신위원회는 구글에 필요한 정보를 여러 차례 요청하지만, 구글은 불완전한 정보와 비협조적인 자세로 응답하며 시간을 끌어요. 2012년에 시작된 조사는 별 성과 없이 연말에 이르러서 마무리되지만, 그동안 구글은 스트리트 뷰 서비스를 계속 운영하며 고객들이 서비스 이용에 익숙해질 수 있도록 합니다.(습관화)
그 후, 구글에서는 더 강력한 프라이버시 관리 방침을 발표하고, 사용자 프라이버시를 보장할 수 있도록 변하겠다고 약속하긴 합니다. 일부 국가에서는 이미지를 재촬영하기도 하고 이미지를 흐리게 처리해 달라고 요청한 25만 가구의 요청을 들어주기 위해 프로그래머를 임시로 고용하기도 합니다.(각색)
구글은 조준 변경 역시 시도합니다. 건물 내부의 지도를 그릴 수 있는 카토그래퍼라는 모바일 지도 제작 도구를 도입한 뒤, 사업체들에 ‘고객을 안으로 초대하라'고 설득합니다. 이러한 조준 변경을 통해서 건물 내부에도 사업체들이 자발적으로 촬영에 응할 수 있도록 하면서 더 많은 데이터 원천을 확보할 수 있게 되는 것이죠.
저는 이 대목을 읽었을 때 큰 충격을 받았어요. 구글의 스트리트 뷰나 국내 지도 앱의 로드뷰가 오프라인 데이터를 확보하려는 기업의 노력인 동시에 프라이버시 침해일 수도 있다고 생각하지 못했거든요. 결론적으로 약 20년 전부터 구글은 꾸준히 데이터 수집에 심여를 기울여왔고, 우리 역시 그때부터 우리의 데이터를 서서히 습관적으로 무기력하게 포기해 왔는지도 모르겠습니다. 그렇게 수집된 데이터는 우리의 행동을 예측하는 데에 쓰여왔던 것이죠.
그리고 현재, 온라인에 공개된 모든 데이터를 활용해 이제 AI 모델을 학습하고 상업적으로 이용하게 되는 시대에 다다랐습니다. 지금 쓰고 있는 이 레터도 온라인에 공개될 텍스트 데이터니 제 글인 동시에 모두가 AI에 학습시킬 수 있는 데이터셋이 되어버린 상황이네요. 놀라워라.
—
*책에서 소개하는 감시 자본주의는 아래와 같습니다.
“감시 자본주의는 일방적으로 인간의 경험을 공짜 원재료로 삼아 행동 데이터로 번역한다. 이 데이터 중 일부는 상품이나 서비스 개선에 활용되지만, 나머지는 사유화된 행동잉여로 분류되어 ‘기계 지능'이라고 알려진 고도의 제조공정에 투입되고, 당신이 지금, 혹은 장차 할 행동을 예상하는 예측 상품으로 만들어진다. 그리고 이러한 예측 상품은 행동의 예측이 거래되는 새로운 종류의 시장에서 거래된다. (...) 많은 회사가 우리의 미래 행동에 판돈을 걸려고 안달인 까닭에 감시 자본주의 사회의 자본가들은 이러한 거래를 통해 막대한 부를 쌓는다.” (⟪감시 자본주의 시대⟫, 31-32쪽) |
|
|
이 책의 앞부분에는 감시 자본주의가 도래하기 전까지, 지금과 확연히 다르던 인식을 보여주는 일화가 있습니다. 2000년, 조지아 공과대학교에서 ‘어웨어 홈'이라는 초기 IoT 서비스를 개발할 때, 과학자와 엔지니어들은 “새로운 지식과 그 지식을 활용해 생활을 귀속할 수 있는 권한은 오직 그 집에 사는 사람들에게만 귀속된다"는 가정을 전제하고 진행됐다고 해요. 이에 따라 어웨어 홈의 정보시스템은 단순한 폐쇄 회로로 구성되었으며, 프라이버시를 보장할 수 있도록 입주자에 의해서만 제어되도록 설계했습니다.
지금의 IoT는 클라우드로 연결되어 해당 회사의 데이터베이스에 저장됩니다. ‘서비스 이용 약관’을 통해서 우리는 이렇게 서버로 이동하는 것에 동의해야만 서비스를 이용할 수 있습니다. 그리고 그렇게 이동한 데이터는 우리의 행동을 예측하는 데에 쓰이겠죠. 이전에는 분명 우리가 만드는 데이터의 소유권은 우리였던 것 같은데, 어떻게 모두의 인식이 이렇게 바뀔 수 있었을지 놀라울 따름입니다.
저는 데이터로 서비스가 더 많은 것을 약속할 때, 이게 과연 좋은 것일까에 대한 의문이 듭니다. 예를 들어, 금융 거래가 거의 없어 관련 서류가 얇은 금융 고객인 ‘씬 파일러'들에게 다른 플랫폼의 데이터를 활용해 대출 상환 가능 여부를 판단할 수 있게 된다면 그건 씬 파일러에게 좋기만 한 일일까요? 내비게이션 애플리케이션을 활용해 운전 점수를 평가받고, 그에 따라 자동차 보험료 할인을 받을 수 있다면 그것은 사람들에게 좋은 일일까요? 마스 저커버그가 자랑했듯 “낯선 도시에 가게 되면 페이스북의 예측 모델이 적당한 술집으로 안내해 주고, 그 술집에 가면 바텐더가 당신이 가장 좋아하는 술을 준비해" 준다면 그건 좋은 일일까요?
2000년, 연방거래위원회에서는 위원 다수 의견으로 온라인 프라이버시 규제를 위한 입법을 권고하는 보고서를 발간합니다. 위원들은 이 보고서에서 ““명확하고 눈에 잘 띄게” 정보 처리 방식을 통지하고, 개인 정보가 어떻게 사용되는지를 소비자가 선택할 수 있게 하며, 수정 및 삭제 권리를 포함해 모든 개인 정보에 접근할 수 있게 하고, 개인 정보 보안을 강화할 것을 요구”했다고 합니다. 만약 이것이 법으로 제정되었다면 오늘날과 같은 데이터 수집 및 이용은 불법 행위가 되었거나 이루어지기 힘들었을 수도 있겠죠.
모두가 AI를 외치고, 추천과 초개인화가 핫한 키워드로 떠오르는 요즘 같은 시대, 학습에 사용된 그 데이터가 정말 적법하게 그 회사의 것인지, 회색지대를 과감히 자신의 이득을 위해 취해버린 기업들을 막을 방법은 없는 것인지에 대해 고민을 던져봅니다. 완결되지 않은 고민을 레터로 드리는 것에 망설임이 있었지만, 혹시 관련하여 의견이 있으시거나 추천할 자료가 있으시다면 피드백으로 감사히 받겠습니다. |
|
|
에디터 <찬비>의 코멘트
저는 이런 류의 프로그램에 관심 없는 줄 알았는데요… 하나를 시작하니 끝까지 보게 된 마법✨데블스 플랜 다 보고 나니까 그렇게 보드게임들이 하고 싶어지더라고요? 게임도 복잡하지만 잘 만들어서 중간중간 멈추며 저도 셈을 해보게 되기도 하더라고요. 서바이벌과 서사맛도리, 고루 있으니 얼른 시작하세요!
|
|
|
💌 협업문의 augustletter08@gmail.com
|
|
|
Written by Zoe • 구현모 • 후니 • 찬비 • 식스틴 • 나나 • 오리진
|
|
|
Copyright © AUGUST All rights reserved. 수신거부 |
|
|
|
|