연구 노하우, 직장생활 등 일상 속 경력개발 이야기를 공유해보세요.
□ 하이텔(HITEL), 내 첫 뉴스 데이터의 기억
[그림1] PC통신 하이텔 메뉴화면 (출처: https://namu.wiki/w/%ED%95%98%EC%9D%B4%ED%85%94)
‘삐-삐비비빅-치이익-’
혹시 이 소리를 기억하는 분이 있을까? 1991년, 전화기 수화기를 내려놓고 모뎀에 연결하면 들려오던 PC통신 접속음이다.
그 시절, 중학생이던 내게 아버지는 신문방송학도 출신답게 신세계를 보여주셨다.
컴컴한 방 안, 파란색 글씨가 깜빡이는 하이텔(HITEL) 화면을 가리키며 말했다.
"아들, 이게 바로 ‘카인즈(KINDS)’라는 거야. 신문사별로 기사를 다 모아놔서, 검색만 하면 원하는 뉴스를 다 찾아볼 수 있어.
앞으로는 이런 최첨단 툴을 쓰는 세상이 될 거란다."
신기했다. 10여 개의 종합일간지 기사가 데이터베이스로 쌓여있어, 더 이상 신문을 오려 붙이며 손바닥을 까맣게 만들지 않아도 됐다.
돌이켜보면 인생이란 참 신기하다. 그저 아버지가 보여주는 신기한 기술에 감탄하던 중학생 아이가,
30년 가까이 지나 그 기술의 후예와 씨름하며 새로운 길을 찾게 될 줄 누가 알았을까.
우리의 경험 중 쓸모없는 것은 하나도 없다는 말을, 나는 이때 어렴풋이 실감했다.
훗날 아버지의 바람대로 신문방송학과에 진학해 대학방송국(KNUBS) 국장으로 활동할 때,
웹(WWW) 세상에서 화려한 컬러 화면으로 다시 만난 카인즈는 리포트 작성을 위한 든든한 동료가 되어주었다.
군에서 공보담당 시절에는 매일 아침 가위와 풀로 만들던 뉴스 스크랩을 대체해주기도 했다.
그렇게 내 인생의 중요한 순간마다 함께했던 카인즈. 20여 년이 흘러, 낯선 연구자의 길에 들어선 마흔셋의 내가
첫 학술논문 주제 앞에서 헤매고 있을 때, 운명처럼 다시 ‘뉴스 데이터’와 마주쳤다.
교수님의 "뉴스 분석으로 논문을 써보는 게 어떤가?"라는 한마디에, 나는 잊고 있던 아버지와의 추억을 떠올렸다.
그래, 내가 가장 잘 아는 것, 내게 가장 익숙한 것은 바로 ‘뉴스’이지 않은가!
□ 가슴을 뛰게 한 문장, 그리고 17,735개의 벽돌
마침 그 무렵, 나는 한 권의 책에서 빅데이터에 대한 흥미로운 정의를 발견했다.
최진기 강사의 책 《한 권으로 정리하는 4차 산업혁명》에 나온 문장이었다.
‘빅데이터는 단순히 많은 양의 자료가 아닌, 사람의 마음을 읽음으로써 인간 행동의 결과를 예측하고
그것을 기반으로 인간의 행위를 변화시키는 기술이다.’
머리를 한 대 맞은 듯한 기분이었다. ‘사람의 마음을 읽는 기술’이라니!
데이터를 그저 차가운 숫자나 텍스트의 집합이 아닌, 인간의 마음을 들여다보는 창으로 바라보는 관점이
뼛속까지 문과생인 내 가슴을 뛰게 했다. 그의 정의에 감명받아, 나 역시 언론학도의 관점에서 뉴스 빅데이터에 대한 나만의 정의를 내렸다.
‘뉴스 빅데이터는 인간 사회의 담론을 읽는 기술로서,
과거를 기반으로 현재를 이해하고 미래를 예측함으로써 개인과 사회를 변화시키고 성장시킬 수 있는 힘이다.’
이것이 내가 이 연구를 통해 증명하고 싶은 가설이었다.
거창한 정의를 내리고 나니 어깨에 힘이 잔뜩 들어갔다. 하지만 희망에 부풀어 빅카인즈에서 데이터를 내려받고 엑셀 파일을 여는 순간,
그 힘은 순식간에 공기 빠진 풍선처럼 빠져버렸다.
17,735건.
‘사람의 마음’, ‘사회의 담론’ 같은 멋진 말들이 무색하게, 내 눈앞에 있는 것은 그저 끝도 없는 텍스트의 나열, 거대한 벽돌 더미와 같았다.
주변의 다른 박사과정 동기들은 능숙하게 코드를 짜고, 복잡한 통계 모델을 돌리고 있었다.
그들에 비하면 나는 구구단을 이제 막 뗀 학생이 미적분 문제를 마주한 것과 같았다.
‘역시 문과 출신은 안 되는 건가.’ 연구자로서의 자부심이 한순간에 무너져 내리는 기분이었다.
[그림2] 뉴스 데이터 수집 결과 (출처: 논문 '뉴스 빅데이터를 활용한 평생교육 담론 분석', 43쪽)
□ 쌀알을 골라내던 밤, 데이터와의 씨름
코딩과의 첫 만남이 처참한 실패로 끝났다는 이야기는 1회에서 이미 털어놓았다.
생애 첫 데이터 수집부터 거대한 벽에 부딪힌 것이다. 한참을 좌절하고 헤매던 끝에, 나는 ‘넷마이너’라는 마지막 동아줄을 잡았다.
코딩 없이 빅데이터를 분석할 수 있다는, 내게는 한 줄기 빛과도 같은 프로그램이었다.
넷마이너와 빅카인즈는 훌륭한 도구였지만, 기계가 모든 것을 해결해주지는 않았다.
‘데이터 전처리’ 또는 ‘데이터 클리닝’이라 불리는, 지난하고도 중요한 과정이 나를 기다리고 있었다.
이는 모든 데이터 분석 연구자들이 거쳐야 하는, 하지만 그 고됨은 잘 드러나지 않는 ‘보이지 않는 노동’이다.
이 작업은 단순히 기계적인 반복이 아니었다. 데이터와의 끊임없는 대화에 가까웠다.
정제 작업을 마치고 시험 삼아 분석을 돌려보면, 데이터는 어김없이 이상한 결과를 뿜어내며 내게 소리쳤다.
‘아직 멀었어! 이 단어는 무슨 뜻인지 모르겠다고!’ 그러면 나는 다시 엑셀 시트로 돌아가 수십만 개의 단어 속을 헤매며
데이터가 던지는 수수께끼를 풀어야 했다.
"이게 맞나? 이렇게 단어를 통일해도 괜찮은 건가?"
"이 단어를 지워도 될까? 나중에 결과가 이상하게 나오면 어떡하지?"
처음 해보는 작업이다 보니 모든 것이 불확실했다. 정답이 없는 길 위에서 끊임없이 스스로에게 질문을 던져야 했다.
마치 흙더미 속에서 쌀알을 하나하나 골라내듯, 나는 데이터 더미 속에서 의미 있는 단어들을 골라내는 작업을 반복했다.
누가 알아주지 않는 고독한 시간이었다. 하지만 포기할 수는 없었다. 이것이 나의 첫 번째 진짜 연구였으니까.
[그림3] 뉴스 데이터와의 씨름 (Image generated with Gemini 2.5)
□ 어둠 속에서 별자리를 찾다
몇 주에 걸친 데이터 정제 작업이 끝났다.
드디어 분석을 실행할 차례. 심호흡 한번 하고, 넷마이너의 ‘토픽 모델링’ 분석 버튼을 클릭했다.
몇 분쯤 흘렀을까. 내 눈앞에 놀라운 광경이 펼쳐졌다.
그저 무질서하게 흩어져 있던 수십만 개의 단어들이, 마치 밤하늘의 별들이 이어져 별자리가 되듯, 스스로 의미 있는 그룹을 만들어내고 있었다.
‘일자리-여성-경제-지원’, ‘지역-축제-문화-참여’, ‘노인-복지-건강-교육’… 데이터가 스스로 자신의 이야기를 들려주기 시작한 것이다.
‘아…!’
나도 모르게 짧은 탄성이 터져 나왔다. 그것은 단순한 지적 만족감을 넘어선, 일종의 구원이었다.
몇 달간 나를 괴롭히던 혼돈의 데이터가 드디어 내게 마음을 열고 비밀을 속삭여주는 듯한 기분.
나는 그 순간, 데이터 분석이 단순히 숫자를 다루는 기술이 아니라, 세상의 목소리를 듣는 ‘통역’의 기술임을 깨달았다.
연구를 시작하기 전, 내가 가슴속에 품었던 문장이 떠올랐다.
‘뉴스 빅데이터는 인간 사회의 담론을 읽는 기술이다.’
모니터에 떠오른 토픽들을 보는 순간, 나는 내가 썼던 이 문장의 의미를 비로소 온몸으로 깨닫고 있었다.
[그림4] 뉴스 데이터의 담론 읽기 (Image generated with Gemini 2.5)
나는 이 분석 결과를 바탕으로 내 생애 첫 학술 논문을 작성했다.
‘뉴스 빅데이터를 활용한 지역평생교육의 토픽 분석’. 학회에 논문을 제출하고 ‘제출’ 버튼을 누르던 순간의 떨림을 아직도 잊을 수 없다.
내 이름 석 자가 걸린 연구를 처음으로 세상의 평가 앞에 내놓는 순간이었다.
며칠 후, 심사 결과 메일이 도착했다. 심장이 철렁 내려앉는 기분이었다. 떨리는 손으로 파일을 열었다.
‘수정후 게재가’. 그리고 심사평이 적혀 있었다. 물론 논문의 전체적인 논리나 해석에 대한 날카로운 지적도 함께 있었다.
하지만 내 가슴을 뛰게 한 것은 따로 있었다.
“본 연구는 연구목적에 맞게 데이터를 수집하고 정제과정이 체계적이고 타당하여 연구 결과가 적절하다고 판단됨.”
심사위원 중 누구도 나의 데이터 수집 및 정제 과정에 대해서는 이의를 제기하지 않았다.
생애 처음으로 내 이름이 걸린 논문이, 그 방법론 만큼은 전문가들에게 인정을 받은 것이다.
코딩 한 줄 못 짜는 박사가, 데이터와 씨름하며 얻어낸 첫 번째 승리였다.
이 작은 성공은 내게 큰 용기를 주었다. ‘나도 할 수 있구나.’ ‘내 길이 틀리지 않았구나.’ 하지만 이건 정말 시작에 불과했다.
이 논문을 시작으로, 나는 더 깊고 넓은 데이터의 세계로 나아가야 했다. 그리고 곧, 데이터 분석보다 더 큰 난관이 나를 기다리고 있었다.
(다음 회에서 계속됩니다.)
작성자 | 제목 | 등록일시 | 삭제 |
---|---|---|---|
내가해냄 |
와 첫 논문의 심사평에서
데이터 수집, 정제 등 처리 과정에 대한 이의가 없었다는 점이 정말 대단하신거 같습니다!! 노력의 산물 |
2025.07.29 10:42:56 | |
김태종 |
많은 선배님들이 피땀흘려 개발하신 빅데이터 분석 시스템과 분석툴 덕분입니다. 저도 조금이나마 기여하고 싶습니다~ 응원해 주셔서 감사합니다~^^
|
2025.07.31 14:09:15 | |
만화 올리는 사람 |
2화도 너무 재밌게 봤습니다! 다음 편이 기다려지네요
|
2025.07.28 10:40:53 | |
김태종 |
흥미롭게 봐주셔서 감사합니다.다음 편도 기대해 주세요~^^
|
2025.07.28 14:48:16 | |
우아리 |
일단 추천 누르고 천천히 읽을게요~
|
2025.07.28 10:33:21 | |
김태종 |
긴 글인데도 추천해 주셔서 감사해요~^^
|
2025.07.28 14:47:29 | |
굿럭투미 |
말로 설명해주시는 것처럼 당시의 상황이 생생하게 느껴지는 것 같아요!
'우리의 경험 중 쓸모없는 것은 하나도 없다'는 말을 잘 새겨야겠습니다.. 다음 편도 기대하겠습니다! |
2025.07.23 13:50:45 | |
김태종 |
기대해 주셔서 감사합니다~^^
|
2025.07.28 14:46:51 |