본문 바로가기 대메뉴 바로가기

K-클럽 K-클럽

스토리

연구 노하우, 직장생활 등 일상 속 경력개발 이야기를 공유해보세요.

  • 김태종
  • 2025.10.07 14:07:10
  • 추천수
  • 조회수 54
  • 댓글 작성수 2

□ 2022년 3월, 영국에서 날아온 기적 같은 이메일


2022년 3월 어느 날 아침, 한국과학기술정보연구원 과학데이터교육센터에 출근한 후 평소와 다름없이 이메일을 확인하고 있었다.

그런데 낯선 메일 한 통이 눈에 들어왔다. 발신자의 소속은 "Lancaster University, UK". 영국 랑카스터 대학교? 내가 아는 사람이 없는데...

설마 스팸 메일? 하지만 제목에 내 이름이 적혀 있었다. 떨리는 마음으로 메일을 열어본 순간, 믿을 수 없는 문장들이 펼쳐졌다.


"안녕하세요 김태종 박사님. 바쁘실텐데 이렇게 갑작스럽게 연락드려서 죄송합니다. 저는 영국 랑카스터 대학교 부교수입니다.

2018년 이후로 빅카인즈(Bigkinds)와 넷마이너(NetMiner)를 활용하여 출간하신 보고서들과 논문들을 관심있게 읽어보았습니다.

테크니컬한 분석 뿐 아니라 분석결과를 바탕으로 제시해주시는 사려깊은 제언들도 인상깊었습니다."


갑자기 가슴이 짠한 느낌이었다. 내가 "그 따위 연구"라고 무시당했던 토픽 모델링 분석이, 지구 반대편 영국의 학자에게는 가치 있는 연구로 보였다는 것.

그리고 온라인 원격교육 담론 분석 프로젝트에 함께 참여해 달라는 공동연구 제안까지.

1회차에서 이야기했던 그 서러움이, 이 한 통의 이메일로 눈 녹듯 사라지는 기분이었다.


[그림1] 영국에서 날아온 기적 같은 이메일 (Image generated with Gemini 2.5 Flash Image)

[그림1] 영국에서 날아온 기적 같은 이메일 (Image generated with Gemini 2.5 Flash Image)


□ "영어 논문은 자신 없습니다"라고 고백한 첫 답장


얼마 동안 책상 앞에 앉아 답장을 고민했다.

교수님은 한국분이셨기에 한국어로 소통하는 것은 문제없었다. 하지만 국제 공동연구라면 결국 영어 논문을 써야 할 텐데, 나는 영어 논문 작성 경험이 전무했다.

그동안 쓴 논문들은 모두 한국어였고, 영어로 학술 논문을 작성한다는 것은 완전히 다른 차원의 일이었다.


고민 끝에 솔직하게 답장을 보냈다.

"저는 2019년 8월에 교육학 박사학위를 받은 초보 연구자입니다. 여러모로 부족한 점이 많지만,

교수님 연구에 조금이나마 도움이 될 수 있다면 함께 참여할 의향이 있습니다.

다만, 제가 영어로 읽고 쓰는 데에 익숙하지 않은 부분에 대해 사전에 양해 말씀 드립니다."


거절당할까봐 두려웠다. 국제 학술지에 게재할 연구인데 영어 논문도 제대로 못 쓰는 사람과 누가 함께 하려고 할까.

하지만 교수님의 답장은 따뜻했다.

"박사님께서 함께 해 주시면 한국어데이터와 문헌도 포함할 수 있고

또 분석부분에서 도움을 주시면 영문 커뮤니케이션 부분은 제가 맡아서 하면 될 것 같아요."


그 순간 깨달았다. 진정한 협업이란 서로의 약점을 비난하는 것이 아니라, 서로의 강점으로 약점을 보완하는 것임을.

나의 강점은 바로 토픽 모델링 분석이었다.



□ 나의 무기, 토픽 모델링: AI가 텍스트의 숨은 이야기를 찾아내는 방법


본격적인 연구를 시작하기 전에, 먼저 내가 사용하는 무기에 대해 이야기하고자 한다.

토픽 모델링 분석(Topic Modeling Analysis) 방법, 특히 내가 사용하는 LDA(Latent Dirichlet Allocation, 잠재 디리클레 할당) 기법은

인공지능, 정확히는 머신러닝(Machine Learning)의 비지도학습(Unsupervised Learning)을 활용한 분석방법이다.

그래서 이 연재 시리즈 제목을 '늦어도 괜찮아, AI로 길을 찾았으니까'로 정한 이유이기도 하다.


토픽 모델링을 간략하게 설명하면 다음과 같다. 상상해보자. 도서관에 수만 권의 책이 무작위로 쌓여 있다.

이 책들을 주제별로 분류하고 싶은데, 일일이 다 읽어볼 시간은 없다. 이때 토픽 모델링 AI를 활용하면,

컴퓨터가 책 속의 단어들을 분석해서 자동으로 주제를 찾아내고 분류해준다.


예를 들어, 어떤 책들에서 '야구', '홈런', '투수', '타자'라는 단어가 자주 함께 나타난다면, AI는 이 책들이 '야구'라는 주제로 묶일 수 있다고 판단한다.

다른 책들에서 '요리', '레시피', '재료', '맛'이 자주 나타난다면, '요리'라는 또 다른 주제로 분류한다. 사람이 일일이 "이건 야구 책이야",

"저건 요리책이야"라고 지시하지 않아도, AI가 데이터 속에서 스스로 패턴을 발견하는 것이다. 이것이 바로 '비지도학습'의 핵심이다.


내가 분석하는 것은 책이 아니라 뉴스 기사나 논문 초록이다.

수천, 수만 건의 텍스트 속에서 토픽 모델링 AI는 어떤 주제들이 담론을 형성하고 있는지, 시간에 따라 어떤 주제가 부상하고 쇠퇴하는지를 보여준다.

2회차 글에서 이야기했던 17,735건의 평생교육 뉴스, 3회차 글의 47,816건의 코로나19 뉴스를 내가 일일이 읽고 분류할 수는 없었다.

하지만 토픽 모델링 AI는 할 수 있었다.


물론, AI가 모든 것을 알아서 해주는 것은 아니다.

2회차 글에서 말했던 데이터 정제 작업, 정의어·유사어·제외어 사전 작성, 그리고 가장 중요한 것은 AI가 도출한 키워드 뭉치들을 보고

그것이 의미하는 바를 해석하는 것. 이 모든 과정에는 연구자의 판단과 통찰이 필요하다.

AI는 매우 유능하고 협력적인 파트너지만, 최종적으로 판단하고 의미를 부여하는 것은 인간의 몫이다.


[그림2] AI가 텍스트의 숨은 이야기를 찾아내는 방법 (Image generated with Gemini 2.5 Flash Image)

[그림2] AI가 텍스트의 숨은 이야기를 찾아내는 방법 (Image generated with Gemini 2.5 Flash Image)


□ 일주일 만에 500회 돌린 토픽 모델링


2022년 4월 어느 날, 카이스트 인근 카페에서 교수님을 처음 만났다.

커피를 마시며 연구 계획을 논의했다. 한국 사회의 원격교육 담론을 분석하는 연구였다.

2019년부터 2021년까지 3년간의 뉴스 데이터를 대상으로 하되,

코로나19 팬데믹 전후로 원격교육에 대한 사회적 담론이 어떻게 변화했는지를 밝혀내는 것이 목표였다.


그날 저녁부터 본격적인 작업이 시작되었다. 먼저 검색어를 정교하게 만들어야 했다.

교수님께서 제안하신 검색어에 나는 '비대면 교육', '사이버 학습' 등을 추가했다. 뉴스 제목만 검색할지, 본문까지 포함할지도 고민했다.

본문까지 검색하면 8만여 건이 수집되었지만 컴퓨터 모니터 리뷰나 운세 같은 불필요한 기사가 과도하게 포함되었다.

결국 제목으로만 검색했을 때 약 1만 건의 의미 있는 데이터를 수집할 수 있었다.


교수님께서 이틀에 걸쳐 9,632건의 뉴스 제목을 하나하나 검토하셨다.

"끝으로 갈수록 눈하고 손가락이 많이 아팠습니다"라는 메일을 받고 죄송하면서도 감사했다. 덕분에 데이터가 한층 더 정제되었다.


이후 본격적인 토픽 모델링 분석이 시작되었다.

1차 분석 결과를 보내드리고, 교수님께서 키워드들을 검토하시고 사전을 수정해 보내주시면, 나는 다시 분석을 돌렸다.

2차 분석에서는 TF-IDF를 적용하지 않았더니 '코로나', '교육', '원격' 같은 공통 키워드가 모든 토픽에 중복되어 나타났다.

교수님께서 "TF-IDF를 적용하는 편이 훨씬 나은 것 같아요"라고 하시자, 나는 즉시 3차 분석을 수행했다.


연도별로, 토픽수를 바꿔가며, 알파값을 조정하며, 끊임없이 분석을 반복했다. 4차 분석 결과를 보내드리면서 이렇게 썼다.

"저도 토픽 모델링을 1주일 동안 500회 가까이 돌린 것 같습니다." 교수님의 답장이 왔다. "500회;;; 박사님 너무 너무 수고하셨어요."


하지만 전혀 힘들지 않았다. 오히려 설렜다. 내가 갈고닦은 단 하나의 기술로, 세계 무대에 설 수 있는 연구를 만들어가고 있었으니까.

토픽 모델링 AI와 나는 마치 한 팀처럼 호흡을 맞춰가며, 한국 사회의 원격교육 담론이라는 거대한 퍼즐을 맞춰나가고 있었다.


[그림3] 일주일 만에 500회 돌린 토픽 모델링 (Image generated with Gemini 2.5 Flash Image)

[그림3] 일주일 만에 500회 돌린 토픽 모델링 (Image generated with Gemini 2.5 Flash Image)


□ 귀멸의 칼날 '젠이츠'처럼: '번개의 호흡, 제1형'만으로


이 즈음 나는 잠깐씩 일본 애니메이션 '귀멸의 칼날'을 보며 힘을 얻고 있었다.

그 중 한 캐릭터가 유독 내 마음에 와닿았다. 아가츠마 젠이츠. 그는 번개의 호흡 기술 중 제1형밖에 쓰지 못한다.

다른 동료들은 여러 기술을 구사하는데, 젠이츠는 단 하나의 기술만 구사할 수 있었다.

하지만 그는 과거 스승으로부터 "기술을 하나밖에 사용하지 못하더라도 그것을 끝까지 관철하라"는 가르침을 받았고,

그 한 가지 기술을 끊임없이 연마해 누구에게도 뒤지지 않는 전투력을 갖췄다.


[그림4] 귀멸의 칼날 '젠이츠'처럼 (Image generated with Gemini 2.5 Flash Image)

[그림4] 귀멸의 칼날 '젠이츠'처럼 (Image generated with Gemini 2.5 Flash Image)


나도 젠이츠와 동질감을 느꼈다. 다른 연구자들은 설문조사, 회귀분석, 구조방정식, 실험연구, 질적연구 등 다양한 방법론을 구사한다.

하지만 나는 토픽 모델링 분석 하나에 집중해서 분석한다. 그것도 가장 기본적인 LDA 기법만. 코딩도 못하고, 노코딩 툴인 넷마이너에 의존한다.

그래도 괜찮다. 이 한 가지 기술만큼은 누구에게도 지지 않을 자신이 있으니까.


데이터를 정제하는 방법, 사전을 만드는 노하우, AI가 도출한 키워드들 속에서 의미를 읽어내는 통찰력,

그리고 원문 기사들을 하나하나 확인하며 맥락을 파악하는 끈기. 이 모든 것이 나의 '번개의 호흡 - 제1형'이었다.


[그림5] 나의 '번개의 호흡 - 제1형' 토픽 모델링 (Image generated with Gemini 2.5 Flash Image)

[그림5] 나의 '번개의 호흡 - 제1형' 토픽 모델링 (Image generated with Gemini 2.5 Flash Image)


□ SSCI 저널로 가는 길: 생애 첫 국제 학술지 도전


2022년 4월 15일, 국제 학술대회 PCF10(The Tenth Pan-Commonwealth Forum on Open Learning)에 논문이 제출됐다.

영어 논문 작성은 교수님께서 주도하셨고, 나는 데이터 분석과 방법론 섹션을 담당했다. 5월, 발표 승인 통지를 받았다.

한 리뷰어의 평가가 인상적이었다.

"This is an excellent paper for many reasons. It is clearly written... I think it has a unique and valuable contribution to make."


9월에 열린 학술대회에서 교수님께서 직접 발표하셨고, 나는 대전에서 그 소식을 기다렸다.

발표가 성공적으로 끝났다는 연락을 받았을 때, 마치 내가 직접 현장에 있는 것처럼 가슴이 벅찼다.


[그림6] 국제학술대회 PCF10 발표 논문

[그림6] 국제학술대회 PCF10 발표 논문


진짜 도전은 여기서부터였다.

SSCI 저널 IRRODL(The International Review of Research in Open and Distributed Learning)에 논문을 투고하기로 한 것이다.

2023년 5월, 교수님을 통해 편집장의 심사결과 이메일을 받았다.

"Congratulations! I am pleased to inform you that your article has been accepted for publication..." 수정후 게재.

수정 요청사항을 확인하니, 방법론 부분에 대한 보완이 필요했다.

리뷰어가 토픽 모델링의 세부 파라미터와 결과값의 의미를 명확히 해달라고 요청했다.


나는 며칠 밤을 새워 꼼꼼하게 수정했다.

LDA 알고리즘을 처음 제안한 Blei 교수의 2003년 원논문을 다시 확인하고, 결과값이 빈도가 아닌 출현확률(Probability)임을 명확히 했다.

6월 10일 수정된 논문을 제출하고, 6월 13일 최종 승인을 받았다.

생애 첫 SSCI 논문. 43살에 연구자의 길을 시작한 내가, 영어 논문 작성도 서툰 내가, 토픽 모델링 분석 하나만으로 이뤄낸 성과였다.


[그림7] SSCI 저널 IRRODL 게재 논문

[그림7] SSCI 저널 IRRODL 게재 논문


□ 하나의 AI 기술이 열어준 학문의 세계


2023년 7월, 함께 연구했던 교수님께서 서울대학교 교수로 임용되셨다는 소식을 들었다.

2025년 현재, 나와 함께 두 번째 SSCI 논문을 쓴 또 다른 분도 국립경북대학교 교수가 되셨다.

물론 그분들의 임용은 전적으로 그분들의 뛰어난 역량 덕분이다.

하지만 나와의 공동연구가 그 연구 업적의 0.001%라도 기여했다면, 그것만으로도 충분히 보람이 있었다.


돌이켜보면 나는 줄곧 부족한 연구자였다.

코딩도 못하고, 영어 논문 쓰기 어려워하고, 다양한 방법론을 구사하지 못하는. 하지만 단 하나, 토픽 모델링 분석만큼은 끊임없이 갈고 닦았다.

이 하나의 AI 기술이 나를 한국청소년정책연구원으로, 한국과학기술정보연구원으로, 그리고 국립기상과학원으로 이끌었다.

언론학과 교육학을 공부한 내가 과학기술 분야에서 일할 수 있게 된 것도, 이 기술 덕분이다.


어떤 이들은 여전히 "그 따위 것"이라고 말할지 모른다. 하지만 나는 안다.

세상 어딘가에는, 지구 반대편 영국 같은 곳에는, 내 연구의 가치를 알아보는 사람들이 있다는 것을.

젠이츠가 번개의 호흡 - 제1형만으로 강해졌듯, 나는 토픽 모델링 하나로 글로벌 연구자들과 함께 할 수 있다.

늦어도 괜찮다. 부족해도 괜찮다. AI와 함께, 내게 연구에 대한 호기심과 열정만 있다면.


[그림8] 하나의 AI 기술이 열어준 학문의 세계 (Image generated with Gemini 2.5 Flash Image)

[그림8] 하나의 AI 기술이 열어준 학문의 세계 (Image generated with Gemini 2.5 Flash Image)




(다음 회에서 계속됩니다.)

댓글2
댓글목록 - 작성자, 제목, 등록일시 정보제공
작성자 제목 등록일시 삭제
집나온달팽이
유익하게 잘봤습니다
새글
2025.10.20 08:15:59
김태종
@집나온달팽이  흥미롭게 봐 주셔서 감사합니다~^^
새글
2025.10.20 13:53:41
로그인 후 댓글을 작성해주세요.로그인