관련기사 등록
검색섹션
검색영역
기사등급
기사형태
검색영역
검색단어 또는
관련기사 검색결과 리스트
관련기사 검색결과 리스트 컨텐츠
검색된 정보가 없습니다.
관련기사 검색결과 리스트
관련기사 검색결과 리스트 컨텐츠
검색된 정보가 없습니다.
게시글 상세보기
정보

2020/03/23 인터뷰 > 학생 중요기사

제목

김지후 학생, AI로 전 세계 코로나19 확산 방지...코로나바이러스 데이터셋 제작

미국 존스홉킨스대 중국의 코로나19 데이터보다 상세하다는 평가

정연

URL복사/SNS공유

http://admission.hanyang.ac.kr/surl/pqWJB

내용

신종 코로나바이러스 감염증(코로나19)로 어려움을 겪는 지금, 자신의 재능을 통해 사회에 좋은 영향력을 끼친 사람이 있다. 바로 김지후(컴퓨터소프트웨어학과 석사과정) 씨다. 김 씨는 코로나바이러스 데이터셋을 개발했다. 데이터셋을 활용해 관련 데이터에 대한 다양한 작업이 가능하다. 특히 김 씨는 해당 데이터셋을 전 세계에 배포해 많은 데이터 분석가들로부터 주목을 받았다. 코로나19로 힘든 시기에 김 씨의 데이터셋이 많은 이들에게 도움이 되고 있다.
 
▲ 김지후(컴퓨터소프트웨어학과 석사과정) 씨가 코로나바이러스 데이터셋을 제작해 전 세계에 배포했다.

김 씨가 코로나19 분석에 도움이 되는 코로나바이러스 데이터셋을 설계했다. 데이터셋은 컴퓨터가 이해할 수 있게 저장된 데이터들의 집합체다. 김 씨는 질병관리본부에서 발표한 코로나19 관련 정보들을 분석 및 모델링하기 적합한 형태로 재가공했다. 김 씨가 정리한 데이터셋을 통해 자료의 시각화, 분석, 예측 등 다양한 작업을 할 수 있다. 확진자의 특성에 따라 군집 분석(관측 대상이 띠고 있는 다양한 특성의 유사성을 바탕으로 그 대상을 동질적인 군집으로 결합하는 일)을 하거나 확진자간의 사회적 관계를 알 수 있는 네트워크 분석도 가능하다. 앞으로의 확진자 수를 예측하는 데에도 용이하다. 현재 전 세계 데이터 과학자들과의 소통을 위해 영문화 작업을 거쳐 배포 중이다.
 
코로나19가 전세계에 확산하면서 심각성을 느낀 김 씨. 김 씨는 데이터 사이언스 전공자로서 사명감을 갖고 코로나19 데이터 분석을 시도했다. 그가 분석을 시작할 땐 데이터 분석에 필요한 데이터셋이 존재하지 않았다. 결국 김 씨는 ‘DS4C (Data Science for COVID-19)’라는 이름의 데이터셋 제작 및 분석 프로젝트를 진행했다. 흩어져 있던 코로나19 정보를 일관된 규칙에 따라 정리해 사용하기 쉽게 만들었다. 질병관리본부와 지자체 웹사이트에서 코로나 관련 정보를 크롤링(소프트웨어가 웹을 돌아다니며 유용한 정보를 찾아 특정 데이터베이스로 수집해 오는 작업)하고 데이터 품질을 높이기 위해 수작업 검토도 했다. 노력의 과정을 거쳐 지금의 코로나바이러스 데이터셋이 탄생했다.
 
▲ 김 씨가 개발한 데이터셋이 캐글(전 세계 데이터 과학자 커뮤니티) 내에서 큰 주목을 받고 있다. (캐글 제공)
 
김 씨는 자신의 데이터셋을 공유 문화가 활발한 깃헙(전 세계 개발자 커뮤니티)과 캐글(전 세계 데이터 과학자 커뮤니티)에 각각 배포했다. 캐글 내에선 등록한 지 일주일 만에 가장 인기 있는 데이터 1위로 선정됐고 현재도 꾸준히 상위권을 지키고 있다. 전체 순위는 캐글에 공개된 3만 개가 넘는 전체 데이터셋 중 50위일 정도로 많은 이들에게 주목받고 있다. 김 씨는 “전 세계 사람들이 관심을 주는 만큼 책임감을 갖고 끝까지 데이터셋을 완성하려 한다”고 밝혔다.
 
김 씨가 데이터셋을 전 세계에 배포한 이유는 무엇일까? 김 씨는 “첫 배포 당시, 전 세계적으로 봤을 때 한국이 코로나19로 굉장히 어려움을 겪고 있었다”며 “세계 곳곳에 뛰어난 실력을 갖춘 개발자들에게 도움을 요청하기 위해 배포했다”고 말했다. 이어서 “코로나바이러스 데이터셋을 구축해 배포하면 훗날 우리나라뿐만 아니라 다른 나라에도 도움이 되리라 생각했다”고 덧붙였다. 현재 다른 나라에서도 코로나19가 폭발적으로 유행하며 김 씨의 데이터셋은 많은 국가에 도움이 되고 있다.
 
해당 데이터셋의 영향력은 상당하다. 현재 캐글 웹사이트 내에서 많은 사람이 김 씨의 데이터셋을 활용해 정보를 분석하고 있다. 분석 프로그램을 따로 설치하지 않아도 캐글 사이트 내에서 코드만 입력하면 데이터 분석이 가능하다. 먼저 해외에서의 반응이 고무적이다. 프랑스의 한 데이터 분석가는 김 씨의 데이터셋 포맷을 따라 프랑스 코로나 데이터셋을 구축하고 있다. 다른 나라에서 인용할 정도로 가치가 뛰어남을 알 수 있다. 기업들도 김 씨의 데이터셋을 눈여겨 보는 중이다. 김 씨는 “데이터셋을 이용해 해커톤이나 분석 대회가 열릴 예정이며 기업에서 분석 프로젝트를 함께하자는 제안도 왔다”고 밝혔다.
 
▲ 김 씨는 데이터 전문가로서 데이터 활용도를 높이기 위해 노력할 계획이다. 

제작 과정에서 어려움도 존재했다. 지자체별로 코로나19 정보를 관리하는 현 시스템으로 인해 곳곳에 흩어져 있는 코로나19 데이터를 수집하는 데 고충이 있었다. 김 씨는 동료들과 함께 난관을 극복했다. 김 씨는 “확진자가 계속해서 증가해 혼자 작업하기 어려운 부분이 많았다”며 “동료들과 집단 지성을 이뤄 프로젝트를 성공적으로 진행할 수 있었다”고 말했다. 혼자가 아닌 동료들과 함께 이뤄낸 성과라는 점이 인상적이다.
 
김 씨는 앞으로도 데이터 전문가로서 자부심을 갖고, 데이터의 활용도를 높이기 위해 최선을 다할 예정이다. 유의미한 데이터를 더 개발해 캐글 내 데이터셋 마스터(캐글 내에서 유의미한 데이터셋을 배포하여 기여를 인정받은 경우 부여받는 칭호)가 되겠다는 목표도 갖고 있다. 끝으로 코로나19로 힘든 이들에게 응원의 말을 남겼다. 김 씨는 “어려운 시기에도 각자의 위치에서 열심히 노력하는 사회 구성원들을 보면 존경스럽다”며 “우리 모두 자신이 할 수 있는 일들을 해내며 힘든 고비를 잘 극복했으면 좋겠다”고 말했다. 


글/ 정연 기자                   cky6279@hanyang.ac.kr
사진/ 황희원 기자              whitewon99@hanyang.ac.kr
URL복사/SNS공유

기사댓글 0