본문 바로가기

통계.머신러닝.딥러닝/이론.기초.개념

데이터 전처리(Data Processing)는 무엇이며 왜 해야 하는가?

개념

실제의 업무나 활동에서 주어지는 원데이터를 바로 데이터 분석에 사용하지 못하는 경우가 많기 때문에 적합한 형태로 변형한 후에 분석하는 경우가 많다. 의미 없는 값이 포함되어 있을 수도 있고 실수로 인한 오타가 발생하는 등 오류가 포함되어 있기 때문이다[1][5].

'Gargabe in, Garbage out'

왜곡된 분석결과를 방지하기 위해 분석에 적합하게 데이터를 가공하여 데이터의 품질을 올리는 일련의 과정들을 '데이터 전처리'라 한다[1][5]. 유사한 말로 데이터 가공(Data Manipulation), 데이터 핸들링(Data Handling), 데이터 클리닝(Data Cleanging) 등이 있으며, 데이터 정제(cleaning), 누락치 대체(missing value imputation), 날짜 파싱 등의 작업들이 있다[1][2].

 

데이터 사이언티스트를 위한 "data enrichment" 플랫폼의 제공사인 CrowdFlower는 80명의 데이터 사이언티스트를 대상으로 2년 연속 설문을 수행하였다. 설문에 의하면 데이터 사이언티스트들은 데이터 마이닝이나 모델링이 아닌 데이터를 가공하는데 가장 많은 시간을 사용하는 것으로 나타났다. 이들은 데이터 클리닝하고 정리하는데 가장 많은 시간인 60%의 시간을 들이는 것으로 나타났으며, 데이터를 수집이 19%로 그 뒤를 이었다. 이는 오로지 데이터 분석을 위해 준비하고 처리하는데 80%의 시간을 들이는 것을 의미한다[3]. 

자료: Forbes

 

참고자료

1. 이진규. (2018.04.24). 데이터 전처리(Data Preprocessing). <https://rstudio-pubs-static.s3.amazonaws.com/382545_098d268806f449c496734236e0b97493.html>.

2. 전희원. (2014). R로 하는 데이터 시각화. 한빛미디어. pp. 54

3. Gil Press. (2016.05.23). Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says. Forbes. <www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#4aa1a6d06f63>. (2020.07.23.)

4. 사용자 Habii. (2019.11.26). 데이터 전처리의 단계. 티스토리. <https://habiis.tistory.com/78>. (2020.07.23.)

5. DATA@KU. (2019). 데이터 전처리. 고려대학교 디지털정보처. <https://data.korea.ac.kr/?p=2047>. (2020.07.23.)