본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다.
R을 활용한 탐색적 자료 분석(EDA, Exploratory Data Analysis)에 대해서 알아보겠습니다.
EDA는 아래의 3가지 사항에 대한 반복적인 순환입니다.
1. 데이터에 대한 질문을 만들어 냅니다.
2. 데이터를 시각화, 변환 및 모델링하여 1에 대한 답변을 찾습니다.
3. 질문을 수정하거나 새로운 질문을 만들기 위해 여러분이 배운 내용을 사용합니다.
EDA는 엄격한 규칙이 있는 공식 프로세스가 아닙니다. 무엇보다 EDA는 마음의 상태입니다. EDA의 초기 단계에서 생각나는 모든 아이디어를 자유롭게 조사해야 합니다. 이러한 아이디어 중 일부는 실현될 것이고 일부는 막다른 골목이 될 것입니다. 탐색이 계속되면서, 결국 작성하고 다른 사람들과 소통하게 될 몇 가지 생산적인 영역을 알게 될 것입니다.
EDA는 모든 데이터 분석에서 중요한 부분입니다. 질문이 플래터에 담겨 있더라도 항상 데이터 품질을 조사해야 하기 때문입니다. 데이터 정리는 EDA의 한 응용 프로그램일 뿐입니다. 데이터가 기대치를 충족하는지 여부에 대해 질문합니다. 데이터 정리를 수행하려면 EDA의 모든 도구(시각화, 변환 및 모델링)를 배포해야 합니다.
전제 조건
R을 활용한 탐색적 자료 분석에서는 dplyr과 ggplot2에 대해 배운 내용을 결합하여 대화식으로 질문하고 데이터로 답변한 다음 새로운 질문을 던집니다.
library(tidyverse)
Questions
탐색적 자료 분석의 목표는 데이터에 대한 이해를 높이는 것입니다. 이를 수행하는 가장 쉬운 방법은 조사를 안내하는 도구로 질문을 사용하는 것입니다. 질문을 할 때 질문은 데이터 세트의 특정 부분에 집중하고 수행할 그래프, 모델 또는 변환을 결정하는 데 도움이 됩니다.
탐색적 자료 분석은 근본적으로 창조적인 과정입니다. 그리고 대부분의 창의적인 프로세스와 마찬가지로 양질의 질문을 하는 핵심은 많은 양의 질문을 생성하는 것입니다. 데이터 세트에 어떤 인사이트가 포함되어 있는지 모르기 때문에 분석을 시작할 때 공개적인 질문을 하는 것은 어렵습니다. 반면에 새로운 질문을 할 때마다 데이터의 새로운 측면이 노출되고 발견할 가능성이 높아집니다. 찾은 내용을 바탕으로 각 질문에 새로운 질문을 추가하면 데이터에서 가장 흥미로운 부분으로 빠르게 접근하고 생각을 자극하는 질문 세트를 개발할 수 있습니다.
어떤 질문을 해야 하는지에 대한 규칙은 없습니다. 하지만, 아래 두 가지 유형의 질문은 데이터 내에서 인사이트를 발굴하는 데 유용합니다.
1. 변수 내에서 어떤 유형의 변형 발생 가능성의 존재
2. 변수 간의 상관성 존재 여부
R을 활용한 탐색적 자료 분석에서는 이 두 가지 사항에 대해서 살펴볼 것입니다. 변이와 공변이 무엇인지 설명하고 각 질문에 답하는 몇 가지 방법을 보여 드리겠습니다. 토론을 쉽게 하기 위해 몇 가지 용어를 정의해 보겠습니다.
- 변수(Variable)는 측정할 수 있는 수량, 품질 또는 속성입니다.
- 값(Value)은 측정할 때의 변수의 상태입니다. 변수의 값은 측정에 따라 변경될 수 있습니다.
- 관찰(Observation)은 유사한 조건에서 이루어진 일련의 측정입니다. 관찰에는 각각 다른 변수와 연결된 여러 값이 포함됩니다.
- 테이블 형식 데이터(Tabular)는 각각 변수 및 관찰과 연결된 값들의 집합입니다. 테이블 형식 데이터는 각 값이 자체 "셀"에, 각 변수가 자체 열에, 각 관찰이 자체 행에 있으면 깔끔합니다.
'R 프로그래밍 > R을 활용한 탐색적 자료 분석' 카테고리의 다른 글
탐색적 자료 분석(공변량2) (0) | 2021.09.30 |
---|---|
탐색적 자료 분석(공변량1) (0) | 2021.09.29 |
탐색적 자료 분석(결측치 처리) (0) | 2021.09.28 |
탐색적 자료 분석(일반적 값 VS 비정상적인 값) (0) | 2021.09.27 |
탐색적 자료 분석(변수 분포 탐색) (0) | 2021.09.26 |
댓글