본문 바로가기
R 프로그래밍/R을 활용한 탐색적 자료 분석

탐색적 자료 분석(변수 분포 탐색)

by 찐남 2021. 9. 26.
본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다.

 

변동(Variation)은 측정에서 측정으로 변하는 변수 값의 경향입니다. 실생활에서 쉽게 변동을 볼 수 있습니다. 연속형 변수를 두 번 측정하면 두 가지 다른 결과가 나타납니다. 이것은 빛의 속도와 같이 일정한 양을 측정하더라도 마찬가지입니다. 각 측정에는 측정할 때마다 달라지는 약간의 오류가 포함됩니다. 연속형 변수뿐만 아니라 다른 주제(예: 다른 사람의 눈 색깔) 또는 다른 시간(예: 다른 순간의 전자 에너지 수준)에 걸쳐 측정하는 경우 범주형 변수도 달라질 수 있습니다. 모든 변수에는 흥미로운 정보를 나타낼 수 있는 고유한 변형 패턴이 있습니다. 이 패턴을 이해하는 가장 좋은 방법은 변수 값의 분포를 시각화하는 것입니다. 

 



1. 변수 분포의 시각화

 

변수의 분포를 시각화하는 방법은 변수가 범주형인지 연속형인지에 따라 다릅니다.

 

1.1. 범주형 변수의 시각화

 

범주형 변수는 어떤 집합의 값들 중에서 하나만 사용할 수 있는 경우 입니다. R에서 범주형 변수는 일반적으로 요인 또는 문자형 벡터로 저장됩니다. 범주형 변수의 분포를 조사하려면 막대 차트를 사용하십시오.

 

ggplot(data = diamonds) +
____geom_bar(mapping = aes(x = cut))

 

막대의 높이는 각 x 값에서 발생한 관측값의 개수를 표시합니다. dplyr::count()를 사용하여 이러한 값을 수동으로 계산할 수 있습니다. 

 

diamonds %>%
____count(cut)

 



1.2. 연속형 변수의 시각화

 

연속형 변수는 순서가 지정된 무한 집합에서의 값을 취할 수 있는 경우 입니다. 숫자와 날짜-시간은 연속형 변수의 두 가지 예입니다. 연속형 변수의 분포를 관찰하려면 히스토그램을 사용하면 됩니다.

 

ggplot(data = diamonds) +
____geom_histogram(mapping = aes(x = carat), binwidth = 0.5)

 

dplyr::count() 및 ggplot2::cut_width()를 결합하여 이를 수작업으로 계산할 수 있습니다. 

diamonds %>%
____count(cut_width(carat, 0.5))

 

히스토그램은 x축을 동일한 간격으로 나눈 다음 막대의 높이를 사용하여 각 구간에 속하는 관측값의 수를 표시합니다.  위의 그래프에서 가장 높은 막대는 거의 30,000개의 관측치가 막대의 왼쪽과 오른쪽 가장자리인 0.25에서 0.75 사이의 캐럿 값을 가지고 있음을 보여줍니다. 

 

x 변수의 단위로 측정되는 binwidth 인수를 사용하여 히스토그램의 간격 너비를 설정할 수 있습니다. 히스토그램으로 작업할 때는 항상 다양한 binwidth를 탐색해야 합니다. 다른 binwidth는 다른 패턴을 나타낼 수 있기 때문입니다. 예를 들어, 크기가 3캐럿 미만인 다이아몬드만 확대하고 더 작은 binwidth를 선택할 때 위의 그래프는 아래의 그래프와 같이 전혀 다른 모양의 분포 형태를 보여줍니다.

 

smaller <- diamonds %>%
____filter(carat < 3)

ggplot(data = smaller, mapping = aes(x = carat)) +
____geom_histogram(binwidth = 0.1)

 

동일한 플롯에 여러 히스토그램을 오버레이하려면 geom_histogram() 대신 geom_freqpoly()를 사용하는 것이 좋습니다. geom_freqpoly()는 geom_histogram()과 동일한 계산을 수행하지만 카운트를 막대로 표시하는 대신 선을 사용합니다. 막대보다 겹치는 선을 이해하는 것이 시각적으로 훨씬 쉽습니다. 

 

ggplot(data = smaller, mapping = aes(x = carat, colour = cut)) +
____geom_freqpoly(binwidth = 0.1)

 

이러한 유형의 플롯에는 몇 가지 문제가 있습니다. 범주형 및 연속형 변수를 시각화할 때 다시 설명하겠습니다. 

 

이제 변동을 시각화할 수 있으므로 이런 시각화 자료에서 무엇을 찾아야 하는지 고민해 보아야 합니다. 그리고 어떤 유형의 후속 질문을 해야 하는지도 고민해 보아야 합니다. 각 정보 유형에 대한 몇 가지 후속 질문과 함께 그래프에서 찾을 수 있는 가장 유용한 정보 유형의 목록을 아래에 정리했습니다. 좋은 후속 질문을 하는 키는 당신의 호기심(무엇에 대해 더 알고 싶습니까?)과 회의론(어떻게 이것이 오도될 수 있습니까?)에 의존하는 것입니다. 

 

다음 포스팅에서는 일반적인 값과 비정상적인 값을 가지는 변수 분포에 대한 탐색 방법을 알아보겠습니다.



반응형

댓글