본문 바로가기
반응형

R 탐색적 자료 분석4

탐색적 자료 분석(최종) 본 포스팅은 R for Data Science를 기반으로 하여 작성했습니다. 1. 패턴과 모델 데이터의 패턴은 관계에 대한 단서를 제공합니다. 두 변수 사이에 체계적인 관계가 있으면 데이터에 패턴으로 나타납니다. 패턴을 발견하면 스스로에게 질문을 던져야 합니다. 이 패턴이 우연의 일치인가? 패턴이 내포하는 관계를 어떻게 설명할 수 있을까? 패턴이 암시하는 관계는 얼마나 강력합니까? 관계에 영향을 줄 수 있는 다른 변수는 무엇일까? 데이터의 개별 하위 그룹을 보면 관계가 변경될까? Ex) Old Faithful 분화 길이 대 분화 간 대기 시간의 산점도는 패턴을 보여줍니다. 대기 시간이 길수록 분화도 길어집니다. 산점도에는 위에서 확인한 두 개의 클러스터도 표시됩니다. ggplot(data = faithf.. 2021. 10. 1.
탐색적 자료 분석(공변량2) 본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다. 1. 두 개의 범주형 변수 범주형 변수 간의 공분산을 시각화하려면 각 조합에 대한 관측값의 수를 계산해야 합니다. 그렇게 하는 한 가지 방법은 geom_count()를 활용하는 것입니다. ggplot(data = diamonds) + ____geom_count(mapping = aes(x = cut, y = color)) 그림에 있는 각 원의 크기는 각 값 조합에서 발생한 관측치의 수를 표시합니다. 공변량은 특정 x 값과 특정 y 값 사이의 강한 상관관계로 나타납니다. 또 다른 접근 방식은 dplyr로 개수를 계산하는 것입니다. diamonds %>% ____count(color, cut) 그런 다음 geom_tile() 및 .. 2021. 9. 30.
탐색적 자료 분석(결측치 처리) 본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다. 데이터 세트에서 비정상적인 값을 발견하고, 단순히 나머지 분석으로 이동하려는 경우에 진행할 수 있는 선택 사항은 아래 두 가지가 있습니다. 1. 비정상적인 값이 존재하는 전체 데이터 행 삭제 diamonds2 % ____filter(between(y, 3, 20)) 하나의 측정값이 유효하지 않다고 해서 모든 측정값이 잘못된 것은 아니기 때문에 별로 좋은 선택사항은 아니라고 생각합니다. 또한 품질이 낮은 데이터가 있는 경우 이 접근 방식을 모든 변수에 적용했을 때, 최종적으로 남아 있는 분석 데이터가 별로 없게 될 수도 있습니다. 2. 비정상적인 값을 결측 값으로 교체 이를 수행하는 가장 쉬운 방법은 mutate()를 사용하여 .. 2021. 9. 28.
탐색적 자료 분석(변수 분포 탐색) 본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다. 변동(Variation)은 측정에서 측정으로 변하는 변수 값의 경향입니다. 실생활에서 쉽게 변동을 볼 수 있습니다. 연속형 변수를 두 번 측정하면 두 가지 다른 결과가 나타납니다. 이것은 빛의 속도와 같이 일정한 양을 측정하더라도 마찬가지입니다. 각 측정에는 측정할 때마다 달라지는 약간의 오류가 포함됩니다. 연속형 변수뿐만 아니라 다른 주제(예: 다른 사람의 눈 색깔) 또는 다른 시간(예: 다른 순간의 전자 에너지 수준)에 걸쳐 측정하는 경우 범주형 변수도 달라질 수 있습니다. 모든 변수에는 흥미로운 정보를 나타낼 수 있는 고유한 변형 패턴이 있습니다. 이 패턴을 이해하는 가장 좋은 방법은 변수 값의 분포를 시각화하는 것입니다.. 2021. 9. 26.
반응형