본문 바로가기
반응형

R 프로그래밍/R을 활용한 탐색적 자료 분석7

탐색적 자료 분석(최종) 본 포스팅은 R for Data Science를 기반으로 하여 작성했습니다. 1. 패턴과 모델 데이터의 패턴은 관계에 대한 단서를 제공합니다. 두 변수 사이에 체계적인 관계가 있으면 데이터에 패턴으로 나타납니다. 패턴을 발견하면 스스로에게 질문을 던져야 합니다. 이 패턴이 우연의 일치인가? 패턴이 내포하는 관계를 어떻게 설명할 수 있을까? 패턴이 암시하는 관계는 얼마나 강력합니까? 관계에 영향을 줄 수 있는 다른 변수는 무엇일까? 데이터의 개별 하위 그룹을 보면 관계가 변경될까? Ex) Old Faithful 분화 길이 대 분화 간 대기 시간의 산점도는 패턴을 보여줍니다. 대기 시간이 길수록 분화도 길어집니다. 산점도에는 위에서 확인한 두 개의 클러스터도 표시됩니다. ggplot(data = faithf.. 2021. 10. 1.
탐색적 자료 분석(공변량2) 본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다. 1. 두 개의 범주형 변수 범주형 변수 간의 공분산을 시각화하려면 각 조합에 대한 관측값의 수를 계산해야 합니다. 그렇게 하는 한 가지 방법은 geom_count()를 활용하는 것입니다. ggplot(data = diamonds) + ____geom_count(mapping = aes(x = cut, y = color)) 그림에 있는 각 원의 크기는 각 값 조합에서 발생한 관측치의 수를 표시합니다. 공변량은 특정 x 값과 특정 y 값 사이의 강한 상관관계로 나타납니다. 또 다른 접근 방식은 dplyr로 개수를 계산하는 것입니다. diamonds %>% ____count(color, cut) 그런 다음 geom_tile() 및 .. 2021. 9. 30.
탐색적 자료 분석(공변량1) 본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다. 변동(variation)이 변수 내 행동을 설명하는 통계량이라면, 공변량(covariation)은 변수 간의 행동을 설명합니다. 공변은 두 개 이상의 변수 값이 관련된 방식으로 함께 변하는 경향입니다. 공변량을 찾는 가장 좋은 방법은 둘 이상의 변수 간의 관계를 시각화하는 것입니다. 이를 수행하는 방법은 관련된 변수 유형에 따라 달라집니다. 1. 하나의 범주형 및 연속형 변수 범주형 변수로 분류된 연속 변수의 분포를 탐색하려는 것이 가장 일반적입니다. geom_freqpoly()의 기본 모양은 높이가 개수에 의해 지정되기 때문에 상기 종류의 비교에는 별로 유용하지 않습니다. 즉, 그룹 중 하나가 다른 그룹보다 훨씬 작으면 모양.. 2021. 9. 29.
탐색적 자료 분석(결측치 처리) 본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다. 데이터 세트에서 비정상적인 값을 발견하고, 단순히 나머지 분석으로 이동하려는 경우에 진행할 수 있는 선택 사항은 아래 두 가지가 있습니다. 1. 비정상적인 값이 존재하는 전체 데이터 행 삭제 diamonds2 % ____filter(between(y, 3, 20)) 하나의 측정값이 유효하지 않다고 해서 모든 측정값이 잘못된 것은 아니기 때문에 별로 좋은 선택사항은 아니라고 생각합니다. 또한 품질이 낮은 데이터가 있는 경우 이 접근 방식을 모든 변수에 적용했을 때, 최종적으로 남아 있는 분석 데이터가 별로 없게 될 수도 있습니다. 2. 비정상적인 값을 결측 값으로 교체 이를 수행하는 가장 쉬운 방법은 mutate()를 사용하여 .. 2021. 9. 28.
탐색적 자료 분석(일반적 값 VS 비정상적인 값) 본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다. 1. 일반적인 값 막대 차트와 히스토그램 모두에서 긴 막대는 변수의 평범한 값을 표시하고 짧은 막대는 덜 일반적인(비정상적인) 값을 표시합니다. 막대가 없는 장소는 데이터에 표시되지 않은 값을 나타냅니다. 이 정보를 유용한 질문으로 바꾸려면 예상하지 못한 부분을 찾아내야 합니다. 어떤 값이 가장 일반적이고, 그 이유는 무엇일까? 어떤 값이 보기 드문 희귀한 값일까? 그 이유는 무엇일까? 내 생각과 일치하는가? 특이한 패턴이 보이나요? 특이 패턴을 설명할 수 있나? 예를 들어 아래 히스토그램은 몇 가지 흥미로운 질문을 제안합니다. 왜 전체 캐럿과 캐럿의 흔한 분수에 더 많은 다이아몬드가 있을까? 각 봉우리의 약간 왼쪽보다 각 봉.. 2021. 9. 27.
탐색적 자료 분석(변수 분포 탐색) 본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다. 변동(Variation)은 측정에서 측정으로 변하는 변수 값의 경향입니다. 실생활에서 쉽게 변동을 볼 수 있습니다. 연속형 변수를 두 번 측정하면 두 가지 다른 결과가 나타납니다. 이것은 빛의 속도와 같이 일정한 양을 측정하더라도 마찬가지입니다. 각 측정에는 측정할 때마다 달라지는 약간의 오류가 포함됩니다. 연속형 변수뿐만 아니라 다른 주제(예: 다른 사람의 눈 색깔) 또는 다른 시간(예: 다른 순간의 전자 에너지 수준)에 걸쳐 측정하는 경우 범주형 변수도 달라질 수 있습니다. 모든 변수에는 흥미로운 정보를 나타낼 수 있는 고유한 변형 패턴이 있습니다. 이 패턴을 이해하는 가장 좋은 방법은 변수 값의 분포를 시각화하는 것입니다.. 2021. 9. 26.
탐색적 자료 분석 Introduction 본 포스팅은 R for Data Science를 기반으로 하여 작성하였습니다. R을 활용한 탐색적 자료 분석(EDA, Exploratory Data Analysis)에 대해서 알아보겠습니다. EDA는 아래의 3가지 사항에 대한 반복적인 순환입니다. 1. 데이터에 대한 질문을 만들어 냅니다. 2. 데이터를 시각화, 변환 및 모델링하여 1에 대한 답변을 찾습니다. 3. 질문을 수정하거나 새로운 질문을 만들기 위해 여러분이 배운 내용을 사용합니다. EDA는 엄격한 규칙이 있는 공식 프로세스가 아닙니다. 무엇보다 EDA는 마음의 상태입니다. EDA의 초기 단계에서 생각나는 모든 아이디어를 자유롭게 조사해야 합니다. 이러한 아이디어 중 일부는 실현될 것이고 일부는 막다른 골목이 될 것입니다. 탐색이 계속되면서, .. 2021. 9. 25.
반응형