본문 바로가기
반응형

R 프로그래밍/R advance8

오픈 API를 활용한 공공데이터 불러오기(데이터 포맷: json) 오픈 API를 활용한 공공데이터 불러오기(데이터 포맷: json)에 이어서 json 형태의 데이터 포맷을 불러오는 R 프로그래밍을 알아보도록 할게요. 공공데이터를 활용하기 위한 준비 단계는 여기를 참고하시면 됩니다. 비교를 위해서 지난번 포스팅에서와 같은 데이터를 불러와 보도록 할게요. 데이터 형식을 확인하기 위한 샘플데이터 확인하기 결과 형식을 json으로 변경한 후에 미리 보기 버튼을 클릭하시면, 아래와 같은 샘플데이터를 볼 수 있어요. 이를 참고해서 원하는 데이터를 추출해 보도록 할게요. 오픈 API URL구조에 대해서는 지난번 포스팅에서 설명해서 넘어가도록 할게요. 데이터 추출을 위한 R code(with jsonlite 패키지) install.packages('jsonlite') # json 형.. 2022. 1. 27.
오픈 API를 활용한 공공데이터 불러오기(데이터 포맷: xml) 공공데이터 홈페이지 가입 및 데이터 추출 준비 정부가 개방한 공공데이터를 오픈 API를 활용해서 추출하는 방법에 대해서 설명드릴게요. 우선, 공공데이터 홈페이지에 접속해 볼게요. 공공데이터 url 주소는 https://www.data.go.kr/index.do입니다. 여기를 클릭해서 들어가시면 아래와 같은 화면이 보입니다. 좌측 상단에 회원가입 탭을 클릭하셔서, 회원 가입을 하시면 로그인됩니다. 로그인하신 후 마이페이지에서 인증키를 받으셔야 공공 API를 활용하실 수 있어요. 아래 화면은 제가 발급한 인증키 발급현황입니다. 다시 홈페이지 첫 화면에서 "금융"이라고 검색하고, 오픈 API탭을 클릭하시면 아래 화면이 보이는 데요. 제일 위에 있는 데이터 금융위원회_금융회사기본정보를 오픈 API를 활용해서 추.. 2022. 1. 7.
와이드 포맷과 롱 포맷 간 데이터 변환 Cookbook for R을 기반으로 하여 작성하였습니다. 이번 포스팅에서는 와이드 형식(wide format)에서 긴 형식(long format)으로 데이터를 변환하는 방법에 대해서 알아볼게요. R에서 사용하는 많은 함수는 데이터가 와이드 형식이 아닌 긴 형식일 것으로 예상을 하고 있어요. 그러나 가끔 넓은 형식의 데이터를 사용하곤 해요. 그래서 두 형식 간의 데이터를 변환시키는 방법에 대해서 알고 있어야 각 상황에 맞는 데이터 분석을 할 수 있어요. 그럼 데이터 형식을 변환시키는 방법에 대해 알아볼게요. 두 형식 간에 변환을 할 수 있는 방법은 크게 아래 2가지예요. 1. tidyr 패키지의 gather()와 spread() 함수 사용 2. reshape2 패키지의 melt() 및 dcast() 함수.. 2021. 12. 28.
[R그래픽스]커뮤니케이션을 위한 그래픽 본 포스팅은 R for Data Science 를 기반으로 작성되었습니다. 1. 소개 이 장에서는 좋은 그래픽을 만드는 데 필요한 도구에 중점을 둡니다. 이번 장을 학습할 때는 일반 시각화 책과 함께 사용하는 것이 좋습니다. 시각화를 만드는 방법이 아니라 효과적인 그래픽을 만들기 위해 생각해야 하는 것에 중점을 둡니다. 1.1. 전제 조건 ggplot2 패키지에 초점을 맞출 것입니다. 또한 데이터 조작을 위해 약간의 dplyr와 ggrepel 및 viridis를 포함한 몇 가지 ggplot2 확장 패키지를 사용할 것입니다. 여기에서는 로드하는 대신 :: 표기법을 사용하여 해당 기능을 참조합니다. 이렇게 하면 ggplot2에 내장된 기능과 다른 패키지에서 가져온 기능을 명확히 구별하는 데 도움이 됩니다. .. 2021. 7. 20.
[R데이터다루기]데이터 변환 본 포스팅은 R for Data Science를 기반으로 작성되었습니다. 1. 소개 시각화는 통찰력 생성을 위한 중요한 도구이지만 필요한 형식으로 데이터를 정확히 얻는 경우는 매우 드뭅니다. 그래서 시각화는 데이터 탐색이라고 많이 표현합니다. 데이터 작업을 좀 더 쉽게 하기 위해 변수의 이름을 바꾸거나 관측치를 재 정렬하고 싶을 때도 있습니다. 2013년에 뉴욕시에서 출발하는 항공편에서 dplyr 패키지와 새로운 data set을 사용하여 데이터를 변환하는 방법을 배워 보겠습니다. 1.1. 전제 조건 이 장에서 Tidyverse의 또 다른 핵심 패키지인 dplyr 패키지를 사용하는 방법에 대해 알아 보겠습니다. nycflights13 패키지의 데이터를 사용해서 주요 내용을 설명하고 데이터를 이해하는 데 .. 2021. 7. 18.
[R그래픽스]데이터 시각화 본 포스팅은 R for Data Science를 기반으로 작성되었습니다. 1. 소개 “The simple graph has brought more information to the data analyst’s mind than any other device.” — John Tukey — 이 장에서는 ggplot2 패키지를 사용하여 데이터를 시각화하는 방법을 알아보겠습니다. R에는 그래프를 만들기 위한 여러 패키지가 있지만 ggplot2는 가장 훌륭하고 다재다능한 시스템 중 하나입니다. ggplot2는 그래프를 설명하고 작성하기 위한 일관된 시스템인 그래픽 문법을 구현합니다. ggplot2를 사용하면 하나의 시스템을 학습하고 여러 곳에 적용하여 더 빠르게 수행할 수 있습니다. 시작하기 전에 ggplot2에 .. 2021. 7. 17.
[R데이터구조]Tibble 본 포스팅은 R for Data Science 를 기반으로 작성되었습니다. 1. 소개 R의 전통적인 데이터 구조는 데이터 프레임(data.frame)입니다. 이번 장에서는 "tibbles"에 대해서 알아보기로 하겠습니다. Tibble은 데이터 프레임이지만 삶을 조금 더 쉽게 만들기 위해 일부 오래된 동작을 조금 조정합니다. R은 매우 오래된 언어이며, 10~20년 전에는 유용했던 일부 기능이 이제는 방해가 되기도 합니다. 기존 코드를 깨뜨리지 않고 기본 R을 변경하는 것은 어렵기 때문에 대부분의 혁신은 신규 패키지에서 발생합니다. 여기에서 우리는 tidyverse에서 작업을 좀 더 쉽게 만들어주는 데이터 프레임을 제공하는 tibble 패키지에 대해 좀 더 자세히 알아보겠습니다. 대부분의 경우 tibble.. 2021. 7. 15.
[R변수형식]날짜와 시간 데이터 본 포스팅은 R for Data Science 를 기반으로 작성되었습니다. 1. 날짜와 시간 생성하기 시간에 있어 순간을 참조하기 위한 세 가지 유형의 데이터가 있습니다.1) 날짜(Data), 2) 시간(Time), 3) 날짜와 시간 병합(Date-Time) : 이 유형은 3가지 특정 시점을 유니크하게 식별할 수 있습니다. 현재 날짜를 알고 싶으면 today() 함수를 사용하면 되고, 현재 날짜와 시간을 동시에 알고 싶으면 now() 함수를 사용하면 됩니다. 만약 특정 날짜 혹은 특정 시간을 생성하려면 아래 3가지 방법이 있습니다. 1) 문자열 활용 2) 날짜와 시간 구성 요소 활용 3) 기존에 존재하는 날짜와 시간 object 활용 1.1. 문자열 활용 날짜와 시간 데이터는 자주 문자열로 제공됩니다. .. 2021. 7. 14.
반응형