[R] R 개요
🙆♂️ import 🙇♂️
R이란 무엇인가? - R 소개, R 설치, R studio[hocheon tistory]
빅데이터 분석의 기본, R 프로그래밍이란?[백곰씨의 T스토리]
[01-1] R언어 - R 이란 무엇인가?[TechNote.kr]
R
R
은 통계 분석과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경이다.
뉴질랜드 오클랜드 대학의 로버트 젠틀맨(Robert Gentleman)과 로스 이하카(Ross Ihaka)에 의해 시작
현재는 R 코어 팀이 개발
R
은 대표적인 오픈소스 통계 패키지로 기존의 통계 프로그램과는 차별화 된 인프라를 제공하고 있다.
R
은 통계 소프트웨어 개발과 자료 분석에 널리 사용되고 있으며, 패키지 개발이 용이해 통계 소프트웨어 개발에 많이 쓰이고 있다.
R
은 데이터 사이언스 분야에서 자주 쓰이고 데이터 분석에 특화되어 있다.
기존 프로그램들(SAS, SPSS 등)은 소프트웨어 자체의 비용이 비싸고 데이터 분석 속도가 느리다는 단점이 있었는데, R
은 이러한 단점이 보완된 빅데이터 분석 툴이다.
R
은 전세계에서 사용 가능한 오픈소스이기 때문에 대부분의 명령어가 라이브러리화 되어 있어서 이용자들이 다양한 기능을 쉽게 공유하면서 통계 처리가 가능하다.
R
은 분석 관련 함수들이 잘 구성되어 있어서 따로 코딩을 할 필요 없이 함수만 익혀도 결과 값의 해석이 가능하다.
통계 지식만 있다면 쉽게 익힐 수 있다.
R
은 GPL하에 배포되는 S 프로그래밍 언어의 구현으로 **GNU S라고도 한다. **
S 언어 : 통계에 기반한 프로그래밍 언어
_무료로 배포되는 GNU S(R
), 상용 버전인 Insightful의 S-PLUS _
R 적용 분야
R
의 적용분야는 통계 분석, 머신러닝 모델링, 데이터 마이닝, 소셜 네트워크 분석, 지도 시각화, 주식 분석, 사운드 분석, 웹 앱 제작 등 굉장히 다양하다.
-
통계분석
-
데이터 마이닝
-
빅데이터 분석
-
GIS
-
웹 크롤링(Web Crawling)
-
텍스트 마이닝(Text Mining)
6.1 워드 클라우드(Word Cloud)
6.2 감성 분석
-
소셜네트워크분석(SNA : Social Network Analysis)
-
기계학습
-
Reproducible Research
-
Shiny를 이용한 웹 애플리케이션 개발
R 장, 단점
R의 장점
-
오픈 소스
R
은 오픈 소스로써 개인, 기관, 기업에서 무료로 사용이 가능하다. 타 통계, 분석 프로그램들은 라이센스 가격대가 비싸다. R을 이용해 상용 제품을 만들 경우 라이센스 비용을 지불 해야 한다. -
데이터의 시각화 ** **통계에 기반한 데이터를 효율적으로 보여주기 위해 해당 기능이 발전하였다. 단순 코드만으로 바로 사용 가능할 정도의 표, 차트, 지도 등의 시각화 자료를 만들 수 있다. 생각할 수 있는 대부분의 그래프들은 이미
R
로 표현할 수 있다. -
다양한 패키지 및 커뮤니티 다양하게 사용되고 있는 패키지 덕분에 R을 쉽게 사용할 수 있다. 또한 다양한 통계 방법론을 적용한 데이터 분석 기능들이
R
에는 몇 천가지 통계 분석 패키지가 존재 한다. -
데이터 사이언스를 위한 언어 통계학에 많이 사용되다 보니** 데이터 사이언스를 위한 작업에 많이 사용**된다.
-
데이터 처리 데이터 분석에서 데이터 수집/처리/탐색적 분석이 60 ~ 80%를 차지하고 있고, 모델링은 상대적으로 적은 시간이 소요된다.
R
은 데이터 분석 외에도 데이터 처리에 있어 매우 강력한 툴로 텍스트, CSV, 엑셀, SAS, SPSS, Stata, DB 등의 다양한 데이터를 읽어오는 기능을 제공한다. 수정, 삭제, 정렬, 합치기 등의 데이터 핸들링이 편리 -
객체 지향 프로그래밍 언어
R
은벡터 연산
,Indexing
이 유용하고 강력하며, 사용자 정의 함수와 루프를 실행하는 프로그래밍 또한 강력하다. 다른 어플리케이션과도 연동이 가능하다. -
메모리 데이터는 메모리(RAM)에서 작동되어 데이터 처리가 빠르다. 메모리 크기에 따라 분석 가능한 데이터 양이 결정 된다.
R의 단점
-
다양한 패키지 다양한 패키지가 장점도 되지만, 이를 익혀야 한다는 점에서는 다소 학습 시간이 필요할 수 있다.
-
효율성 저하 통계를 위해 더 쉽게 연구하기 위해 만들다 보니 효율성은 떨어진다. 다양한 패키지를 통해 어느 정도 개선은 가능
댓글남기기