목록데이터 공부, 실무, 연구 (91)
욱이의 냉철한 공부
https://warm-uk.tistory.com/68?category=810499 [R, 정리] 데이터 타입 이해하기 https://warm-uk.tistory.com/64?category=810499 [R, 정리] R의 특징과 장점, 사용이유 R은 제가 가장 자주, 잘 사용하는 툴이자 언어에요. 처음 데이터 공부를 R로 시작했기 때문에 그런 것일지도 모릅니다. Pyt. warm-uk.tistory.com 1. scan() - 텍스트 파일 읽어서 배열에 저장한다. - 문자로 받을 시에는 what=""으로 what인자를 설정해야 한다. - 파일을 가져오는 것을 제외하고 데이터를 작성함으로 서 입력 받을 수 있다. - 입력받는 것을 중지하기 위해서는 Enter키를 한 번 더 누르면 된다. 2. readli..
https://warm-uk.tistory.com/64?category=810499 [R, 정리] R의 특징과 장점, 사용이유 R은 제가 가장 자주, 잘 사용하는 툴이자 언어에요. 처음 데이터 공부를 R로 시작했기 때문에 그런 것일지도 모릅니다. Python을 자주 사용하면서 익히고 싶지만.. 아직 스몰데이터만 만져본 저에 warm-uk.tistory.com => 먼저 R에 대해서 이해하기 목차 1. 기본 데이터 타입 2. 뭉탱이 데이터 타입 - 벡터(vector) 3. 뭉탱이 데이터 타입 - 행렬(matrix) 4. 뭉탱이 데이터 타입 - 배열(arrays) 5. 뭉탱이 데이터 타입 - 리스트(list) 6. 뭉탱이 데이터 타입 - 데이터프레임(DataFrames) 7. 데이터 타입 변환 8. 데이터 ..
https://warm-uk.tistory.com/64?category=810499 [R, 정리] R의 특징과 장점, 사용이유 R은 제가 가장 자주, 잘 사용하는 툴이자 언어에요. 처음 데이터 공부를 R로 시작했기 때문에 그런 것일지도 모릅니다. Python을 자주 사용하면서 익히고 싶지만.. 아직 스몰데이터만 만져본 저에 warm-uk.tistory.com 많은 명령어들이 있지만, R로 작업중에 가장 많이 사용하는 명령어들은 search(), ls(), str() 이에요~! R에서는 배정을 할 때 무엇을 집어 넣을지가 중요하지 않아요. 그렇기 때문에 int, double, char 등의 자료형의 종류를 지정할 필요가 없어요. 집어 놓고 사용을 결정하기 때문에, 매번 데이터들을 집어넣고 무슨 자료형인지 ..
SQL에 익숙한 분들은, R에서 데이터 처리를 위하여 새로운 함수들을 쓰는 것 보다 sqldf 패키지를 사용하여 SQL를 R에서 사용하여 데이터 처리를 하는 것이 편할 것이다. 그럼 어떻게 해야 하는지 알아보자~! 1. sqldf 패키지 다운받기. install.packages("sqldf") library(sqldf) 2. 기존 데이터 셋에 있는 Fruits 데이터로 실습. - Fruits는 총 9행의 데이터 가지고 있다. - Fruits 전체 데이터 가져오기 sqldf( 'SELECT * FROM Fruits') - Fruit 값이 Oranges인 데이터 모두 조회하기 : WHERE 사용 sqldf( 'SELECT * FROM Fruits WHERE Fruit=\'Oranges\' ') ORACLE에..
EPL 맨유 팬인 저는 카카오톡 맨유 팬 채팅방에서 활동하고 있는데요. 20명 가량의 이 방에서 누가 톡을 가장 많이 입력하는지, 즉 채팅활동을 누가 활발하게 하는지 R로 한 번 알아볼께요~! 매달 누가 채팅을 많이 했는지 빈도수를 계산하여 그래프를 만들어 올리고 있어요 (제 이름 제외하고 이름은 모두 지웠습니다.) 그럼 어떻게 만드는지 확인해볼 까요? 1. 카카오톡 채팅 방 설정에 대화내보내기 기능이 있다. 카톡내용을 텍스트형식으로 컴퓨터에 저장한다. 2. 저장한 텍스트형식 파일을 확인한다. - 저장한 txt 파일을 열어 확인해 본다. - 위에 보이는 것처럼 닉네임, 시간, 채팅내용이 순서대로 기록되어있다는 것을 확인 할 수 있다. - 이 파일을 다시 저장하는데 인코딩을 ANSI로 설정한다. (한글이 ..
R은 제가 가장 자주, 잘 사용하는 툴이자 언어에요. 처음 데이터 공부를 R로 시작했기 때문에 그런 것일지도 모릅니다. Python을 자주 사용하면서 익히고 싶지만.. 아직 스몰데이터만 만져본 저에게는 R은 너무 친근하고 쉽게 다가오네요~! 그럼 왜 R을 사용하는지 알아볼까요~? => 굵은 색은 제가 가장 중요하다고 생각하는 부분이에요 1. R이 무었인가? - 뉴질랜드 오클랜드 대학의 Robert Gentleman 와 Ross Ihaka이 1995년에 개발하였다. - 이름이 R인 이유는 두 개발자의 이름 모두 R로 시작하기 때문이다. - R은 데이터 분석을 위한 통계 및 그래픽스를 지원하는 자유 소프트웨어 환경이다. - 그 뿌리는 벨 연구소에서 만들어진 통계 분석 언어 S에 근간을 두고 있다. - htt..
* 앞 서 확인 할 것 1. 먼저 하둡명령어 파악하기 하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 ..
빅데이터의 유형 1) 구조화 데이터 - 행과 열로 구조화 되어 있다. - 고객데이터, 업무데이터, 거래데이터 등 - 관계 데이터베이스에 저장 - 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db 2) 반구조화 데이터 - XML, JSON : 키와 값 구조로 되어있다. - NoSQL 데이터베이스에 저장 - 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase 3) 비구조화 데이터 ,빅데이터 - 텍스트, 동영상, 음성 - 하둡(분산처리시스템)에 저장 및 처리 - 앞으로 언급할 하둡에코(합체)시스템 : Hive1, Hive2, Pig, Spark 하둡 이해하기 https://warm-uk.tistory.com/56?category=810504 ..