'데이터분석' 태그의 글 목록 (2 Page)

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

[R, 정리] 기본 명령어 이해하기

https://warm-uk.tistory.com/64?category=810499 [R, 정리] R의 특징과 장점, 사용이유 R은 제가 가장 자주, 잘 사용하는 툴이자 언어에요. 처음 데이터 공부를 R로 시작했기 때문에 그런 것일지도 모릅니다. Python을 자주 사용하면서 익히고 싶지만.. 아직 스몰데이터만 만져본 저에 warm-uk.tistory.com 많은 명령어들이 있지만, R로 작업중에 가장 많이 사용하는 명령어들은 search(), ls(), str() 이에요~! R에서는 배정을 할 때 무엇을 집어 넣을지가 중요하지 않아요. 그렇기 때문에 int, double, char 등의 자료형의 종류를 지정할 필요가 없어요. 집어 놓고 사용을 결정하기 때문에, 매번 데이터들을 집어넣고 무슨 자료형인지 ..

데이터분석/R 2021. 6. 22. 03:17

[R, 전처리, 패키지] sqldf 패키지 이용하여 R에서 SQL을 사용하자

SQL에 익숙한 분들은, R에서 데이터 처리를 위하여 새로운 함수들을 쓰는 것 보다 sqldf 패키지를 사용하여 SQL를 R에서 사용하여 데이터 처리를 하는 것이 편할 것이다. 그럼 어떻게 해야 하는지 알아보자~! 1. sqldf 패키지 다운받기. install.packages("sqldf") library(sqldf) 2. 기존 데이터 셋에 있는 Fruits 데이터로 실습. - Fruits는 총 9행의 데이터 가지고 있다. - Fruits 전체 데이터 가져오기 sqldf( 'SELECT * FROM Fruits') - Fruit 값이 Oranges인 데이터 모두 조회하기 : WHERE 사용 sqldf( 'SELECT * FROM Fruits WHERE Fruit=\'Oranges\' ') ORACLE에..

데이터분석/R 2021. 6. 22. 03:15

[R, 데이터 실생활 응용] R로 카카오톡 활동량 분석하여 시각화.

EPL 맨유 팬인 저는 카카오톡 맨유 팬 채팅방에서 활동하고 있는데요. 20명 가량의 이 방에서 누가 톡을 가장 많이 입력하는지, 즉 채팅활동을 누가 활발하게 하는지 R로 한 번 알아볼께요~! 매달 누가 채팅을 많이 했는지 빈도수를 계산하여 그래프를 만들어 올리고 있어요 (제 이름 제외하고 이름은 모두 지웠습니다.) 그럼 어떻게 만드는지 확인해볼 까요? 1. 카카오톡 채팅 방 설정에 대화내보내기 기능이 있다. 카톡내용을 텍스트형식으로 컴퓨터에 저장한다. 2. 저장한 텍스트형식 파일을 확인한다. - 저장한 txt 파일을 열어 확인해 본다. - 위에 보이는 것처럼 닉네임, 시간, 채팅내용이 순서대로 기록되어있다는 것을 확인 할 수 있다. - 이 파일을 다시 저장하는데 인코딩을 ANSI로 설정한다. (한글이 ..

데이터분석/R 2021. 6. 22. 03:13

[Hadoop, 하둡] 빅데이터 MAPREDUCE로 WordCount2 - R시각화

하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..

데이터엔지니어링/빅데이터 : Hadoop 2021. 6. 22. 03:01

[Hadoop, 하둡] 빅데이터 MAPREDUCE로 WordCount2

하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..

카테고리 없음 2021. 6. 22. 02:57

[Hadoop, Hive] 빅데이터 Hive로 MapReduce

SQL과 비슷한 HQL언어를 사용하여 Hive로 빅데이터를 MapReduce 하는 방법을 알아보자. 1. start-all.sh 합체 시스템 hive를 실행하기 전에 먼저 hadoop을 실행한다. 2. jps hadoop 실행 환경을 확인한다. 3. ls $HIVE_HOME/examples/files 운영체제 HIVE 폴더에서 이후에 HIVE로 가져올 데이터 파일들을 확인한다. 그리고 hive를 입력하여 hive에 접속한다. 4. create table events(key int, value string); - sql과 비슷한 hive의 hql언어를 지금부터 사용한다. - events라는 table을 만든다. - 이 테이블에 운영체제에 있는 우리가 필요한 파일을 넣을 것이다. 5. create table..

데이터엔지니어링/빅데이터 : Hadoop 2021. 6. 22. 02:55

[Hadoop, Hive] 빅데이터 Hive 이해하기

빅데이터의 유형 1) 구조화 데이터 - 행과 열로 구조화 되어 있다. - 고객데이터, 업무데이터, 거래데이터 등 - 관계 데이터베이스에 저장 - 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db 2) 반구조화 데이터 - XML, JSON : 키와 값 구조로 되어있다. - NoSQL 데이터베이스에 저장 - 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase 3) 비구조화 데이터 ,빅데이터 - 텍스트, 동영상, 음성 - 하둡(분산처리시스템)에 저장 및 처리 - 앞으로 언급할 하둡에코(합체)시스템 : Hive1, Hive2, Pig, Spark * 하둡 이해하기 https://warm-uk.tistory.com/57 =>이제 하둡에 합체되어 ..

데이터엔지니어링/빅데이터 : Hadoop 2021. 6. 22. 02:52

[Hadoop, 하둡] 빅데이터 MAPREDUCE로 WordCount

하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..

데이터엔지니어링/빅데이터 : Hadoop 2021. 6. 22. 02:50

욱이의 냉철한 공부

목록데이터분석 (19)

욱이의 냉철한 공부

티스토리툴바