'빅데이터' 태그의 글 목록

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

[R, 데이터 실생활 응용] R로 카카오톡 활동량 분석하여 시각화.

EPL 맨유 팬인 저는 카카오톡 맨유 팬 채팅방에서 활동하고 있는데요. 20명 가량의 이 방에서 누가 톡을 가장 많이 입력하는지, 즉 채팅활동을 누가 활발하게 하는지 R로 한 번 알아볼께요~! 매달 누가 채팅을 많이 했는지 빈도수를 계산하여 그래프를 만들어 올리고 있어요 (제 이름 제외하고 이름은 모두 지웠습니다.) 그럼 어떻게 만드는지 확인해볼 까요? 1. 카카오톡 채팅 방 설정에 대화내보내기 기능이 있다. 카톡내용을 텍스트형식으로 컴퓨터에 저장한다. 2. 저장한 텍스트형식 파일을 확인한다. - 저장한 txt 파일을 열어 확인해 본다. - 위에 보이는 것처럼 닉네임, 시간, 채팅내용이 순서대로 기록되어있다는 것을 확인 할 수 있다. - 이 파일을 다시 저장하는데 인코딩을 ANSI로 설정한다. (한글이 ..

데이터분석/R 2021. 6. 22. 03:13

[R, 정리] R의 특징과 장점, 사용이유

R은 제가 가장 자주, 잘 사용하는 툴이자 언어에요. 처음 데이터 공부를 R로 시작했기 때문에 그런 것일지도 모릅니다. Python을 자주 사용하면서 익히고 싶지만.. 아직 스몰데이터만 만져본 저에게는 R은 너무 친근하고 쉽게 다가오네요~! 그럼 왜 R을 사용하는지 알아볼까요~? => 굵은 색은 제가 가장 중요하다고 생각하는 부분이에요 1. R이 무었인가? - 뉴질랜드 오클랜드 대학의 Robert Gentleman 와 Ross Ihaka이 1995년에 개발하였다. - 이름이 R인 이유는 두 개발자의 이름 모두 R로 시작하기 때문이다. - R은 데이터 분석을 위한 통계 및 그래픽스를 지원하는 자유 소프트웨어 환경이다. - 그 뿌리는 벨 연구소에서 만들어진 통계 분석 언어 S에 근간을 두고 있다. - htt..

데이터분석/R 2021. 6. 22. 03:10

[Hadoop, Pig] 빅데이터 Pig로 만져보기 - R시각화

* 앞 서 확인 할 것 1. 먼저 하둡명령어 파악하기 하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 ..

데이터엔지니어링/빅데이터 : Hadoop 2021. 6. 22. 03:07

[Hadoop, Pig] 빅데이터 Pig 이해하기

빅데이터의 유형 1) 구조화 데이터 - 행과 열로 구조화 되어 있다. - 고객데이터, 업무데이터, 거래데이터 등 - 관계 데이터베이스에 저장 - 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db 2) 반구조화 데이터 - XML, JSON : 키와 값 구조로 되어있다. - NoSQL 데이터베이스에 저장 - 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase 3) 비구조화 데이터 ,빅데이터 - 텍스트, 동영상, 음성 - 하둡(분산처리시스템)에 저장 및 처리 - 앞으로 언급할 하둡에코(합체)시스템 : Hive1, Hive2, Pig, Spark 하둡 이해하기 https://warm-uk.tistory.com/56?category=810504 ..

데이터엔지니어링/빅데이터 : Hadoop 2021. 6. 22. 03:04

[Hadoop, 하둡] 빅데이터 MAPREDUCE로 WordCount2 - R시각화

하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..

데이터엔지니어링/빅데이터 : Hadoop 2021. 6. 22. 03:01

[Hadoop, 하둡] 빅데이터 MAPREDUCE로 WordCount2

하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..

카테고리 없음 2021. 6. 22. 02:57

[Hadoop, Hive] 빅데이터 Hive로 MapReduce

SQL과 비슷한 HQL언어를 사용하여 Hive로 빅데이터를 MapReduce 하는 방법을 알아보자. 1. start-all.sh 합체 시스템 hive를 실행하기 전에 먼저 hadoop을 실행한다. 2. jps hadoop 실행 환경을 확인한다. 3. ls $HIVE_HOME/examples/files 운영체제 HIVE 폴더에서 이후에 HIVE로 가져올 데이터 파일들을 확인한다. 그리고 hive를 입력하여 hive에 접속한다. 4. create table events(key int, value string); - sql과 비슷한 hive의 hql언어를 지금부터 사용한다. - events라는 table을 만든다. - 이 테이블에 운영체제에 있는 우리가 필요한 파일을 넣을 것이다. 5. create table..

데이터엔지니어링/빅데이터 : Hadoop 2021. 6. 22. 02:55

[Hadoop, Hive] 빅데이터 Hive 이해하기

빅데이터의 유형 1) 구조화 데이터 - 행과 열로 구조화 되어 있다. - 고객데이터, 업무데이터, 거래데이터 등 - 관계 데이터베이스에 저장 - 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db 2) 반구조화 데이터 - XML, JSON : 키와 값 구조로 되어있다. - NoSQL 데이터베이스에 저장 - 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase 3) 비구조화 데이터 ,빅데이터 - 텍스트, 동영상, 음성 - 하둡(분산처리시스템)에 저장 및 처리 - 앞으로 언급할 하둡에코(합체)시스템 : Hive1, Hive2, Pig, Spark * 하둡 이해하기 https://warm-uk.tistory.com/57 =>이제 하둡에 합체되어 ..

데이터엔지니어링/빅데이터 : Hadoop 2021. 6. 22. 02:52

욱이의 냉철한 공부

목록빅데이터 (12)

욱이의 냉철한 공부

티스토리툴바