일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 자연어처리
- 데이터처리
- word2vec
- 데이터시각화
- 하둡
- R프로그래밍
- r
- Deeplearning
- lstm
- HIVE
- 빅데이터처리
- NLP
- AI
- R시각화
- 머신러닝
- 그래프
- R그래프
- Hadoop
- 딥러닝
- pandas
- 주가예측
- 기계학습
- Python
- SQL
- 그래프시각화
- CNN
- 데이터분석
- 빅데이터
- 데이터
- ggplot
- Today
- Total
목록빅데이터 (12)
욱이의 냉철한 공부
EPL 맨유 팬인 저는 카카오톡 맨유 팬 채팅방에서 활동하고 있는데요. 20명 가량의 이 방에서 누가 톡을 가장 많이 입력하는지, 즉 채팅활동을 누가 활발하게 하는지 R로 한 번 알아볼께요~! 매달 누가 채팅을 많이 했는지 빈도수를 계산하여 그래프를 만들어 올리고 있어요 (제 이름 제외하고 이름은 모두 지웠습니다.) 그럼 어떻게 만드는지 확인해볼 까요? 1. 카카오톡 채팅 방 설정에 대화내보내기 기능이 있다. 카톡내용을 텍스트형식으로 컴퓨터에 저장한다. 2. 저장한 텍스트형식 파일을 확인한다. - 저장한 txt 파일을 열어 확인해 본다. - 위에 보이는 것처럼 닉네임, 시간, 채팅내용이 순서대로 기록되어있다는 것을 확인 할 수 있다. - 이 파일을 다시 저장하는데 인코딩을 ANSI로 설정한다. (한글이 ..
R은 제가 가장 자주, 잘 사용하는 툴이자 언어에요. 처음 데이터 공부를 R로 시작했기 때문에 그런 것일지도 모릅니다. Python을 자주 사용하면서 익히고 싶지만.. 아직 스몰데이터만 만져본 저에게는 R은 너무 친근하고 쉽게 다가오네요~! 그럼 왜 R을 사용하는지 알아볼까요~? => 굵은 색은 제가 가장 중요하다고 생각하는 부분이에요 1. R이 무었인가? - 뉴질랜드 오클랜드 대학의 Robert Gentleman 와 Ross Ihaka이 1995년에 개발하였다. - 이름이 R인 이유는 두 개발자의 이름 모두 R로 시작하기 때문이다. - R은 데이터 분석을 위한 통계 및 그래픽스를 지원하는 자유 소프트웨어 환경이다. - 그 뿌리는 벨 연구소에서 만들어진 통계 분석 언어 S에 근간을 두고 있다. - htt..
* 앞 서 확인 할 것 1. 먼저 하둡명령어 파악하기 하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 ..
빅데이터의 유형 1) 구조화 데이터 - 행과 열로 구조화 되어 있다. - 고객데이터, 업무데이터, 거래데이터 등 - 관계 데이터베이스에 저장 - 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db 2) 반구조화 데이터 - XML, JSON : 키와 값 구조로 되어있다. - NoSQL 데이터베이스에 저장 - 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase 3) 비구조화 데이터 ,빅데이터 - 텍스트, 동영상, 음성 - 하둡(분산처리시스템)에 저장 및 처리 - 앞으로 언급할 하둡에코(합체)시스템 : Hive1, Hive2, Pig, Spark 하둡 이해하기 https://warm-uk.tistory.com/56?category=810504 ..
하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..
하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..
SQL과 비슷한 HQL언어를 사용하여 Hive로 빅데이터를 MapReduce 하는 방법을 알아보자. 1. start-all.sh 합체 시스템 hive를 실행하기 전에 먼저 hadoop을 실행한다. 2. jps hadoop 실행 환경을 확인한다. 3. ls $HIVE_HOME/examples/files 운영체제 HIVE 폴더에서 이후에 HIVE로 가져올 데이터 파일들을 확인한다. 그리고 hive를 입력하여 hive에 접속한다. 4. create table events(key int, value string); - sql과 비슷한 hive의 hql언어를 지금부터 사용한다. - events라는 table을 만든다. - 이 테이블에 운영체제에 있는 우리가 필요한 파일을 넣을 것이다. 5. create table..
빅데이터의 유형 1) 구조화 데이터 - 행과 열로 구조화 되어 있다. - 고객데이터, 업무데이터, 거래데이터 등 - 관계 데이터베이스에 저장 - 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db 2) 반구조화 데이터 - XML, JSON : 키와 값 구조로 되어있다. - NoSQL 데이터베이스에 저장 - 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase 3) 비구조화 데이터 ,빅데이터 - 텍스트, 동영상, 음성 - 하둡(분산처리시스템)에 저장 및 처리 - 앞으로 언급할 하둡에코(합체)시스템 : Hive1, Hive2, Pig, Spark * 하둡 이해하기 https://warm-uk.tistory.com/57 =>이제 하둡에 합체되어 ..