일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터
- 데이터분석
- R그래프
- SQL
- NLP
- HIVE
- word2vec
- 데이터처리
- 빅데이터
- ggplot
- 기계학습
- 주가예측
- r
- R시각화
- 그래프시각화
- 자연어처리
- 머신러닝
- AI
- 딥러닝
- Python
- lstm
- R프로그래밍
- CNN
- pandas
- Deeplearning
- 빅데이터처리
- 그래프
- Hadoop
- 하둡
- 데이터시각화
- Today
- Total
목록데이터분석 (19)
욱이의 냉철한 공부
https://warm-uk.tistory.com/64?category=810499 [R, 정리] R의 특징과 장점, 사용이유 R은 제가 가장 자주, 잘 사용하는 툴이자 언어에요. 처음 데이터 공부를 R로 시작했기 때문에 그런 것일지도 모릅니다. Python을 자주 사용하면서 익히고 싶지만.. 아직 스몰데이터만 만져본 저에 warm-uk.tistory.com 많은 명령어들이 있지만, R로 작업중에 가장 많이 사용하는 명령어들은 search(), ls(), str() 이에요~! R에서는 배정을 할 때 무엇을 집어 넣을지가 중요하지 않아요. 그렇기 때문에 int, double, char 등의 자료형의 종류를 지정할 필요가 없어요. 집어 놓고 사용을 결정하기 때문에, 매번 데이터들을 집어넣고 무슨 자료형인지 ..
SQL에 익숙한 분들은, R에서 데이터 처리를 위하여 새로운 함수들을 쓰는 것 보다 sqldf 패키지를 사용하여 SQL를 R에서 사용하여 데이터 처리를 하는 것이 편할 것이다. 그럼 어떻게 해야 하는지 알아보자~! 1. sqldf 패키지 다운받기. install.packages("sqldf") library(sqldf) 2. 기존 데이터 셋에 있는 Fruits 데이터로 실습. - Fruits는 총 9행의 데이터 가지고 있다. - Fruits 전체 데이터 가져오기 sqldf( 'SELECT * FROM Fruits') - Fruit 값이 Oranges인 데이터 모두 조회하기 : WHERE 사용 sqldf( 'SELECT * FROM Fruits WHERE Fruit=\'Oranges\' ') ORACLE에..
EPL 맨유 팬인 저는 카카오톡 맨유 팬 채팅방에서 활동하고 있는데요. 20명 가량의 이 방에서 누가 톡을 가장 많이 입력하는지, 즉 채팅활동을 누가 활발하게 하는지 R로 한 번 알아볼께요~! 매달 누가 채팅을 많이 했는지 빈도수를 계산하여 그래프를 만들어 올리고 있어요 (제 이름 제외하고 이름은 모두 지웠습니다.) 그럼 어떻게 만드는지 확인해볼 까요? 1. 카카오톡 채팅 방 설정에 대화내보내기 기능이 있다. 카톡내용을 텍스트형식으로 컴퓨터에 저장한다. 2. 저장한 텍스트형식 파일을 확인한다. - 저장한 txt 파일을 열어 확인해 본다. - 위에 보이는 것처럼 닉네임, 시간, 채팅내용이 순서대로 기록되어있다는 것을 확인 할 수 있다. - 이 파일을 다시 저장하는데 인코딩을 ANSI로 설정한다. (한글이 ..
하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..
하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..
SQL과 비슷한 HQL언어를 사용하여 Hive로 빅데이터를 MapReduce 하는 방법을 알아보자. 1. start-all.sh 합체 시스템 hive를 실행하기 전에 먼저 hadoop을 실행한다. 2. jps hadoop 실행 환경을 확인한다. 3. ls $HIVE_HOME/examples/files 운영체제 HIVE 폴더에서 이후에 HIVE로 가져올 데이터 파일들을 확인한다. 그리고 hive를 입력하여 hive에 접속한다. 4. create table events(key int, value string); - sql과 비슷한 hive의 hql언어를 지금부터 사용한다. - events라는 table을 만든다. - 이 테이블에 운영체제에 있는 우리가 필요한 파일을 넣을 것이다. 5. create table..
빅데이터의 유형 1) 구조화 데이터 - 행과 열로 구조화 되어 있다. - 고객데이터, 업무데이터, 거래데이터 등 - 관계 데이터베이스에 저장 - 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db 2) 반구조화 데이터 - XML, JSON : 키와 값 구조로 되어있다. - NoSQL 데이터베이스에 저장 - 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase 3) 비구조화 데이터 ,빅데이터 - 텍스트, 동영상, 음성 - 하둡(분산처리시스템)에 저장 및 처리 - 앞으로 언급할 하둡에코(합체)시스템 : Hive1, Hive2, Pig, Spark * 하둡 이해하기 https://warm-uk.tistory.com/57 =>이제 하둡에 합체되어 ..
하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..