일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Deeplearning
- ggplot
- 빅데이터처리
- R시각화
- word2vec
- Python
- 데이터분석
- HIVE
- 머신러닝
- NLP
- SQL
- AI
- 빅데이터
- CNN
- r
- lstm
- 그래프시각화
- R그래프
- pandas
- Hadoop
- R프로그래밍
- 주가예측
- 데이터
- 그래프
- 기계학습
- 데이터시각화
- 자연어처리
- 하둡
- 딥러닝
- 데이터처리
- Today
- Total
목록데이터엔지니어링/빅데이터 : Hadoop (8)
욱이의 냉철한 공부
* 앞 서 확인 할 것 1. 먼저 하둡명령어 파악하기 하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 ..
빅데이터의 유형 1) 구조화 데이터 - 행과 열로 구조화 되어 있다. - 고객데이터, 업무데이터, 거래데이터 등 - 관계 데이터베이스에 저장 - 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db 2) 반구조화 데이터 - XML, JSON : 키와 값 구조로 되어있다. - NoSQL 데이터베이스에 저장 - 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase 3) 비구조화 데이터 ,빅데이터 - 텍스트, 동영상, 음성 - 하둡(분산처리시스템)에 저장 및 처리 - 앞으로 언급할 하둡에코(합체)시스템 : Hive1, Hive2, Pig, Spark 하둡 이해하기 https://warm-uk.tistory.com/56?category=810504 ..
하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..
SQL과 비슷한 HQL언어를 사용하여 Hive로 빅데이터를 MapReduce 하는 방법을 알아보자. 1. start-all.sh 합체 시스템 hive를 실행하기 전에 먼저 hadoop을 실행한다. 2. jps hadoop 실행 환경을 확인한다. 3. ls $HIVE_HOME/examples/files 운영체제 HIVE 폴더에서 이후에 HIVE로 가져올 데이터 파일들을 확인한다. 그리고 hive를 입력하여 hive에 접속한다. 4. create table events(key int, value string); - sql과 비슷한 hive의 hql언어를 지금부터 사용한다. - events라는 table을 만든다. - 이 테이블에 운영체제에 있는 우리가 필요한 파일을 넣을 것이다. 5. create table..
빅데이터의 유형 1) 구조화 데이터 - 행과 열로 구조화 되어 있다. - 고객데이터, 업무데이터, 거래데이터 등 - 관계 데이터베이스에 저장 - 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db 2) 반구조화 데이터 - XML, JSON : 키와 값 구조로 되어있다. - NoSQL 데이터베이스에 저장 - 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase 3) 비구조화 데이터 ,빅데이터 - 텍스트, 동영상, 음성 - 하둡(분산처리시스템)에 저장 및 처리 - 앞으로 언급할 하둡에코(합체)시스템 : Hive1, Hive2, Pig, Spark * 하둡 이해하기 https://warm-uk.tistory.com/57 =>이제 하둡에 합체되어 ..
하둡 대표 명령어 - OS명렁어(unix명령어)하고 비슷한 shell 명령어 - hadoop fs -help : 하둡 fs에서 제공하는 명령어 확인 - hadoop fs -ls : 지정된 폴더나 파일 정보를 출력, 권한정보, 소유자, 생성일자, 바이트 수 확인 - hadoop fs -lsr : 현재 폴더 및 하위 디렉토리 정보까지 출력 - hadoop fs -du : 지정된 폴더나 파일에 사용량을 확인하는 명령어 - hadoop fs -dus : du는 폴더와 파일별 용량 / dus는 전체 합계 용량 - hadoop fs cat : 지정된 파일의 내용을 출력. 텍스트 파일만 출력 - hadoop fs -mkdir : 지정된 경로에 폴더를 생성, 이미 존재하면 error - hadoop fs -put [운..
빅데이터의 유형 1) 구조화 데이터 - 행과 열로 구조화 되어 있다. - 고객데이터, 업무데이터, 거래데이터 등 - 관계 데이터베이스에 저장 - 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db 2) 반구조화 데이터 - XML, JSON : 키와 값 구조로 되어있다. - NoSQL 데이터베이스에 저장 - 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase 3) 비구조화 데이터 ,빅데이터 - 텍스트, 동영상, 음성 - 하둡(분산처리시스템)에 저장 및 처리 - 앞으로 언급할 하둡에코시스템 : Hive 1, Hive2, Pig, Hbase, Spark => 빅데이터 및 비구조화 데이터를 저장하고 처리하기 위한 프로그램 하둡을 알아보자! 1. ..
1. 빅데이터 왜 활용하는가? - Digitizing business ex1) 이마트는 물건 만드는 회사가 아닌 물건 파는 회사였다. 하지만 현재는 만들어서 판매하고 있다. 예를 들면 너구리와 신라면이 있고, 중간 라면을 만들어서 팔면 효과가 있을 것이다 판단하여 판매를 하게 되었다. => 기존에는 고객의 데이터를 분석해서 상품들을 사라고 홍보하였다. -> 현재에는 고객이 원하는 것을 찾아 만들어 판다. => 새로운 고객층을 분석하는 것이 아니라 새로운 시장을 찾아야 한다. => 고객 데이터 뿐 아니라 SNS 데이터등의 빅데이터가 필요하다. ex2) 나이키의 적은 아디다스이다? 아니다. 게임하는 사람들은 운동용품을 구매하지 않는다. 나이키의 적은 아디다스가 아니라 게임회사이다. => 모든 관점에서 다 분..