욱이의 냉철한 공부

빅데이터 이해하기 본문

데이터엔지니어링/빅데이터 : Hadoop

빅데이터 이해하기

냉철한 욱 2021. 6. 22. 02:42

1. 빅데이터 왜 활용하는가? - Digitizing business

ex1)
이마트는 물건 만드는 회사가 아닌 물건 파는 회사였다. 하지만 현재는 만들어서 판매하고 있다.
예를 들면 너구리와 신라면이 있고, 중간 라면을 만들어서 팔면 효과가 있을 것이다 판단하여 판매를 하게 되었다.
=> 기존에는 고객의 데이터를 분석해서 상품들을 사라고 홍보하였다. -> 현재에는 고객이 원하는 것을 찾아 만들어 판다.
=> 새로운 고객층을 분석하는 것이 아니라 새로운 시장을 찾아야 한다.
=> 고객 데이터 뿐 아니라 SNS 데이터등의 빅데이터가 필요하다.

ex2)
나이키의 적은 아디다스이다? 아니다.
게임하는 사람들은 운동용품을 구매하지 않는다. 나이키의 적은 아디다스가 아니라 게임회사이다.
=> 모든 관점에서 다 분석해야한다. : 빅데이터가 필요하다.


2. 빅데이터 도입 방향

목적에 따라 빅데이터 분석이 필요한지 불필요한지 다 다르다.
우리가 빅데이터나 SNS에 얼마나 영향을 받는지 먼저 파악하는 것이 중요하다.

 


3. 빅데이터 어디서 생기는가?

인간이 만들어 내는 데이터 - SNS
센서가 만들어내는 데이터 -  IOT, cctv, 영상, 음성 등등..

 


4. 빅데이터에 대한 오해

데이터가 늘어나는 것은 한계가 있다. 더 이상 데이터는 늘어나지 않는다.
한정된 인구에서 SNS에 올리는 데이터는 한정되어 있다.
=> 데이터의 양이 발전하는 것이 아닌 분석이 발전하는 것이다.

 


5. 빅데이터의 유형

1) 구조화 데이터

- 행과 열로 구조화 되어 있다.
- 고객데이터, 업무데이터, 거래데이터 등
- 관계 데이터베이스에 저장 
- 앞으로 언급할 관계 데이터베이스 : 오라클-db, my-sql, mariai-db


2) 반구조화 데이터

- XML, JSON : 키와 값 구조로 되어있다.
- NoSQL 데이터베이스에 저장
- 앞으로 언급할 NoSQL 데이터베이스 : Mongo-db, Cassndra, Hbase


3) 비구조화 데이터

- 텍스트, 동영상, 음성
- 하둡(분산처리시스템)에 저장
- 앞으로 언급할 하둡에코시스템 : Hive 1, Hive2, Pig,  Spark