#Hadoop
1. 배경
- cloud 환경 : utility 의 개념으로 사용한 만큼 과금하는 서비스
1) 종류 : DaaS, IaaS , SaaS , DaaS , XaaS(무엇이든 올 수 있다)
2) 장점 : 시간 절약, 비용 절약
3) 아시아 지역 cloud 업체 : KT, 화웨이, 알리바바 etc
- 빅 데이터
1) 비교 : **기존 데이터베이스** 관리도구 로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량
2) 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술
- 기계학습 : 분류 > 예측 > 군집 > 패턴인지
2. 하둡
- 정의
1) apache 내 데이터베이스 그룹 내에 존재하는 프로젝트
2) 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크
- 특징
1) 다량의 큰 파일 보관하기 용이함
2) 작은 파일 보관에는 부적합
3. 하둡 아키텍쳐
- HDFS(Hadoop Distributed File System) : 여러 하둡 저장소의 집합
- MapReduce : 정렬, 분석 하는 배치스타일의 작업
- 데이터 처리 : 언어(java) -> Scala (함수형 언어.. 네이버, 다음 등에서 도입예정)
4. 하둡 에코시스템 : 하둡 관련 프로젝트
- hadoop : DataWare 역할
- Zookeeper : HA 구성 등...
- hive : 하둡을 RDB 처럼 사용하게끔 SQL 사용하도록 돕는다
- SQL 처리 관련 프로젝트
1) 배치성 SQL : hive
2) real time SQL : Tajo, Impla
- 실시간 분석처리 엔진
1) spark : SNS 분석 가능
2) storm 프로젝트
3) 커낵션 풀 : GearmanD
4) 어플리케이션 서버 (Thrift, Avro ..)
'BigData' 카테고리의 다른 글
Hadoop - MapReducer (0) | 2016.08.02 |
---|---|
HDFS ( Hadoop Distributed File System ) (0) | 2016.08.01 |
Hadoop 설치 (0) | 2016.08.01 |