Hadoop 기초

BigData 2016. 8. 1. 08:18

#Hadoop


1. 배경

     - cloud 환경 : utility 의 개념으로 사용한 만큼 과금하는 서비스

      1) 종류 : DaaS, IaaS , SaaS , DaaS , XaaS(무엇이든 올 수 있다)

      2) 장점 : 시간 절약, 비용 절약

      3) 아시아 지역 cloud 업체 : KT, 화웨이, 알리바바 etc

    - 빅 데이터

      1) 비교 : **기존 데이터베이스** 관리도구 로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량

      2) 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술

    - 기계학습 : 분류 > 예측 > 군집 > 패턴인지


2. 하둡

    - 정의

1) apache 내 데이터베이스 그룹 내에 존재하는 프로젝트

      2) 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크

    - 특징

      1) 다량의 큰 파일 보관하기 용이함

      2) 작은 파일 보관에는 부적합


3. 하둡 아키텍쳐

    - HDFS(Hadoop Distributed File System) : 여러 하둡 저장소의 집합

    - MapReduce : 정렬, 분석 하는 배치스타일의 작업

    - 데이터 처리 : 언어(java) -> Scala (함수형 언어.. 네이버, 다음 등에서 도입예정)


4. 하둡 에코시스템 : 하둡 관련 프로젝트

     - hadoop : DataWare 역할

     - Zookeeper : HA 구성 등...

     - hive : 하둡을 RDB 처럼 사용하게끔 SQL 사용하도록 돕는다

     - SQL 처리 관련 프로젝트

        1) 배치성 SQL : hive

        2) real time SQL : Tajo, Impla

     - 실시간 분석처리 엔진

        1) spark : SNS 분석 가능

        2) storm 프로젝트

        3) 커낵션 풀 : GearmanD

        4) 어플리케이션 서버 (Thrift, Avro ..)

'BigData' 카테고리의 다른 글

Hadoop - MapReducer  (0) 2016.08.02
HDFS ( Hadoop Distributed File System )  (0) 2016.08.01
Hadoop 설치  (0) 2016.08.01
Posted by 감각적신사
,