728x90

아파치 스파크(링크)

인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크입니다.

 

스파크의 특징은 다음과 같습니다.

  • Speed
    • 인메모리(In-Memory) 기반의 빠른 처리
  • Ease of Use
    • 다양한 언어 지원(Java, Scala, Python, R, SQL)을 통한 사용의 편이성
  • Generality
    • SQL, Streaming, 머신러닝, 그래프 연산 등 다양한 컴포넌트 제공
  • Run Everywhere
    • YARN, Mesos, Kubernetes 등 다양한 클러스터에서 

 

맵리듀스 -> 대표적으로 Hadoop(링크)

: 대용량 데이터를 처리를 위한 분산 프로그래밍 모델

- 구글에서 2004년 발표한 소프트웨어 프레임워크

- 타고난 병행성(병렬 처리 지원)을 내포

- 누구든지 임의로 활용할 수 있는 충분한 서버를 이용하여 대규모 데이터 분석 가능

- 흩어져 있는 데이터를 수직화하여, 그 데이터를 각각의 종류 별로 모으고(Map),Filtering Sorting을 거쳐 데이터를 뽑아내는(Reduce) 분산처리 기술과 관련 프레임워크를 의미

 

728x90

+ Recent posts