728x90
아파치 스파크(링크)
인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크입니다.
스파크의 특징은 다음과 같습니다.
- Speed
- 인메모리(In-Memory) 기반의 빠른 처리
- Ease of Use
- 다양한 언어 지원(Java, Scala, Python, R, SQL)을 통한 사용의 편이성
- Generality
- SQL, Streaming, 머신러닝, 그래프 연산 등 다양한 컴포넌트 제공
- Run Everywhere
- YARN, Mesos, Kubernetes 등 다양한 클러스터에서
맵리듀스 -> 대표적으로 Hadoop(링크)
: 대용량 데이터를 처리를 위한 분산 프로그래밍 모델
- 구글에서 2004년 발표한 소프트웨어 프레임워크
- 타고난 병행성(병렬 처리 지원)을 내포
- 누구든지 임의로 활용할 수 있는 충분한 서버를 이용하여 대규모 데이터 분석 가능
- 흩어져 있는 데이터를 수직화하여, 그 데이터를 각각의 종류 별로 모으고(Map),Filtering과 Sorting을 거쳐 데이터를 뽑아내는(Reduce) 분산처리 기술과 관련 프레임워크를 의미
728x90
'TIL(Today I Learned)' 카테고리의 다른 글
TIL_0928_DB Search(Python Django) (0) | 2021.09.29 |
---|---|
TIL_0826_python requests post json VS data (0) | 2021.08.29 |
TIL_210811_AWS IAM MFA 권한 허용 (0) | 2021.08.11 |
TIL_210811_Athena/Redshift/Glue (0) | 2021.08.11 |
TIL_210320_멀티프로세스 (0) | 2021.03.20 |