Partitioning(파티셔닝)과 Sharding(샤딩)

Hazel_song 2022. 8. 21. 13:35

2022. 8. 21. 13:35

728x90

이번에는 정말 기초적인 개념에 대해서 공부를 하고 정리를 해보았다.

partitioning과 sharding을 많이 들어보기도 했고, 실제로 사용도 해보았지만, 막상 이걸 설명을 하려고 하고 partitioning과 sharding의 차이에 대해서 정리해보려고 하니까 잘 안되더라..그래서 이 참에 한 번 정리를 쭉 해보았다.

(부끄럽..이거 외에도 기초지식을 좀더 탄탄히 잡아야할 필요성을 요즘 많이 느끼고 있다.)

Intro

파티셔닝과 샤딩을 사용하는 목적은 실질적으로 동일하다.

DBMS에 너무 큰 용량이 데이터를 다루게 되면서 이에 대한 성능을 향상시키기 위해서 데이터베이스를 분할하여 데이터를 저장하고 활용하고자 하는 것이 바로 파티셔닝과 샤딩이다.

실질적으로 파티셔닝 혹은 샤딩을 사용했을 경우 얻을 수 있는 이점 또한 유사하다(목적이 동일하기 때문이 아닐까 싶다)

성능향상
1. 특정 쿼리의 성능을 향상
2. 대용량 쓰기 환경에서 효율적
3. 필요한 데이터만 빠르게 조회할 수 있으므로 쿼리가 가벼워진다
4. full scan에서 데이터 접근의 범위를 줄여 성능을 향상할 수 있다.
가용성
1. 물리적인 파티셔닝으로 전체 데이터의 훼손 가능성이 준다
2. 파티션 별로 독립적으로 백업하고 복구가능
3. 파티션 단위로 disk i/o를 분산하여 경합을 줄이므로 update 성능 향상
관리 용이성

결국 이에 따른 트레이드 오프 또한 유사하다.

바로 테이블을 여러 파티션으로 쪼갰기 때문에 테이블 간의 join 비용이 증가한다는 점이다.

정확하게 샤딩은 파티셔닝 중에서도 수평파티셔닝과 같이 언급되는데, 이는 실질적인 목적도 동일하고 방식도 비슷하기 때문이다.

하지만 이 둘을 다른 개념으로 나누어서 활용하는 이유는 있을 것이다.

따라서 각 개념에 대해서 정리를 하며 차이점을 파악하고 각 특징에 대해서도 정리해보려 한다.

Sharding(샤딩)

샤딩은 위의 그림과 같이 하나의 테이블 내에서 특정 칼럼을 key로 잡고 특정 기준에 의해서 수평으로 쪼개는 것이다.

샤딩의 가장 큰 특징은 이렇게 쪼갠 두개 이상의 테이블을 서로 다른 데이터베이스에 분산 저장한다는 것이다.

즉 DBMS하나를 사용할 때, 리소스 및 성능과 관련해서 여러 이슈가 발생할 경우,

다수의 데이터베이스에 분산 저장하여 성능적 한계를 극복하는 것이다.

실제로 이렇게 데이터베이스 하나를 사용하는 경우의 성능적 한계를 극복하기 위해 등장한 것이 분산 스토리지들이다.
그러나 분산 스토리지의 경우 여러 기능적인 제약이 뒤따른다(Join/ 범위검색이 힘들다)
따라서 기능을 최대한 활용하면서도 데이터 확장을 위해서 RDBMS를 샤딩하여 사용하는 것이다.

샤딩의 방식

Hash Sharding

Shard Key : Database id를 Hashing
아주 간단한 Sharding 기법
수평 파티셔닝의 해시분할과 유사한 방식인거 같다.

Dynamic Sharding

Locator Service(위의 그림에서 데이터의 range와 그에 따른 키를 대응하여 정리해둔 가상의 테이블을 의미)를 통해 Shard Key를 얻는다.
Cluster가 포함하는 Node 개수를 늘려본다면?
- Locator Service에 Shard Key를 추가
- 기존의 Data의 Shard Key는 변경이 없다.
- 확장에 유연한 구조.
Example
- HDFS : Name Node
- MongoDB : ConfigServer

Entity Group

실질적으로 Hash Sharding과 Dynamic Sharding은 Key-Value 형태를 지원하기 위해 나온 방법이다. 즉 RDBMS에서의 샤딩 방식이라기 보다는 NoSQL의 샤딩 방식이다.

RDBMS의 join, index, transaction을 사용함으로써 Application의 복잡도를 줄이는 방법과 유사한 방식으로 샤딩하는 것이 위의 그림에서 설명하는 Entity Group이다.

샤딩의 단점

데이터베이스 서버 간의 연결 과정이 많아져서 비용이 증가할 수 있다.
하나의 서버가 고장나면 데이터의 무결성이 깨질수도 있다.
가장 큰 문제는 하나의 트랜잭션에서 두 개 이상의 샤드에 접근할 수 없다는 것이다.
여러 데이터 베이스를 대상으로 작업해야 하므로 경우에 따라서는 Join등의 기능에 제약이 있을 수 있고 일관성과 복제 등에 불리한 점이 많다.

따라서!

가능하면 샤딩을 피하거나 지연시킬 수 있는 방법을 찾는 것이 우선되어야 한다.

Scale-in
- Hardware Spec이 더 좋은 컴퓨터를 사용
Read 부하가 크다면?
- Cache나 Database의 Replication을 적용
Table의 일부 컬럼만 자주 사용한다면?
- Vertically Partition(수직 파티셔닝)
- 이를 통해 Data를 사용빈도에 따라서 Hot, Warm, Cold Data로 분리

즉, 샤딩은 많은 데이터를 저장하고 있는 데이터 베이스를 효율적으로 활용하기 위한 방안이지만, 여러 트레이드오프 때문에 최대한 다른 방법을 활용하여 샤딩을 피해야 한다고 한다.