Intro
데이터 거버넌스..! 요즘 참 은근하게 많이 들리는 개념이다.
거버넌스라는 용어만 잘라서 정의를 살펴보면 "관리, 통합, 정책" 등의 용어와도 관련이 있어 보인다.
이전에는 대략적으로 데이터를 관리하기 위한 어떠한 업무나 프로세스겠구나 생각을 했었는데, 회사에서 데이터 거버넌스 담당자로 이에 대해 운영을 하고 정책에 대해서 고민하면서 본질적으로 데이터 거버넌스는 무엇일까? 어느 범위까지가 데이터 거버넌스일까?하는 고민을 많이 하게 되었다.
그래서 이 참에 본질로 돌아가서 데이터 거버넌스라는 용어에 대해 정리하고 내 나름대로 정의를 내려 정리해보려 한다.
데이터 거버넌스가 중요한이유?
명확하게 정의를 내리기 어려운 개념에 대해서 억지로 정리하려하기 보다는 해당 개념이 어디에서 쓰이고 왜 필요한지, 그리고 왜 중요한지를 생각하다보면 자연스레 그 개념에 대해서 잘 정리가 될 수 있다 생각한다.
그래서 데이터 거버넌스가 왜 중요한지? 어디에 필요해서 요즘 여기저기서 들려오는걸까?에 대해서 정리해보았다.
데이터의 품질 측면
데이터의 좋은 품질을 위해서 데이터 거버넌스가 필요하다.
그렇다면 데이터의 품질이 좋다는 것은 어떤 의미일까?
바로 원천에서 부터 로드되는 다양한 저장소까지 데이터가 가공되고 흘러가면서도 데이터가 가지고 있는 정보 자체가 누락/중복되지 않고 일관성있게 전달된다는 의미로 이해할 수 있다.
데이터분야에서 일하게되면 알수 있듯이, 데이터는 서비스에서 생성되어 서버에 저장된 그대로가 바로 분석 등의 다양한 용도로 활용되는 것이 아니다. 그 목적에 맞게 여러 파이프라인을 거쳐 가공되고 전달된다.
그 과정에 대한 정책과 관리가 이루어 지지 않는다면 데이터가 어느순간 잘못 전달될 수도 있고, 잘못 전달된 데이터를 파악하려 할때 어디가 원인인지 파악하기 어려워서 해결에도 많은 시간이 소요된다.
사례
실제로 회사 내에서의 사례 중 하나를 예로 들어보겠다.
서비스 데이터 베이스의 변화로 인해서, 일부 테이블들의 데이터가 새로운 테이블로 마이그레이션 되고 기존 테이블은 삭제가 될 예정이다.
그냥 테이블을 삭제하고 파이프라인을 정리하면 될것 같지만, 해당 데이터들의 파이프라인은 점차 단계를 거칠수록 서로 엮이고 엮여서 1개의 마트테이블이 되곤 한다.
이에 대해서 각 단계별로 테이블에 대한 정의나, 마트와의 연결관계를 정리해두지 않는다면, 테이블 삭제가 마트 테이블에도 영향을 미쳐 결국 회사에서 전사적으로 확인해야 하는 대시보드나 지표에 영향을 미치게 된다.
데이터 보안 측면
데이터는 많은 정보를 담고 있고, 당연히 서비스를 활용하는 유저들의 중요한 개인정보가 포함되어 있다.
이에 대해서 아무나 모든 데이터에 접근해서 조회하고 변형한다면 개인정보에 대한 보안적인 이슈가 될 수 있다.
그렇다고 무작정 접근할 수 없게 다 막아버리면 유저에 대한 분석이 불가능해져버린다.
데이터 거버넌스는 이러한 보안적 이슈를 반영하여 회사 내 데이터 관련 정책을 고민하고 운영하는 것이다.
이러한 정책을 통해 데이터에 접근이 가능하도록 하여 회사 내 데이터에 대한 접근을 관리한다.
자칫 사람들이 데이터에 접근하기 어렵도록 제한을 두는 것이 데이터 거버넌스로 여겨질 수 있는데, 오히려 반대이다.
데이터 거버넌스 프로세스가 없다면 결국 데이터에 무작정 접근하지 못하게 될 수 밖에 없는데, 어떻게든 사람들이 데이터에 접근할 수 있도록 방안을 모색하는 것이 데이터 거버넌스이다.
사례
실제로 일배치를 통해 소스 데이터를 전달할때는 개인정보는 아예 null 처리 하여 익명데이터로 제공하는 경우가 꽤 있다.
하지만 익명화도 완전히 보안적으로 이슈가 없는 방안은 아니므로, 가명화를 처리하여 데이터를 제공하거나 데이터에 대한 접근권한을 사내 사용자 별로 꼼꼼하게 관리해야 한다.
그래서 데이터 거버넌스란?
데이터 거버넌스는 크게 데이터 품질, 보안 측면에서 중요한 개념이다.
좁은범위로는 데이터의 수집/사용/폐기와 이때의 사용자의 데이터 접근에 대해 관리하는 것이며
넓은 범위로는 데이터 스키마 관리, 보안 정책, 데이터 퀄리티 관리 등까지 포함하게 된다.
즉, 데이터와 관련하여 파편화된 많은 이슈들(보안, 수집/가공/적재의 라이프사이클, 접근 권한 등)을, 하나의 프로세스로 모아서 중앙화하여 관리하는 것이 데이터 거버넌스라고 할 수 있다.
- 데이터의 수집(생성)부터 사용, 그리고 폐기에 이르는, 데이터의 모든 과정을 관리하며 관련된 정책을 설정
- 테이블 생성자/소유자는 누구?
- 생성, 수정, 폐기 시의 프로세스
- 데이터의 모든 과정에서, 사용자의 활용(접근부터 수정까지)을 관리
- 누가 어느 데이터에 접근가능한지
- 어떤 데이터는, 어떤 관리방안이 필요한지
- 데이터의 보안 이슈를 파악하고 정책을 수립 및 관리
- 모든 데이터의 라이프사이클 내에서의 각 관계 파악 - 데이터 리니지
- 데이터 활용을 위한 데이터 디스커버리(카탈로그) 관리
데이터 거버넌스를 위해 고려해야 하는 사항
데이터 거버넌스를 수행하기 위해서 가장 고려해야 하는 사항은 무엇일까?
이는 해당 글을 참고했다.
- 중요한 데이터 요소를 식별하고 데이터를 전략적인 리소스로 취급하라
- 조직에 모든 데이터가 똑같이 중요한 것은 아니다. 데이터 인프라의 어떤 측면이 비즈니스에 어떻게 중요한지 아는 것도 중요하다.
- 데이터 라이프 사이클 전체를 위한 정책과 절차를 설정하라
- 데이터는 한 시점에만 존재하지 않는다. 생성되고 정리되며 업데이트되고 저장되며 분석되고 전송되며 백업되고 삭제되는 등 다양한 과정을 거친다.
- 라이프사이클의 모든 단계에는 잠재적인 접점이 있으며 다양한 단계를 통해 데이터를 잘 관리하려면 각 단계마다 정책과 절차가 있어야 한다.
- 라이프사이클 전반에 걸쳐 누가 소유자[이고] 어떤 시스템이나 사람이 데이터를 변경할 수 있는지 관리해야한다.
- 거버넌스 프로세스에 비즈니스 사용자를 참여시키라
- 비즈니스 사용자는 일반적으로 좋은 데이터 거버넌스의 최대 수혜자다.
- 즉 이 그룹을 활용해 어디에 문제가 있는지 확인하고 해결해야 한다.
- 마스터 데이터 관리를 간과하지 말라
- 모든 비즈니스 트랜잭션에 맥락을 제공하는 비즈니스 관련 데이터가 마스터 데이터다.
- 효과적인 마스터 데이터 관리는 더 큰 데이터 일관성과 정확도로 이어질 수 있다.
- 마스터 데이터의 표준화 및 교차 참조에 집중해야 한다. 이것이 없다면 데이터가 사일로화 되고 영역 간 데이터를 연계시킬 수 있는 방법이 없다.
outro
솔직히 말해서 이번에 데이터 거버넌스를 정리하면서 아하!까지는 아니고, 아~ 정도까지만 깨달은거 같다.
앞으로 어떤 부분을 더 공부하고 업무에 접목시켜야 할지를 파악했고, 현재 얼마나 많은 것들이 파편화 되어있는지 이걸 하나하나 내가 어떻게 주워서 모아 담을지를 고민해야할 필요성을 느꼈다.
가장 큰 담당 업무 중 하나로 아마 공부를 하면서 실제로 사내에 이런저런 시도를 해보며 많은 고민을 해볼거 같은데 그 과정을 한 번 쭉 정리해보려 한다.
'DE > Study' 카테고리의 다른 글
[Apache Spark]Spark Shuffle에 대해서 (0) | 2023.04.09 |
---|---|
[Hadoop_기초]Udemy course - 섹션 11-12. 마무리(현실시스템 설계하기) (1) | 2022.09.11 |
[Hadoop_기초]Udemy course - 섹션 10. Spark Streaming & Storm & Flink (1) | 2022.09.03 |
[Hadoop_기초]Udemy course - 섹션 9. Kafka & Flume (1) | 2022.08.29 |
[Hadoop_기초]Udemy course - 섹션 8-2. Oozie & Zeppelin & Hue (1) | 2022.08.14 |