728x90

백엔드 개발자로서 커리어를 시작하게 되었고 좀 더 세부적으로 회사에서 데이터 엔지니어 업무를 맡게 되어서 새로 공부를 시작하게 되었다. 

실질적으로 데이터 사이언스에 대한 부트캠프나 툴에 대한 가이드는 많다.

하지만 정확하게 어떤 업무를 하는지, 기본적으로 어떤 공부를 하면서 기본을 쌓아갈 수 있는지? 더하여서 백엔드 개발자로서 커리어를 시작했는데 데이터 업무를 하는 것이 어떤 연관성이 있는지에 대한 기본적인 부분에 대해서는 정리가 되어 있지 않은것 같아서 공부를 하면서 여기저기 흩어진 개념들을 정리해보려 한다. 

 

데이터 사이언스 또한 생소하지만 요즘들어 많이 들리는 단어인데 이에 더해서 데이터 엔지니어라는 업무또한 심심치않게 들리고 있는 상황이다. 정확하게 두 직무는 어떤 역할을 하고 어떤 차이가 있는 것일까?

여러 공부를 하기에 앞서 정확히 내가 해야하는 업무에 대한 정의가 중요하다고 생각했고, 이번에는 이에 대해서 간략하게 정리해 보았다.

 

Data Scientist(DS) VS Data Engineer(DE) (참고 블로그 : 카카오 개발블로그)

두 직무에 대한 정의는 카카오 개발 블로그를 참고했다.

데이터 엔지니어링을 딱 떨어지게 정의할 수는 없지만 대략적으로 정리하면 데이터 사이언스와 협업하면서, 데이터 사이언스나 분석가들이 업무를 더 잘 할 수 있도록 데이터를 더 잘 수집하고 가공하고 관리한다고 볼 수 있다. 사실 직무 정의보다 우리에게 중요한 것은, 모든 회사는 성장을 꿈꾸니 현재는 스몰 데이터라도 미래에는 빅 데이터, 베리 베리 빅 데이터를 꿈 꿀 것이고 그럴수록 더더욱 데이터의 가치는 더욱 중요해질 것이고 그러니 앞으로도 데이터 엔지니어와 데이터 사이언티스트가 많이 필요하다는 사실!

실제로 해당 회사의 성격과 해당 조직의 상황에 따라 DS와 DE의 업무 정의가달라진다. (물론 이를 나누지 않는 조직도 있다.)

크게는 DS 즉 데이터 사이언스가 있고, 대부분 DS가 모델링 및 분석부터 데이터 엔지니어가 하는 파이프라인 관리, 데이터 수집 및 가공 업무도 함께 맡게 된다.

이러한 데이터 사이언스가 전반적인 데이터 업무의 역할을 하면서 조직의 규모가 더 커지고 데이터 양이 방대해 지면서 둘의 역할이 더 세분화되며 구분되는 것이다.

 

그렇다면 전반적으로 데이터 관련된 업무들은 어떻게 정의되고 있는 것일까? 위의 정의에서 본다면 데이터 사이언스는 크게 데이터 엔지니어 업무까지 포괄하고 있으며 확실히 개발적인 업무에 더 가깝다고 볼 수 있다.

물론  큰 조직에서는 데이터 엔지니어가 프로그래밍 업무를 진행하며 보통 백엔드개발자들이 데이터 엔지니어링 업무로 커리어 방향을 쌓아 가지만..

빅데이터 개념이 생겨나면서 관련된 업무는 크게 위와 같이 구분된다. 데이터 분석가는 그로스해킹과 데이터 사이언스의 중간 지점에서 분석과 마케팅 업무를 진행하는 것으로 업무를 정의할 수 있다.

 

그렇게 실제로 조직이 커지면 아래와 같이 업무가 구분된다.

참고) 넷플릭스 (유튜브 영상 - Delivering High Quality Analytics at Netflix)

 

데이터 사이언스를 시작하기 전에(참고 블로그)

데이터 분야에서 개발자로서 내가 어떤 방향으로 업무를 진행해야하는 지에 대해서는 정리할 수 있었다.

하지만 어떤 기반으로 공부를 해야 좀 더 탄탄하게 기초를 쌓을 수 있을까? 고민이 들었다. 

DE, DS를 구분하지 않고 전반적인 데이터 분야에 대해 프로그래밍을 기반으로 공부해보려 할 때 위의 블로그를 읽으며 그 방향에 대해 정리할 수 있었다. 

Think of Artificial Intelligence as the top of a pyramid of needs. Yes, self-actualization (AI) is great, but you first need food, water, and shelter (data literacy, collection, and infrastructure).

데이터분야에 대해 커리어를 쌓기 위해서 어떤 기반으로 공부를 해야하는 지 정말 beginner들이 읽으면 좋은 블로그 글이었다. 그중에서도 나는 위의 인용문이 가장 인상 깊어서 그대로 가지고 왔다.

위의 블로그에는 데이터 사이언스 즉, 조직 내에서 데이터를 관리하려 할 때 흔히 하는 실수를 지적하면서 실질적으로 '빅데이터'를 기반으로 조직이 성장하기 위해서 데이터를 어떻게 다루어야 하는지에 대해 설명하고 있다.

보통 데이터 사이언스라 하면, AI나 크롤링 같이 멋있는 기술들을 생각하며 특정 툴과 기술을 익히려 하지만 이는 위의 인용문과 같이 가장 기본적으로 필요한 요소가 없이, 즉 탄탄힌 기반없이 데이터를 다루는 것이라 지적한다.

따라서 머신러닝, 딥러닝 등의 모델링과 분석적인 툴들에 대한 이해도도 물론 중요하지만, 더 기본적인 데이터에 대한 공부와 그 파이프라인을 어떻게 효율적으로 관리할 수 있는 지에 대해서 우선적으로 공부해보려 한다.

 

 

 

728x90

+ Recent posts