본문 바로가기

데일리 미션

데이터 분석 용어 정리

1. 기본 용어

데이터(Data)
데이터는 조직이 수집, 저장 및 분석하는 가공되지 않은 사실, 수치 및 고객 이름, 연락처 세부 정보와 같은 정보를 말한다. 데이터는 고객 상호 작용, 설문 조사, 센서 및 소셜 미디어와 같은 다양한 소스에서 가져올 수 있다.

 

빅데이터(Big data)

빅데이터는 크고 복잡한 양의 정보를 의미한다. 빅 데이터의 5V(볼륨, 속도, 정확성, 가치, 다양성)는 빅 데이터를 저장, 관리 및 분석하는 데 필요한 과제를 정형, 비정형 및 반정형 형태로 설명다.

 

데이터 분석(Data analytics/analysis)

데이터 분석은 RAW 데이터를 검사하여 결론을 도출하는 과학이다. 여기에는 데이터를 보다 쉽게 이해하고 집계 및 시각화 할 수 있는 도구와 기술이 포함된다. 

[+] Data analystics와 Data analysis의 차이는?
- Data analystics : 비즈니스 결정을 내리기 위해 데이터와 도구를 사용하는 광범위한 분야
- Data analysis : 유용한 정보를 찾기 위한 데이터 정리, 변환, 모델링, 가설 설정 등 특정 작업을 포함하는 하위 개념
* 차이점에 대해서는 https://www.bmc.com/blogs/data-analytics-vs-data-analysis/

 

비즈니스 분석(Business analytics)
비즈니스 분석은 비즈니스 데이터를 사용하여 성과 예측 또는 의사결정 하는 작업을 말한다. 주로  데이터를 모델링하고 분석하여 새로운 인사이트를 식별하고 추세를 예측하는데 쓰인다. 

 

데이터 사이언스(Data science)
데이터 사이언스는 과학적 방법, 통계, 알고리즘 및 데이터 마이닝 기술을 결합하여 정형 및 비정형 데이터에서 인사이트를 생성하는 분야다.

데이터 마이닝(Data mining)
데이터 마이닝은 대규모 데이터 세트에서 패턴을 발견하는 프로세스다. 기계 학습, 통계 및 데이터베이스 시스템과 같은 기술을 사용하여 RAW 데이터를 유용한 정보로 변환한다.

 

데이터 모델링(Data modeling)

데이터 흐름을 도식화하는, 다른 말로 하면 데이터베이스를 구축하기 위한 분석 및 설계 과정을 말한다. 여기엔  데이터를 분석하고 정의하는 것은 물론, 데이터 간의 관계를 분석하고 정의하는 프로세스가 포함된다. 비즈니스에서 데이터 사용 방법과 시기를 결정하면 데이터 모델링 프로세스는 데이터 요구 사항을 이해하고 명확히 하는 과정을 수행다.

 

데이터 파이프라인(Data pipeline)

데이터가 차례로 전달되도록 구성된 시스템이다. 데이터의 원천부터 필요한 데이터를 추출하고, 그 데이터를 정제하고, 변환하고, 분석하고, 저장하고, 전달하는 과정을 포함한다. 데이터 수집 방식 및 달성 목표에 따라 구성이 달라진다. 

 

데이터베이스 관리 시스템(DBMS: Database Management System)

데이터베이스에 접근하여 데이터베이스 정의, 조작, 제어 등 데이터베이스 관리를 지원하는 소프트웨어를 말한다. 데이터베이스에 적재된 데이터 작업을 수행할 뿐만 아니라 데이터베이스를 보호하고 보안을 제공한다.

 

데이터 조화(Data harmonization)
데이터 조화는 여러 소스의 데이터를 모아 단일 데이터 소스처럼 작동하는 통합 데이터 세트를 만드는 프로세스다. 데이터 요소, 형식 및 구조를 정렬하여 불일치를 제거하고 데이터를 보다 쉽게 비교 및 분석할 수 있도록 한다.

데이터 인사이트 및 실시간 인사이트(Data insights and real-time insights)
데이터 인사이트는 데이터 분석을 통해 얻을 수 있는 데이터 패턴 및 추세와 같은 핵심 결과다. 실시간 인사이트는 이커머스 사이트를 통한 판매와 같이 이벤트가 발생하는 순간에 들어오는 데이터 분석의 즉각적인 최신 정보다. 이러한 인사이트를 사용하여 의사 결정 및 전략을 안내할 수 있다.

 

 

2. 플랫폼 및 저장소

고객 데이터 플랫폼(CDP: Customer Data Platform)

회사의 모든 고객 데이터를 한 곳으로 통합하는 플랫폼을 말한다. CDP는 기업이 웹 사이트, 모바일 앱, 이메일 및 소셜 미디어와 같은 소스에서 고객 데이터를 수집, 구성 및 사용하여 고객의 통합 프로필을 구축할 수 있도록 지원한다.

* 상세 정보는 https://blog.dighty.com/business/?idx=12504691&bmode=view

 

데이터 레이크(Data lake)
데이터 레이크는 RAW 데이터의 중앙집중식 스토리지 저장소를 말한다. 조직에서 대량의 정형, 비정형 및 반정형 데이터를 원래 형식으로 수집하고 저장하는 데 사용하는 방대하고 유연하며 경제적인 스토리지 시스템이다. 데이터 레이크는 소셜 미디어 게시물, 센서 로그 및 위치 데이터와 같은 풍부한 비정형 데이터를 캡처한다. 

 

데이터 웨어하우스(Data warehouse)
데이터 웨어하우스는 분석 가능하도록 처리된 데이터를 위한 조직화된 대규모 저장 공간으로, 조직은 다양한 소스로부터 구조화된 방식으로 정보를 수집하고 저장한다. 여러 개의 DB를 포함하는 폴더와 같은 역할을 한다. 


데이터 레이크하우스(Data lakehouse)
데이터 레이크하우스는 데이터 레이크의 확장성과 유연성, 그리고 데이터 웨어하우스의 구조와 거버넌스를 모두 갖추고 있다. 이러한 하이브리드 품질 덕분에 조직은 형식이나 크기에 관계없이 모든 데이터에서 인사이트를 쉽고 빠르게 추출할 수 있다.

 

 

3. 시각화 및 보고 관련 

데이터 시각화(Data visualization)
데이터 시각화는 정보를 더 쉽게 이해할 수 있도록 상세 차트, 그래프 및 지도를 만드는 작업이다. 이를 통해 조직은 데이터의 추세와 패턴을 더 잘 파악할 수 있으며, 비전문가도 데이터를 이해하고 해석할 수 있다.

 

대시보드(Dashboard)
대시보드는 상황을 모니터링하거나 이해를 돕기 위해 사용되는 데이터의 시각적 표시다. 대시보드에는 일반적으로 중요한 비즈니스 프로세스와 KPI를 설명하는 여러 대화형 차트가 포함된다.

데이터 스토리텔링(Data storytelling)
데이터 스토리텔링은 데이터, 시각화 및 내러티브를 사용하여 통찰력을 전달하고 청중에게 설득력 있는 이야기를 전달하는 것이다. 스토리를 생성하여 데이터 내러티브를 전달하고, 맥락을 제공하고, 결정이 결과와 어떻게 관련되는지 보여주거나, 단순히 설득력 있는 사례를 만들 수 있다.

 

 

4. 데이터 문화 및 보안 관련 

데이터 리터러시(Data literacy)
데이터 리터러시는 데이터를 탐색하고 이해하고 통신하는 능력이다.

 

데이터 문화(Data culture)
데이터 문화는 의사 결정을 강화하기 위해 데이터 사용을 중시하고 실천하고 장려하는 사람들의 집단적인 행동과 신념이다. 데이터 문화는 데이터 분석가뿐만 아니라 모든 사람이 데이터를 활용하여 비즈니스 가치를 발굴하고 창출할 수 있도록 지원한다.

데이터 거버넌스(Data governance)
데이터 거버넌스는 조직이 데이터의 안정성과 관련성을 보장하기 위해 라이프 사이클 전반에 걸쳐 데이터를 효과적으로 처리하기 위한 규칙과 책임을 정의하는 데 사용하는 프레임 워크다. 이러한 규칙은 유용성, 품질, 정책 준수, 개인 정보 보호 및 보안을 유지하기 위한 프로세스와 프로토콜을 정의한다.

 

데이터 마스킹(Data masking)
데이터 마스킹은 민감한 정보 또는 개인 정보를 보호하고 개인 정보 요구 사항을 준수하기 위해 중요한 데이터를 가상 또는 익명화 된 데이터로 대체하는 프로세스다. 데이터 마스킹은 실제 데이터가 필요하지 않거나 타사와 데이터를 공유할 때, 교육 또는 테스트 시나리오에서 사용된다. 또한 마스킹을 사용하여 AI 프롬프트를 작성하거나 AI 모델을 교육할 때 모든 개인 데이터를 제거할 수 있다.

데이터 보안(Data security)
데이터 보안은 권한이 승인된 개인만 특정 데이터에 액세스할 수 있도록 사용자 권한 및 역할 기반 액세스와 같은 조직의 데이터를 보호하는 데 사용되는 조치 및 관행을 의미한다.


5. 기타

정형, 비정형, 반정형 데이터(Structured, unstructured, and semi-structured data)
정형 데이터는 스프레드시트 또는 고객 데이터베이스와 같은 고정 형식으로 잘 정의된 구조화된 데이터다. 각 고객에 대한 행과 이름, 주소, 전화 번호 등 열이 있어 기존 분석 툴을 통해 쉽게 이해하고 검색할 수 있으며 기계로 읽을 수 있다.

비정형 데이터는 미리 정의된 형식이나 특정 데이터 모델이 없는 정보로 인사이트를 생성하기 위해 특수한 도구가 필요하다. 비정형 데이터의 예로는 이메일, 소셜 미디어 게시물, 오디오 및 비디오 녹화, 이미지 및 웹 페이지가 있다. 비정형 데이터는 정형 데이터보다 더 빠른 속도로 증가하고 있어 다수 기업에게 이를 원활하게 분석할 수 있는 빅데이터 기술이 중요하게 떠오르고 있다. 

반정형 데이터는 일부 조직 구조를 가지고 있지만 있는 그대로 분석하기가 쉽지 않다. 구조화된 데이터와 같은 관계형 데이터베이스로 가져오려면 일부 구성 또는 정리 작업이 필요하다.

 

 


 

* 출처:

Salesforce┃회사와 팀에게 도움이 되는 데이터 용어집 https://www.salesforce.com/kr/hub/crm/data-glossary/

정보통신용어사전 ┃한국정보통신기술협회 http://word.tta.or.kr/main.do

pap ┃홍선아  https://playinpap.github.io/data-pipeline/

microsoft https://powerbi.microsoft.com/ko-kr/what-is-data-modeling/