반응형

데이터를 나타내는 방법

데이터는 정형 데이터, 반정형 데이터, 비정형 데이터 총 3가지로 구분 가능.

정형 데이터

  • 정형 데이터는 고정된 스키마를 준수하여 모든 데이터가 동일한 필드 또는 속성을 갖는 데이터.
  • 정형 데이터의 스키마는 일반적으로 표 형식.
  • 데이터는 데이터 엔터티의 각 인스턴스를 나타내는 행과 해당 엔터티의 특성을 나타내는 열로 이루어진 하나 이상의 테이블로 표현됨.
  • 구조화된 데이터는 여러 개의 테이블이 관계형 모델을 가지며 서로를 키 값으로 참조할 수 있는 데이터베이스에 저장됨.

 

정형 데이터 예시

 

반정형 데이터

  • 반정형 데이터는 일부 구조를 갖지만 엔터티 인스턴스 간에 약간의 변동을 허용하는 데이터.
  • JSON(JavaScript Object Notation)은 반정형 데이터의 가장 일반적인 형식.

 

반정형 데이터 예시

 

비정형 데이터

  • 비정형 데이터는 구조화되거나 반구조화되지 않은 데이터.
  • 문서, 이미지, 오디오 및 비디오 데이터, 바이너리 파일와 같이 특정 구조를 갖지 않은 데이터.

 

데이터 스토리지 옵션

데이터 파일의 일반적인 형식

구분된 텍스트 파일

  • 특정 필드 구분 기호와 행 종결자를 사용하여 일반 텍스트 형식으로 저장되는 형식.
  • 가장 일반적인 형식인 CSV - 필드가 쉼표로 구분되고 행이 캐리지 리턴/줄 바꿈으로 종결되고, 선택적으로 첫 번째 줄이 필드 이름을 포함 가능.
  • 탭으로 구분된 TSV, 공백으로 구분, 고정 너비 데이터 등이 있음.

 

구분된 텍스트 파일 예시 - CSV

 

JSON(JavaScript Object Notation)

  • JSON은 유비쿼터스 형식으로 여러 특성을 갖는 데이터 엔터티(개체)를 정의하는 데 계층 구조의 문서 스키마가 사용됨.
  • 각 특성은 하나의 개체(또는 개체 컬렉션)일 수 있기 때문에 JSON은 정형 데이터와 반정형 데이터 양쪽에 적합한 유연한 형식.

 

JSON 예시

 

XML(Extensible Markup Language)

  • 1990년대와 2000년대에 널리 사용되었던 사람이 읽을 수 있는 데이터 형식으로 홑화살괄호(../)로 묶인 태그를 사용하여 요소와 특성을 정의함.
  • 특정 필드 구분 기호와 행 종결자를 사용하여 일반 텍스트 형식으로 저장되는 형식.
  • 보다 간략한 JSON 형식으로 거의 대체됨.

 

XML 예시

 

BLOB(Binary Large Object)

  • 데이터를 애플리케이션에 의해 해석되고 렌더링되어야 하는 원시 이진 데이터 형식을 의미하며 이러한 데이터 파일을 BLOB이라 함.
  • 이진 데이터로 저장되는 데이터의 일반적인 유형으로 이미지, 비디오, 오디오, 애플리케이션 전용 문서 등이 있음.
  • 위에서 데이터 형식들은 설명한 사람이 읽을 수 있는 형식으로 이진 데이터의 바이트가 (보통 ASCII 또는 유니코드와 같은 문자 인코딩 스킴을 통해) 출력 가능한 문자로 매핑되지만 BLOB은 사람이 읽을 수 없음.

 

최적화된 파일 형식

  • 사람이 읽을 수 있는 형식의 정형 데이터와 반정형 데이터는 유용하지만 대부분 스토리지 공간 또는 처리에 대해 최적화되지 않음.
  • 압축, 인덱싱, 효율적인 저장 및 처리를 지원하는 몇 가지 특수 파일 형식이 개발됨 - 예로 Avro, ORC, Parquet가 있음.

 

데이터베이스 유형

관계형 데이터 베이스

  • 관계형 데이터베이스는 정형 데이터를 저장하고 쿼리하는 데 널리 사용.
  • 데이터는 엔터티를 나타내는 테이블에 저장됨.
  • 엔터티의 각 인스턴스에는 이 인스턴스를 고유하게 식별하는 기본 키가 할당되며, 이러한 기본 키는 다른 테이블에 있는 엔터티 인스턴스를 참조하는 데 사용.
  • 키를 사용하여 데이터 엔터티를 참조하는 기능은 관계형 데이터가 정규화를 가능하게 함.
  • 정규화란 중복된 데이터 값이 제거됨을 뜻함.
  • 테이블은 SQL(구조적 쿼리 언어)을 사용하여 관리 및 쿼리됨.
  • SQL은 ANSII 표준을 기반으로 하기 때문에 여러 데이터베이스 시스템에서 비슷한 방식으로 사용됨.

 

관계형 데이터 베이스

 

비관계형 데이터 베이스

  • 비관계형 데이터베이스는 데이터에 관계형 스키마를 적용하지 않는 데이터 관리 시스템.
  • 대부분 NoSQL 데이터베이스라고 지칭되며, 일부 비관계형 데이터베이스는 SQL 언어의 변형을 지원함.
  • 키-값 데이터베이스 - 각 레코드는 고유한 키와 연결된 값으로 구성되며, 값은 임의의 형식이 가능함.
  • 문서 데이터베이스 - 키-값 데이터베이스의 특수 형태로, 값이 JSON 문서로 시스템이 구문 분석하고 쿼리하도록 최적화된 형식임.
  • 열 패밀리 데이터베이스 - 행과 열로 이루어진 표 형식 데이터를 저장. 열은 열 패밀리라는 그룹으로 나눌수 있고, 각 열 패밀리는 논리적으로 서로 관련된 열 집합을 보유함.
  • 그래프 데이터베이스 - 엔터티를 노드로 저장함. 노드는 노드 사이의 관계를 정의하는 링크를 갖고 있음.

 

비관계형 데이터 베이스

 

 


 

이전

 

[Azure 자격증 - DP-900] Microsoft Azure Data Fundamentals 개념 요구 사항

Microsoft Azure Data Fundamentals (DP-900) 개념 요구 사항 핵심 데이터 개념 설명(25~30%) 1. 데이터를 나타내는 방법 정형 데이터 반정형 데이터 비정형 데이터 2. 데이터 스토리지 옵션 데이터 파일의 일반

epictrave.tistory.com

 

다음 글

 

[Azure 자격증 - DP-900] 핵심 데이터 개념 - Part 2

일반적인 데이터 처리 트랜잭션 데이터 처리 트랜잭션 데이터 처리 시스템은 대부분의 사람들이 비즈니스 컴퓨팅의 기본 기능이라고 생각하는 시스템임. 트랜잭션 시스템에서 수행하는 작업을

epictrave.tistory.com

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기