반응형
데이터를 나타내는 방법
데이터는 정형 데이터, 반정형 데이터, 비정형 데이터 총 3가지로 구분 가능.
정형 데이터
- 정형 데이터는 고정된 스키마를 준수하여 모든 데이터가 동일한 필드 또는 속성을 갖는 데이터.
- 정형 데이터의 스키마는 일반적으로 표 형식.
- 데이터는 데이터 엔터티의 각 인스턴스를 나타내는 행과 해당 엔터티의 특성을 나타내는 열로 이루어진 하나 이상의 테이블로 표현됨.
- 구조화된 데이터는 여러 개의 테이블이 관계형 모델을 가지며 서로를 키 값으로 참조할 수 있는 데이터베이스에 저장됨.
반정형 데이터
- 반정형 데이터는 일부 구조를 갖지만 엔터티 인스턴스 간에 약간의 변동을 허용하는 데이터.
- JSON(JavaScript Object Notation)은 반정형 데이터의 가장 일반적인 형식.
비정형 데이터
- 비정형 데이터는 구조화되거나 반구조화되지 않은 데이터.
- 문서, 이미지, 오디오 및 비디오 데이터, 바이너리 파일와 같이 특정 구조를 갖지 않은 데이터.
데이터 스토리지 옵션
데이터 파일의 일반적인 형식
구분된 텍스트 파일
- 특정 필드 구분 기호와 행 종결자를 사용하여 일반 텍스트 형식으로 저장되는 형식.
- 가장 일반적인 형식인 CSV - 필드가 쉼표로 구분되고 행이 캐리지 리턴/줄 바꿈으로 종결되고, 선택적으로 첫 번째 줄이 필드 이름을 포함 가능.
- 탭으로 구분된 TSV, 공백으로 구분, 고정 너비 데이터 등이 있음.
JSON(JavaScript Object Notation)
- JSON은 유비쿼터스 형식으로 여러 특성을 갖는 데이터 엔터티(개체)를 정의하는 데 계층 구조의 문서 스키마가 사용됨.
- 각 특성은 하나의 개체(또는 개체 컬렉션)일 수 있기 때문에 JSON은 정형 데이터와 반정형 데이터 양쪽에 적합한 유연한 형식.
XML(Extensible Markup Language)
- 1990년대와 2000년대에 널리 사용되었던 사람이 읽을 수 있는 데이터 형식으로 홑화살괄호(../)로 묶인 태그를 사용하여 요소와 특성을 정의함.
- 특정 필드 구분 기호와 행 종결자를 사용하여 일반 텍스트 형식으로 저장되는 형식.
- 보다 간략한 JSON 형식으로 거의 대체됨.
BLOB(Binary Large Object)
- 데이터를 애플리케이션에 의해 해석되고 렌더링되어야 하는 원시 이진 데이터 형식을 의미하며 이러한 데이터 파일을 BLOB이라 함.
- 이진 데이터로 저장되는 데이터의 일반적인 유형으로 이미지, 비디오, 오디오, 애플리케이션 전용 문서 등이 있음.
- 위에서 데이터 형식들은 설명한 사람이 읽을 수 있는 형식으로 이진 데이터의 바이트가 (보통 ASCII 또는 유니코드와 같은 문자 인코딩 스킴을 통해) 출력 가능한 문자로 매핑되지만 BLOB은 사람이 읽을 수 없음.
최적화된 파일 형식
- 사람이 읽을 수 있는 형식의 정형 데이터와 반정형 데이터는 유용하지만 대부분 스토리지 공간 또는 처리에 대해 최적화되지 않음.
- 압축, 인덱싱, 효율적인 저장 및 처리를 지원하는 몇 가지 특수 파일 형식이 개발됨 - 예로 Avro, ORC, Parquet가 있음.
데이터베이스 유형
관계형 데이터 베이스
- 관계형 데이터베이스는 정형 데이터를 저장하고 쿼리하는 데 널리 사용.
- 데이터는 엔터티를 나타내는 테이블에 저장됨.
- 엔터티의 각 인스턴스에는 이 인스턴스를 고유하게 식별하는 기본 키가 할당되며, 이러한 기본 키는 다른 테이블에 있는 엔터티 인스턴스를 참조하는 데 사용.
- 키를 사용하여 데이터 엔터티를 참조하는 기능은 관계형 데이터가 정규화를 가능하게 함.
- 정규화란 중복된 데이터 값이 제거됨을 뜻함.
- 테이블은 SQL(구조적 쿼리 언어)을 사용하여 관리 및 쿼리됨.
- SQL은 ANSII 표준을 기반으로 하기 때문에 여러 데이터베이스 시스템에서 비슷한 방식으로 사용됨.
비관계형 데이터 베이스
- 비관계형 데이터베이스는 데이터에 관계형 스키마를 적용하지 않는 데이터 관리 시스템.
- 대부분 NoSQL 데이터베이스라고 지칭되며, 일부 비관계형 데이터베이스는 SQL 언어의 변형을 지원함.
- 키-값 데이터베이스 - 각 레코드는 고유한 키와 연결된 값으로 구성되며, 값은 임의의 형식이 가능함.
- 문서 데이터베이스 - 키-값 데이터베이스의 특수 형태로, 값이 JSON 문서로 시스템이 구문 분석하고 쿼리하도록 최적화된 형식임.
- 열 패밀리 데이터베이스 - 행과 열로 이루어진 표 형식 데이터를 저장. 열은 열 패밀리라는 그룹으로 나눌수 있고, 각 열 패밀리는 논리적으로 서로 관련된 열 집합을 보유함.
- 그래프 데이터베이스 - 엔터티를 노드로 저장함. 노드는 노드 사이의 관계를 정의하는 링크를 갖고 있음.
이전 글
다음 글
반응형
'Azure > DP-900' 카테고리의 다른 글
[Azure 자격증 - DP-900] Azure에서 비관계형 데이터 작업에 대한 고려 사항 설명 (0) | 2022.07.03 |
---|---|
[Azure 자격증 - DP-900] Azure에서 관계형 데이터에 대한 고려 사항 - Part 2 (0) | 2022.07.02 |
[Azure 자격증 - DP-900] Azure에서 관계형 데이터에 대한 고려 사항 - Part 1 (1) | 2022.07.02 |
[Azure 자격증 - DP-900] 핵심 데이터 개념 - Part 2 (0) | 2022.07.02 |
[Azure 자격증 - DP-900] Microsoft Azure Data Fundamentals 개념 요구 사항 (0) | 2022.06.26 |
최근댓글