# 데이터 포맷
데이터는 현대 사회에서 가장 중요한 자원 중 하나이며 데이터를 사용하여 서로 정보를 주고받거나, 통계를 내거나, 예측을 하거나, 결정을 내리는 등 다양한 일을 할 수 있다.
이런 일을 하기 위해서는 데이터를 저장하고, 꺼내고, 수정하고, 삭제하는 등의 작업이 필요하다.
이를 위해서 일반적으로 선택하는 방법은 텍스트 데이터를 많이 사용한다.
텍스트 데이터는 사람이 읽고 쓰기 쉽고, 대부분의 프로그래밍 언어에서 지원하기 때문에 데이터를 저장하고 꺼내고 수정하는 등의 작업을 쉽게 할 수 있다.
## 데이터의 본질
데이터의 가장 중요한 네 가지 기능은 다음과 같다.
- 생성(Create)
- 읽기(Read)
- 수정(Update)
- 삭제(Delete)
이를 영어로 줄여서 `CRUD`라고 부른다.
## 다양한 데이터 포맷
일반적으로 텍스트 내용을 파일로 저장할 때는 `txt` 파일을 사용한다.
대부분의 운영체제에서 텍스트 파일을 읽고, 쓰고, 수정하고, 삭제하는 기능을 제공하여 손쉽게 사용할 수 있다.
따라서 만약 책의 정보를 저장하고 싶다면 다음과 같이 저장할 수 있다.
```plaintext
제목: '책의 제목'
저자: '책의 저자'
날짜: '책의 발행일'
내용: '책의 내용'
```
하지만 사람마다 저장 방식이 다를 수도 있다. 예를 들어 같은 정보라도 다음과 같이 저장할 수도 있다.
```markdown
| 제목 | 저자 | 날짜 | 내용 |
| --------- | --------- | ----------- | --------- |
| 책의 제목 | 책의 저자 | 책의 발행일 | 책의 내용 |
```
이럴 경우 서로 데이터를 주고받거나, 데이터를 수정하거나, 데이터를 삭제하는 등의 작업이 어려워진다.
서로간의 데이터 교환을 위해 데이터 형식은 중요하다. 따라서 일반적으로는 데이터를 저장하고 전송하기 위해 정해진 데이터 형식을 사용하기로 약속한다.
오늘날 가장 널리 사용되는 텍스트 데이터 포맷에는 `XML`, `JSON`, `YAML` 등이 있다. 이에 대해 간단히 알아보자.
> 이 외에도 `CSV`, `TOML`, `INI`, `CSON` 등 다양한 데이터 저장 형식이 존재한다.
### XML
#### XML이란?
XML(eXtensible Markup Language)은 데이터를 저장하고 전송하는 데 사용되는 마크업 언어이다. HTML과 비슷한 구조를 가지고 있지만, 사용자가 태그를 정의하여 데이터의 구조를 설명할 수 있다는 점에서 차이가 있다. XML은 플랫폼에 종속되지 않고, 데이터를 소프트웨어나 하드웨어 사이에서 쉽게 공유할 수 있도록 해준다.
> 마크업 언어란 데이터를 구조화하기 위해 태그를 사용하는 언어를 말한다. HTML, XML, SGML 등이 대표적인 마크업 언어이다.
#### XML의 특징
- 확장성: 사용자가 필요에 따라 태그를 자유롭게 정의할 수 있다.
- 자가 서술적(Self-descriptive): 데이터의 구조와 정보를 함께 기술하여 데이터의 의미를 명확히 전달한다.
- 플랫폼 독립적: 모든 시스템에서 읽을 수 있으므로 다양한 시스템 간의 정보 교환에 유용하다.
- 언어 독립적: 어떠한 프로그래밍 언어와도 잘 작동하여 다양한 시스템과 응용 프로그램에 적용할 수 있다.
#### XML 사용법
##### XML 기본 구조
XML 문서는 다음과 같은 기본 구조를 갖는다
```xml
<?xml version="1.0" encoding="UTF-8"?>
<루트요소>
<자식요소>내용</자식요소>
<자식요소 속성="속성값">내용</자식요소>
</루트요소>
```
- 모든 XML 문서는 선언부와 하나의 루트 요소를 포함한다.
- 요소는 태그로 둘러싸인 데이터를 의미한다.
- 요소는 속성을 가질 수 있으며, 이는 요소에 대한 추가 정보를 제공한다.
##### XML 예제
```xml
<?xml version="1.0" encoding="UTF-8"?>
<사용자>
<이름>홍길동</이름>
<이메일>hong@example.com</이메일>
<나이>30</나이>
</사용자>
```
이 예에서 `<사용자>`는 루트 요소이며, `<이름>`, `<이메일>`, `<나이>`는 자식 요소이다.
#### XML 사용사례 및 예시
XML은 다양한 분야에서 활용되는데, 주로 데이터의 저장 및 전송, 설정 파일, 인터넷 문서 교환 등에 사용된다.
##### 예시: 환경 설정 파일
소프트웨어의 환경 설정을 저장하는 XML 파일 예시는 다음과 같다
```xml
<?xml version="1.0" encoding="UTF-8"?>
<설정>
<배경색>#FFFFFF</배경색>
<폰트크기>12</폰트크기>
<언어>한국어</언어>
</설정>
```
##### 예시: 데이터 교환
웹 서비스 간 데이터 교환을 위한 XML 메시지 예시
```xml
<?xml version="1.0"?>
<주문정보>
<주문번호>123456</주문번호>
<고객이름>홍길동</고객이름>
<상품명>노트북</상품명>
<수량>1</수량>
</주문정보>
```
#### XML의 장점
- 자가 서술적: 데이터의 의미를 명확하게 설명하여 이해하기 쉽다.
- 확장성: 사용자가 태그를 자유롭게 정의할 수 있어 유연하다.
- 표준화: 인터넷을 통한 데이터 교환에서 널리 사용되는 표준이다.
- 안전성: 데이터 유실이나 손상에 비교적 덜 민감하다.
#### XML의 단점
- 용량: 태그 사용으로 인해 파일 크기가 커지는 경향이 있다.
- 처리 속도: 텍스트 기반이므로 파싱 시간이 오래 걸릴 수 있다.
- 복잡성: 너무 많은 자유도로 인해 복잡하고 관리하기 어려울 수 있다.
XML은 데이터를 저장하고 전송하는 데 있어 많은 장점을 가지고 있지만, 사용상의 주의가 필요하다. 특히, 파일 크기와 처리 속도 측면에서 최적화가 중요하다.
### JSON
#### JSON이란?
JSON(JavaScript Object Notation)은 경량의 데이터 교환 형식이다. 읽기 쉽고, 쓰기 쉽다. 또한, 기계가 분석하고 생성하기 편리하다. JavaScript 언어에서 객체를 만들 때 사용하는 표현식을 기반으로 하지만, 언어 독립적이다. 즉, 많은 프로그래밍 언어에서 JSON을 쉽게 생성하고 파싱할 수 있다.
#### JSON의 특징
- 경량성: 텍스트 기반 구조로, 네트워크를 통한 데이터 교환 시 부하가 적다.
- 자가 서술적: 데이터 구조를 명확하게 설명하여, 사람과 기계 모두 이해하기 쉽다.
- 언어 독립적: 다양한 프로그래밍 언어에서 사용할 수 있다.
#### JSON 사용법
##### JSON 기본 구조
JSON 데이터는 이름/값 쌍으로 이루어진다. JSON 데이터는 객체 또는 배열 형태로 존재할 수 있다.
- 객체: 중괄호({})로 둘러싸인, 이름/값 쌍의 집합이다.
- 배열: 대괄호([])로 둘러싸인, 값의 순서 있는 리스트이다.
##### JSON 예제
```json
{
"이름": "홍길동",
"나이": 30,
"이메일": "hong@example.com",
"취미": ["독서", "영화감상", "등산"]
}
```
이 예에서 객체는 중괄호로 둘러싸여 있고, "이름", "나이", "이메일", "취미"라는 네 가지 이름을 가진다. "취미"는 배열이며, 세 가지 취미를 나열한다.
#### JSON 사용사례 및 예시
JSON은 주로 서버와 웹/모바일 클라이언트 간 데이터를 교환할 때 사용된다. 또한, 설정 파일이나 데이터 저장 등 다양한 분야에서 활용된다.
##### 예시: 웹 API 응답
웹 서비스에서 데이터를 요청했을 때의 JSON 응답 예시는 다음과 같다
```json
{
"userId": 1,
"id": 1,
"title": "제목",
"body": "내용"
}
```
##### 예시: 설정 파일
소프트웨어의 설정 정보를 저장하는 JSON 파일 예시
```json
{
"환경": "개발",
"데이터베이스": {
"호스트": "localhost",
"포트": 3306,
"사용자": "root",
"비밀번호": "password"
}
}
```
#### JSON의 장점
- 읽기 쉬움: 사람과 기계 모두 이해하기 쉬운 구조이다.
- 경량성: 텍스트 기반으로, 네트워크를 통한 데이터 전송 시 효율적이다.
- 언어 독립성: 다양한 프로그래밍 언어에서 지원한다.
#### JSON의 단점
- 데이터 형식의 제한: JSON은 텍스트, 숫자, 배열, 불리언, 객체의 데이터 타입만 지원한다.
- 보안 문제: 구조가 간단하여, 사용자 입력을 잘못 처리하면 보안 문제가 발생할 수 있다.
- 읽기 전용: 데이터를 저장하고 전송하는 용도로는 적합하지만, 데이터를 변경하는 데는 제한적이다.
JSON은 웹 개발에서 중요한 데이터 교환 형식이며, 그 사용 범위는 계속해서 확장되고 있다. 그러나 사용 시 데이터 유형과 보안 측면에서 주의가 필요하다.
### YAML
#### YAML이란?
YAML은 "YAML Ain't Markup Language" (원래는 "Yet Another Markup Language")의 재귀적 약어로, 데이터 직렬화에 사용되는 사람이 읽을 수 있는 형식이다. XML이나 JSON과 같이, YAML은 구조화된 데이터를 표현하기 위해 사용된다. 그러나 YAML은 가독성과 문서 편집의 용이성에 중점을 둔다. 주로 구성 파일, 데이터 교환, 데이터 저장 등에 사용된다.
#### YAML의 특징
- 가독성: 사람이 읽고 이해하기 쉬운 형식을 제공한다.
- 간결성: 중괄호, 괄호, 쉼표 등의 특수 문자를 사용하지 않아 문서가 더 간결하고 깔끔하다.
- 다양한 데이터 구조 지원: 스칼라, 시퀀스, 맵 등 다양한 데이터 구조를 지원한다.
- 언어 독립적: 여러 프로그래밍 언어에서 사용할 수 있다.
#### YAML 사용법
##### YAML 기본 구조
YAML 파일은 스칼라(단일 데이터), 시퀀스(리스트), 맵(딕셔너리)의 세 가지 기본 요소로 구성된다.
- 스칼라는 단일 값을 나타낸다.
- 시퀀스는 항목의 리스트를 나타내며, 각 항목은 하이픈(-)으로 시작한다.
- 맵은 키와 값의 쌍을 나타내며, 콜론(:)으로 구분된다.
##### YAML 예제
```yaml
이름: 홍길동
나이: 30
이메일: hong@example.com
취미:
- 독서
- 영화감상
- 등산
```
이 예에서는 스칼라(`이름`, `나이`, `이메일`), 시퀀스(`취미`) 및 맵 전체 구조를 보여준다.
#### YAML 사용사례 및 예시
YAML은 주로 설정 파일, 데이터 저장, 메시징 등에서 사용된다. 그 형식의 가독성으로 인해 사용자가 데이터 구조를 쉽게 이해하고 수정할 수 있다.
##### 예시: 구성 파일
웹 애플리케이션의 구성 파일을 YAML 형식으로 작성한 예시
```yaml
데이터베이스:
호스트: localhost
포트: 5432
사용자명: user
비밀번호: pass
서버:
포트: 8080
모드: 개발
```
##### 예시: 데이터 저장
사용자 데이터를 YAML 형식으로 저장하는 예시
```yaml
- 이름: 홍길동
나이: 30
이메일: hong@example.com
- 이름: 김철수
나이: 25
이메일: chulsu@example.com
```
#### YAML의 장점
- 높은 가독성: 사람이 읽기 쉽도록 설계되어 문서의 이해와 편집이 용이하다.
- 간결성: 불필요한 마크업 없이도 구조화된 데이터를 명확하게 표현할 수 있다.
- 포괄적인 데이터 구조 지원: 리스트, 딕셔너리 등 다양한 데이터 구조를 효율적으로 표현할 수 있다.
#### YAML의 단점
- 공백에 민감: 들여쓰기가 구조를 정의하는데 사용되므로, 공백 처리에 주의해야 한다.
- 파싱 오류: 구문이 엄격하기 때문에 작은 오류가 파싱 오류를 일으킬 수 있다.
- 보안 문제: 악의적인 데이터 구조가 YAML 파서를 속일 수 있는 가능성이 있다.
YAML은 구성 파일이나 데이터 저장용으로 매우 적합한 형식이지만, 사용 시 들여쓰기와 같은 구문 규칙을 정확히 따라야 한다. 또한, 안전하지 않은 소스로부터 YAML 파일을 로드할 때는 주의가 필요하다.
### XML, JSON, YAML 비교
| 특징 | XML (Extensible Markup Language) | JSON (JavaScript Object Notation) | YAML (YAML Ain't Markup Language) |
| ------------------ | --------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------- |
| 형식 | 마크업 언어 | 데이터 교환 포맷 | 데이터 직렬화 언어 |
| 가독성 | 사람과 기계 모두 읽기 가능하지만 복잡할 수 있음 | 사람과 기계 모두에게 더 읽기 쉽고 간결함 | 사람에게 매우 읽기 쉽지만, 들여쓰기에 민감 |
| 데이터 표현 | 태그 기반, 계층적 구조 | 객체와 배열의 형태, 키-값 쌍 기반 | 키-값 쌍, 배열, 스칼라 형태 |
| 파싱 | 복잡하고 처리 시간이 더 길 수 있음 | 간단하고 빠름 | 중간 정도의 복잡성과 처리 시간 |
| 파일 크기 | JSON이나 YAML에 비해 크기가 더 클 수 있음 (태그 사용으로 인해) | XML보다 작으며, 데이터 전송 시 효율적 | 공백, 줄바꿈, 들여쓰기 등으로 인해 JSON보다 크거나 작을 수 있음 |
| 보안 | XXE(External Entity Attack)와 같은 취약점에 취약할 수 있음 | 보안 측면에서 XML보다 더 안전하지만, 입력 데이터는 여전히 검증이 필요 | YAML은 특정 구성에서 악용될 수 있는 복잡한 기능들을 포함할 수 있음 |
| 데이터 유형 | 문자열, 숫자, 날짜 등을 나타내기 위해 추가 태그나 속성이 필요 | 문자열, 숫자, 부울, 배열, 객체 등 기본 데이터 유형을 명확하게 지원 | JSON과 유사하지만, 타임스탬프와 같은 추가적인 데이터 유형을 지원 |
| 메타데이터 | 속성과 태그를 통해 데이터에 대한 추가 정보를 제공 | 메타데이터 제공 방법이 내장되어 있지 않음 | YAML의 주석, 노드 태그 등을 통해 메타데이터 제공 가능 |
| 확장성 | 매우 확장 가능하며, 사용자가 태그를 정의할 수 있음 | 구조는 간단하며 확장성에 제한이 있음 | 사용자 정의 데이터 유형을 지원하여 확장 가능 |
| 개발 생태계와 도구 | XML 파싱 및 변환을 위한 다양한 라이브러리와 API 존재 | 웹 기술과 긴밀히 통합되어 있으며, 모든 프로그래밍 언어에서 널리 지원 | 다양한 언어에서 지원하지만, JSON이나 XML만큼 널리 사용되지는 않음 |
| 사용 사례 | 복잡한 문서 및 데이터 구조, 웹 서비스(SOAP), 설정 파일, Microsoft Office 문서, 대규모 엔터프라이즈 시스템 | 웹 API 통신, 경량 데이터 교환, 모바일 앱 설정, 프론트엔드와 백엔드 간의 정보 교환, NoSQL 데이터베이스 저장 포맷 | 설정 파일, 개발 프로젝트의 구성, 컨테이너 오케스트레이션 도구(Kubernetes 등)의 설정, 복잡하지 않은 데이터 저장 및 교환에 사용 |