아무거나

데이터 표준화 본문

Data Store/DB

데이터 표준화

전봉근 2020. 3. 20. 23:50
반응형

DB를 설계할 때 보통 혼자하면 상관이없지만 여럿이서 하게되면 용어에 대해 혼란이 온다. 예를 들어 상품코드값의 컬럼을 도출해보자.

  • PROD_CD
  • PROD_ID
  • PRODUCT_ID 등..

위와 같이 여러개의 이름으로 여기저기 흩어져서 설계가 되어있는 경우를 보면 나중에는 큰 혼란을 초래하게 된다.

그래서 데이터 표준화가 필요하며 데이터 표준화는 시스템을 구성하는 데이터 정보 요소에 대해 명칭, 정의, 형식 규칙에 대해 원칙을 수립하여 적용하는것을 말한다.

데이터 표준화의 장점

  • 유지보수 및 운영의 효율성 증대와 관리비용 절감
  • 데이터 요소(entity, property, table, column 등..)의 일관성
  • 데이터 정확성 향상으로 인한 품질상승
  • 데이터 베이스의 정합성 확보

일반적으로 데이터 표준으로 관리되는 대상은 아래와 같다.

  • 단어
    • 단일어: 조합이 아닌 하나의 형태소로 이루어진 순수한 단어
          // EX
          1. 다리
          2. 사과
          3. 귀엽다
      
    • 합성어: 두 어근이 만나 만들어진 낱말
          // EX
          1. 밤 + 나무 = 밤나무
          2. 바늘 + 방석 = 바늘방석
          3. 굽 + 밤 = 군밤
          4. 논 + 길 = 논길
      
    • 유의어: 의미가 서로 비슷한 말
          // EX
          1. 팬티에 `오줌`을 쌌다.
          2. 팬티에 `소변`을 쌌다.
      
          -> `오줌`과 `소변`은 의미가 서로 같으나 문맥상 2번은 자연스럽지 못하다. 이 때 `오줌`과 `소변`은 유의어의 관계에 속한다.
      
    • 금칙어: 법 혹은 규칙으로 사용이 제한된 말
          // EX
          무조건 욕이 아니더라도 심하게 부정적이거나 안좋은 반응을 이끌어 내는 말이면 금지어가 될 수 있다.
      
    • 분류어: 데이터 값에 대한 형식을 유추할 수 있는 단어 즉, 개체의 유형을 명확하게 나타내기 위한 단어
          // EX
          금액, 가격, 명, 번호, 코드
      
  • 용어: 단어의 조합으로 이루어짐. 테이블이나 컬럼의 명칭으로 주로 사용
  • 도메인: 각 속성의 일반적인 특징을 나타내는 데이터의 성격을 분류한 것이다. 즉, 데이터 타입과 길이를 정의할때는 반드시 분류어를 사용
          // EX
          코드VC5, 금액N, 명VC100
    

사용예시

 

 

단어: 상품(PROD) + 명(NM) 도메인: 명 VARCHAR2(800) 용어: 상품명(PROD_NM)

표준화 프로세스

  1. 테이블 컬럼 신규 및 수정 등의 요건 발생
  2. 필요한 용어를 데이터 표준화 사전에서 조회
  3. 필요한 도메인을 데이터 표준화 사전에서 조회
  4. 필요한 단어 또는 도메인이 없을 경우 임의로 용어명을 작성
  5. 모델러에게 요청서 작성
  6. 모델러측 검토 및 반영

표준화가 되어있으면 개발자들간의 혼란이 생기지 않고 명칭을 정할때 시간또한 소요되지 않는 등의 장점들이 많다.

반응형
Comments