익명처리에 대해서 알아보겠습니다.

데이터결합분석 서비스 관련하여 궁금하신 사항은 이곳으로 문의주세요.

익명정보란 어떤 것인지요?

익명정보란, 개인(신용)정보주체를 식별할 수 없도록 익명처리된 정보를 말합니다. 이로써 개인(신용)정보주체의 신원을 알아볼 수 없게 됩니다.

익명처리란 무엇인가요?

익명처리란, 개인(신용)정보의 일부 또는 전부를 삭제하고 가명처리, 총계처리, 범주화 등의 방법을 사용하여 개인(신용)정보주체를 식별할 수 없도록 처리하는 것을 의미합니다. 이는 데이터 값 삭제 또는 대체를 통해 개인(신용)정보를 비식별화하여 개인정보 보호와 관련된 요구사항을 충족시키기 위한 방법입니다.

익명처리절차란 무엇인가요?

익명 처리 절차는 다음과 같습니다.

  • 익명 처리: 개인을 식별할 수 있는 정보를 삭제하거나 대체하여, 더 이상 특정 개인을 알아볼 수 없도록 처리합니다.
  • 적정성 평가: 다른 정보와 결합하여 특정 개인을 알아볼 수 없도록 적절하게 익명 처리되었는지 평가합니다. 신용정보회사 등은 금융위원회에 익명 처리 적정성 심사를 요청할 수 있습니다.
  • 기록 보존 의무: 신용정보회사 등은 개인 신용 정보를 익명 처리한 경우, 익명 처리한 날짜, 익명 정보의 항목, 익명 처리한 사유와 근거 등을 3년간 보존해야 합니다.

적정성평가는 어떻게 이루어지나요?

신용정보회사 등은 개인(신용)정보에 대한 익명처리가 적절하게 진행되었는지 확인하기 위해 내부적으로 심사하거나 금융위원회에 심사를 요청할 수 있습니다.
금융위원회는 해당 요청에 따라 심사를 진행하고, 익명처리가 적절하게 이루어졌다고 인정된 경우 해당 개인 신용정보 주체를 더 이상 식별할 수 없는 정보로 간주합니다.
금융위원회는 법 제40조의2 제3항에 따른 익명처리의 적절성 심사 및 법 제40조의2 제4항에 따른 익명처리의 적절성 인정 업무를 데이터전문기관에 위탁합니다.

익명처리방법에는 어떤것이 있나요?

익명처리 기법은 개인을 특정하기 어렵게 만들어 개인정보를 보호하는 방법입니다. 익명처리 기법에는 통계도구, 암호화도구, 삭제기법, 암호화기법, 일반화기법, 재현데이터, 프라이버시 보호모델등이 있습니다.

  • 삭제 기술은 개인정보에서 직접적으로 개인을 식별할 수 있는 데이터를 부분 또는 전체 삭제하는 방법입니다. 이 방법은 가장 간단하고 확실하지만, 삭제된 정보는 되돌릴 수 없기 때문에 데이터의 활용도가 줄어들 수 있습니다.
  • 통계 도구는 데이터 집합에서 통계적 기법을 활용하여 개인을 식별하기 어렵게 만드는 방법입니다. 예를 들어,총계처리 및 부분총계 등의 방법이 있습니다.
  • 일반화(범주화) 기술은 데이터의 세부 정보를 큰 범주로 만들어 식별이 어렵게 하는 기법입니다. 예를 들어, 연령을 정확한 나이가 아닌 연령대로 표현하거나, 주소를 구/시 단위로만 표현하는 것입니다.
  • 암호화는 정보가공시 일정한 규칙의 알고리즘을 적용하여 대체하는 기법입니다.
    일방향 암호화, 순서보존암호화, 형태보존암호화 방식 등이 있습니다.
  • 무작위화는 데이터에 무작위의 값이나 노이즈를 추가하여 원본 데이터를 인식하기 어렵게 만드는 방법입니다. 예를 들어, 실제 값에 무작위 값을 더하거나 빼서 저장하는 것입니다.
  • 재현데이터
    • 실제 데이터와 통계적 특성은 유사하지만 개별 레코드는 원본과 다른 가상의 데이터를 생성하는 기법입니다.
    • 원본 데이터의 분포와 패턴을 유지하면서 실제 값을 보호합니다.
  • 프라이버시 보호모델
    • 데이터의 특정 질의에 응답할 때 개인의 정보를 보호하는 모델입니다.
    • 대표적인 예로는 차분프라이버시(Differential Privacy)가 있습니다.
    • 이 모델은 데이터베이스의 질의 결과에 노이즈를 추가하여, 개별 데이터의 존재 여부에 따른 결과의 차이를 최소화합니다.
가명처리기법의 기술, 세부기술, 설명
기술 세부기술 설명
삭제기법 행 항목 삭제 다른 정보와 뚜렷하게 구별되는 행 항목을 삭제
로컬 삭제 특이정보를 해당 행 항목에서 삭제
마스킹 특정 항목의 일부 또는 전부를 공백 또는 문자(' *, '' _ '등이나 전각 기호)로 대체
통계도구 총계처리 평균값, 최댓값, 최솟값, 최빈값, 중간값 등으로 처리
부분총계 정보집합물 내 하나 또는 그 이상의 행 항목에 해당하는 특정 열 항목을 총계처리. 즉, 다른 정보에 비하여 오차 범위가 큰항목을 평균값 등으로 대체
일반화
(범주화) 기술
일반 라운딩 올림, 내림, 반올림 등의 기준을 적용하여 집계 처리하는방법
랜덤 라운딩 수치 데이터를 임의의 수인 자리 수, 실제 수 기준으로 올림(round up) 또는 내림(round down)하는 기법
상하단코딩 정규분포의 특성을 가진 데이터에서 양쪽 끝에 치우친 정보는 적은 수의 분포를 가지게 되어 식별성을 가질 수 있으므로 범주화 등의 기법을 적용하여 식별성을 낮추는 기법
로컬 일반화 전체 정보집합물 중 특정 열 항목(들)에서 특이한 값을 가지거나 분포상의 특이성으로 인해 식별성이 높아지는 경우 해당 부분만 일반화를 적용하여 식별성을 낮추는 기법
범위 방법 수치 데이터를 임의의 수 기준의 범위(range)로 설정하는 기법으로, 해당 값의 범위 또는 구간(interval)으로 표현
문자데이터 범주화 문자로 저장된 정보에 대해 보다 상위의 개념으로 범주화하는 기법
암호화 일방향 암호화
- 암호학적 해시함수
  • 원문에 대한 암호화의 적용만 가능하고 암호문에 대한 복호화 적용이 불가능한 암호화 기법
  • 암호화(해시처리)된 값에 대한 복호화가 불가능하고, 동일한 해시 값과 매핑(mapping)되는 2개의 고유한 서로 다른 입력값을 찾는 것이 계산상 불가능하여 충돌 가능성이 매우 적음
무작위화 기술 잡음 추가 개인정보에 임의의 숫자 등 잡음을 추가(더하기 또는 곱하기)하는 방법
기타기술 재현데이터 원본과 최대한 유사한 통계적 성질을 보이는 가상의 데이터를 생성하기 위해 개인정보의 특성을 분석하여 새로운 데이터를 생성하는 기법
프라이버시 보호 모델 k-익명성 모델 동일한 속성을 가지는 레코드가 최소 k개 이상 존재하도록 하여 프라이버시를 보호
l-다양성 모델 동질집합(equivalent class)의 민감속성정보 (sensitive attribute)가 최소 l개의 다양한 속성을 가지도록 하여 k-익명성의 취약점(동질성 공격, 배경지식 공격)을 보완함
t-근접성 모델 특정 동질집합의 기타속성자 분포와 전체 데이터의 기타속성자 분포 차이를 t 이하가 되도록 조정
차분 프라이버시
  • 특정 개인에 대한 사전지식이 있는 상태에서 데이터베이스 질의(Query)에 대한 응답 값으로 개인을 알 수 없도록 응답값에 임의의 숫자 잡음(Noise)을 추가하여 특정 개인의 존재여부를 알 수 없도록 하는 기법
  • 1개 항목이 차이나는 두 데이터베이스간의 차이(확률분포)를 기준으로 하는 프라이버시 보호 모델

[익명처리기법]

공유하기