Skip to content

ADsP

1과목: 데이터 이해

DIKW 피라미드

데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층구조로 설명하는 것이다. 데이터를 가공 처리하여 얻을 수 있는 것이 정보, 지식, 지혜이며, Data → Information → Knowledge → Wisdom 순으로 쌓여 있다.

  • 데이터(Data): 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호
  • 정보(Information): 데이터의 가공 및 상관관계 간의 이해를 통해 패턴을 인식하고, 그 의미를 부여한 데이터
  • 지식(Knowledge): 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
  • 지혜(Wisdom): 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어

예를 들어 “A마트는 연필을 100원, B마트는 200원에 판매한다”는 데이터이고, “A마트 연필이 더 저렴하다”는 정보이며, “A마트에서 사야겠다”는 지식, “A마트의 다른 상품도 B마트보다 저렴할 것이다”는 지혜에 해당한다.

데이터베이스 이해

데이터베이스는 데이터를 저장 및 검색할 수 있는 복합체로, 정형뿐만 아니라 비정형 데이터를 포함한다. 초기에는 텍스트·숫자 형태의 정형 데이터를 그대로 저장하는 장치였으나, 정보기술이 발달하며 이미지·동영상을 포함한 비정형 데이터까지 확대되었고, 이후 단순 저장을 넘어 정보를 저장하는 지식 베이스로 진화했다.

데이터베이스의 네 가지 특징은 다음과 같다.

  • 통합 데이터(Integrated): 같은 내용의 데이터가 중복되어 있지 않음
  • 저장 데이터(Stored): 자기디스크·자기테이프 등 컴퓨터가 접근할 수 있는 저장 매체에 저장됨
  • 공용 데이터(Shared): 여러 사용자에게 서로 다른 목적으로 공동 이용됨
  • 변화되는 데이터(Changed): 추가·삭제·갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지해야 함

분야별 기업 내부 데이터베이스 솔루션

제조부문에서 주로 쓰이는 솔루션은 데이터 웨어하우스를 중심으로 한 분석 인프라다.

  • 데이터 웨어하우스(Data Warehouse): 기업 내 의사결정 지원 애플리케이션을 위한 정보를 제공하는 통합 저장 공간 데이터의 통합: 전사적 차원에서 일관된 형식으로 정의
    • 데이터의 시계열성: 시간의 흐름에 따라 변화하는 값을 저장
    • 데이터 주제 지향적: 특정 주제에 따라 분류·저장·관리
    • 비소멸성(비휘발성): Batch 작업에 의한 갱신 이외에는 변하지 않음
  • 데이터 마트(Data Mart): 전사적 데이터 웨어하우스로부터 특정 주제·부서 중심으로 구축된 소규모 단일 주제 데이터 웨어하우스
  • ERP(Enterprise Resource Planning): 제조업을 포함한 다양한 비즈니스 분야에서 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지
  • BI(Business Intelligence): 데이터 웨어하우스에 저장된 데이터에 접근해 경영 의사결정에 필요한 정보를 획득하고 경영활동에 활용하는 것. 하나의 특정 비즈니스 질문에 답변하도록 설계됨. 관련 키워드는 ad hoc report
  • BA(Business Analytics): 경영 의사결정을 위한 통계적·수학적 분석에 초점을 둔 기법으로, 사전 예측과 최적화를 위한 것이며 BI보다 진보된 형태. 관련 키워드는 Optimization, Forecast, Insight

금융 부문에서는 블록체인이 대표적이다. 블록체인(Block Chain)은 중앙 집중형 서버에 거래 기록을 보관하는 방식에서 벗어나, 거래에 참여하는 모든 사용자에게 거래 내용을 보내주며 거래 때마다 이를 대조하는 데이터 위조 방지 기술이다. 그 외 EAI, EDW, ERP, e-CRM 등이 사용된다.

빅데이터의 3V와 4V

가트너(Gartner)가 정의한 빅데이터의 대표적인 특징은 Volume, Variety, Velocity의 3V이고, 여기에 Value(투자자본수익률 관점)를 더한 것이 4V이다.

  • Volume: 데이터의 크기. 조직 내·외부에서 생성되는 모든 데이터를 저장하고 활용하려는 특성. 구글 실시간 자동 번역 시스템에 적용되는 빅데이터의 특징
  • Variety: 데이터의 형태와 출처의 다양성. 정형화된 데이터를 넘어 텍스트·오디오·비디오 같은 비정형 데이터 및 웹 문서 같은 반정형 데이터를 대상으로 함
  • Velocity: 데이터가 생성되고 분석되는 속도. 사용자의 의사결정 시점에 맞추어 실시간 또는 준 실시간으로 처리·분석할 수 있어야 함
  • Value: 빅데이터로부터 얻을 수 있는 잠재적 가치 또는 비즈니스 인사이트. 비즈니스 효과 요소이며, Volume·Variety·Velocity는 투자 비용 요소

빅데이터의 가치와 영향

빅데이터의 가치 산정이 어려운 이유는 세 가지다.

  • 데이터의 활용 방식: 재사용·재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제·어디서·누가 활용할지 알 수 없음
  • 새로운 가치 창출: 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움
  • 분석 기술의 발달: 지금은 가치 없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어낼 가능성이 있음

빅데이터가 만들어내는 본질적인 변화는 처리 방식의 전환으로 요약된다. 사전 처리에서 사후 처리로, 표본 조사에서 전수 조사로, 질(Quality)에서 양(Quantity)으로, 인과관계(Causation)에서 상관관계(Correlation)로 중심이 이동했다. 구글의 자동 번역 시스템 구축 과정은 데이터의 양이 질보다 중요함을 보여주는 대표적 사례다.

빅데이터의 위기 요인과 통제 방안

위기 요인은 사생활 침해, 책임 원칙의 훼손, 데이터의 오용 세 가지이며, 각각에 대응하는 통제 방안이 존재한다.

  • 사생활 침해 → 정보 사용자의 책임제로 전환
    • 정보 수집 센서가 늘어나며 수집된 데이터가 본래 목적 외에 2·3차적 목적으로 활용될 가능성이 증가함
    • 익명화 기술이 발전하고 있지만 아직 충분치 않음
    • 개인정보 활용에 개인이 매번 동의하는 것은 비효율적이므로, 동의제에서 사용자 책임제로 전환하여 개인정보 사용 주체가 더 적극적인 보호 장치를 마련하도록 함
  • 책임 원칙의 훼손 → 기존 책임 원칙의 강화
    • 예측 알고리즘의 희생양이 될 가능성이 증가함. 범죄 예측 프로그램으로 범죄 발생 전 체포, 신용도와 무관한 대출 거절 등
    • 결과 기반의 책임 원칙을 고수하고, 예측 자료에 의한 불이익 가능성을 최소화하는 장치가 필요함
  • 데이터의 오용 → 알고리즘에 대한 접근권 및 객관적 인증 방안 도입
    • 빅데이터는 일어난 일에 대한 데이터에 의존하므로 미래 예측이 항상 맞을 수는 없음
    • 잘못된 인사이트로 비즈니스에 직접 손실이 발생할 수 있음

데이터 오용으로 인한 부당 피해를 방지하기 위해 등장한 직업이 **알고리즈미스트(Algorithmist)**이다. 데이터 분석 알고리즘으로 불이익을 당한 사람을 구제하는 전문가로, 법률·회계처럼 컴퓨터·수학·통계·비즈니스에 두루 깊은 지식을 갖춘 사람이 담당한다.

데이터 사이언스

데이터로부터 의미 있는 정보를 추출하는 학문으로, 정형·반정형·비정형 등 다양한 유형의 데이터를 대상으로 한다. 분석뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적 개념이며, 데이터 공학·수학·통계학·컴퓨터 공학·시각화·해커의 사고방식·해당 분야 전문 지식을 종합한다. 기존 통계학과 다르게 총체적(Holistic) 접근법을 사용한다.

핵심 구성 요소는 세 영역이다.

  • IT 영역(Data Management): 시그널 프로세싱, 데이터 엔지니어링, 데이터 웨어하우스, 프로그래밍, 고성능 컴퓨터 등
  • 분석 영역(Analytics): 수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
  • 비즈니스 컨설팅 영역: 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등

데이터 사이언스는 정형·비정형·반정형 등 다양한 데이터 유형을 다루고 분석+시각화+전달을 포함한 포괄적 개념이라는 점에서, 정형화된 데이터만 다루는 통계학이나 분석에만 초점을 두는 데이터 마이닝과 구분된다.

데이터 분석 관련 직무

데이터 분석가와 데이터 사이언티스트는 필요 역량이 비슷하지만 초점이 다르다.

  • 데이터 분석가: 데이터 분석 보고서·시각화 자료를 통해 비즈니스 결정에서 ‘추측’에 의한 결정을 없애는 역할. 문맥과 의미, 통찰력, 이론적 지식, 비즈니스·도메인 지식, 데이터 시각화, 통계적 지식, SQL 지식 등이 필요함
  • 데이터 사이언티스트: 통찰력 있는 분석과 설득력 있는 전달, 다분야 간 협력을 통해 빅데이터의 가치를 실현. 머신러닝·AI 지식, 모델 구축을 위한 코딩 스킬, 통계적 지식 등이 필요함

가트너(Gartner)는 데이터 사이언티스트의 역량으로 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬을 제시했다. 공통점은 호기심에서 시작한다는 것이며 하드 스킬은 포함되어 있지 않다. 일반적으로 언급되는 역량은 데이터 해커·애널리스트·커뮤니케이션·신뢰받는 어드바이저 등의 조합이며, 하드 스킬과 소프트 스킬을 동시에 갖추어야 한다.

  • 하드 스킬: Machine Learning, Modeling, Data Technical Skill. 빅데이터에 대한 이론적 지식과 분석 기술 숙련
  • 소프트 스킬: 통찰력 있는 분석(창의적 사고, 호기심, 논리적 비판), 설득력 있는 전달(Storytelling, Visualization), 다분야 간 협력(Communication)

효과적인 분석 모델 개발을 위해서는 현실 세계를 돌아보고 경험·통찰력과 함께 활용해야 하며, 가정과 현실의 불일치에 대해 끊임없이 고찰하고 모델의 한계를 고려해야 한다. 모델 범위 바깥의 요인은 판단하지 말아야 한다.

2과목: 데이터 분석 기획

분석 주제 유형 4가지

분석 주제는 분석 대상(What)과 분석 방법(How)을 각각 Known/Un-Known으로 나눠 네 가지로 분류한다.

  • 최적화(Optimization): 분석 대상 Known, 분석 방법 Known. 현 문제를 최적화된 형태로 분석 과제를 수행함
  • 솔루션(Solution): 분석 대상 Known, 분석 방법 Un-Known. 솔루션을 찾는 방식으로 수행함
  • 통찰(Insight): 분석 대상 Un-Known, 분석 방법 Known. 기본 분석 방식을 활용하여 통찰을 도출해냄으로써 문제의 도출 및 해결에 기여함
  • 발견(Discovery): 분석 대상 Un-Known, 분석 방법 Un-Known. 발견을 통해 분석 대상 자체를 새롭게 도출함

KDD와 CRISP-DM

KDD 분석 방법론은 5단계로 구성된다.

  • 데이터셋 선택데이터 전처리(잡음·이상치·결측치 식별/제거) → 데이터 변환(변수 선택, 차원 축소, 데이터셋 변경) → 데이터 마이닝데이터 마이닝 결과 평가

CRISP-DM 분석 방법론은 6단계로 구성된다.

  • 업무 이해(Business Understanding)데이터 이해(Data Understanding)데이터 준비(Data Preparation)모델링(Modeling)평가(Evaluation)전개(Deployment)
  • 평가 단계에서는 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가가 이루어짐

업무 이해 단계의 순서는 ‘업무 목적 파악 → 상황 파악 → 데이터 마이닝 목표 설정 → 프로젝트 계획 수립’이다.

빅데이터 분석 방법론

5단계 절차로 이루어진다.

  • 분석 기획: 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험 계획 수립
  • 데이터 준비: 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 적합성 점검
  • 데이터 분석: 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증
  • 시스템 구현: 설계 및 구현, 시스템 테스트 및 운영
  • 평가 및 전개: 모델 발전 계획 수립, 프로젝트 평가 및 보고

데이터 준비와 데이터 분석 구간에서는 추가적 데이터 확보가 필요한 경우 반복적인 피드백을 수행한다.

위험에 대한 대응 계획 수립은 네 가지 방식이 있다.

  • 회피: 계획 변경 등 원인을 제거(기간 연장, 범위 축소)
  • 전이: 보험, 사후 보증
  • 완화: 용인 가능 임계치까지 절감하려 노력
  • 수용: 적극적 수용(긴급 대책), 소극적 수용(아무 조치 안 함), Fallback Plan(위험의 영향이 클 경우)

분석 과제 도출 방법

상향식 접근 방식(Bottom-Up Approach)은 문제 정의 자체가 어려울 때 사용한다. 데이터 기반으로 문제를 재정의하고 해결 방안을 탐색하며, 주로 비지도학습으로 수행된다. 디자인 사고의 발산 단계에 해당하고, 분석 주제가 통찰(Insight)·발견(Discovery)일 때 효과적이다. 새로운 신제품 개발, 새로운 고객군 발굴 등이 예시다.

하향식 접근 방식(Top-Down Approach)은 문제가 명확하게 정의되어 있을 때 적합하다. 각 단계를 체계적으로 수행하는 전통적 분석 과제 발굴 방식이며, 최적화(Optimization)·솔루션(Solution)일 때 효과적이다. 신제품을 위한 마케팅 전략 수립, 이탈 고객 재유치 방안 설계 등이 예시다.

디자인 사고(Design Thinking)는 복잡하고 불확실한 문제에 대응하기 위한 접근법으로, 상향식의 발산(Diverge) 단계와 하향식의 수렴(Converge) 단계를 반복하여 과제를 발굴한다. 고객 이탈률 감소를 위한 서비스 개선, 신상품 컨셉 설계 등이 예시다.

비지도 학습은 입력만 제시되고 결괏값이 없는 데이터로 진행하는 학습으로 주성분 분석, 군집 분석, 연관 분석 등이 해당한다. 전통적 분석 방식은 과학적·논리적 분석을 중시하는 사고 방식으로 수학·과학·엔지니어링·경제학 등에서 활용되지만 창의적 해결책을 찾는 데 한계가 있다.

하향식 접근 방법의 데이터 기획 단계

’문제 탐색 → 문제 정의 → 해결 방안 탐색 → 타당성 검토’ 순으로 진행된다.

문제 탐색(Problem Discovery)은 전체적 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별하는 단계다. 문제 해결로 발생하는 가치에 중점을 두며, 비즈니스 모델 기반 문제 탐색·외부 참조 모델 기반 문제 탐색·분석 유즈케이스 정의로 나뉜다.

  • 비즈니스 모델 기반 문제 탐색: 비즈니스 모델 캔버스의 9가지 블록을 ‘업무, 제품, 고객, 규제와 감사, 지원 인프라’의 5가지 영역으로 단순화함. 분석 기회 발굴 범위 확장을 위해 환경과 경쟁 구도 변화, 역량의 재해석을 통한 혁신 관점에서 분석 기회를 추가 도출함
  • 외부 참조 모델 기반 문제 탐색: 유사·동종 사례 벤치마킹을 통해 분석 기회를 발굴. 분석 테마 후보 그룹을 미리 정의하고 벤치마킹 대상을 고려하면 빠르고 쉽게 분석 기회를 도출할 수 있음
  • 분석 유즈케이스 정의: 분석 기회들을 구체적 과제로 만들기에 앞서 분석 유즈케이스로 표기. 풀어야 할 문제의 상세 설명과 해결 시 발생 효과를 명시함

문제 정의(Problem Definition)는 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계다. 해결 방안 탐색(Solution Search)은 어떤 데이터 또는 분석 시스템을 사용할지 검토하는 단계다. 타당성 검토(Feasibility Study)는 프로젝트의 실현 가능성과 효과성을 평가하고 필요 조치·수정 사항을 식별하는 단계로, 분석 과제 정의서 형태로 정리되어 프로젝트 계획 수립의 입력물이 된다.

분석 과제 우선순위 결정

분석 우선순위 평가 기준은 시급성과 난이도다.

  • 시급성: 전략적 중요도, 목표 가치 → Value(비즈니스 효과, Return)
  • 난이도: 데이터 획득·저장·가공 비용, 분석 적용 비용, 분석 수준 → Volume·Variety·Velocity(투자 비용 요소, Investment)

데이터 분석 과제 추진 시 가장 중요한 기준은 전략적 중요도에 따른 시급성이다. 시급성은 현재 관점에 전략적 가치를 둘 것인지, 미래의 중장기적 관점에 둘 것인지로 판단한다. 난이도는 현 시점에서 과제를 바로 적용하기 쉬운(Easy)지 어려운(Difficult)지에 대한 판단 기준이다.

우선순위 선정 매트릭스의 네 사분면은 다음과 같다.

  • 1사분면(현재, Difficult): 전략적 중요도가 높아 경영에 미치는 영향이 커 현재 시급하지만, 난이도가 높아 바로 적용하기 어려움
  • 2사분면(미래, Difficult): 전략적 중요도가 낮지만 반드시 추진되어야 하는 중장기 과제, 난이도 높음
  • 3사분면(현재, Easy): 전략적 중요도가 높아 시급하고 난이도도 낮아 바로 적용 가능. 가장 우선순위가 높음
  • 4사분면(미래, Easy): 전략적 중요도가 낮은 중장기 과제, 난이도는 낮음

일반적으로 가장 먼저 수행해야 하는 것은 3사분면 과제다. 우선순위를 ‘시급성’에 두면 ‘Ⅲ - Ⅳ - Ⅱ’ 순, ‘난이도’에 두면 ‘Ⅲ - Ⅰ - Ⅱ’ 순으로 진행한다. 1사분면은 경영진·실무 담당자의 의사결정에 따라 우선순위를 조정할 수 있다.

데이터 분석 수준 진단

분석 준비도(Readiness)는 기업의 데이터 분석 도입 수준을 파악하기 위한 진단 방법으로 6가지 영역을 대상으로 한다.

  • 분석 업무 파악: 발생한 사실·예측·시뮬레이션·최적화 분석 업무, 분석 업무 정기적 개선
  • 인력 및 조직: 분석 전문가 직무 존재, 교육 훈련 프로그램, 관리자의 기본 분석 능력, 전사 분석 업무 총괄 조직, 경영진 분석 업무 이해 능력
  • 분석 기법: 업무별 적합한 분석 기법 사용, 도입 방법론, 라이브러리, 효과성 평가, 정기적 개선
  • 분석 데이터: 충실성·신뢰성·적시성, 비구조적 데이터 관리, 외부 데이터 활용 체계, 기준 데이터 관리
  • 분석 문화: 사실에 근거한 의사결정, 관리자의 데이터 중시, 회의에서 데이터 활용, 경영진의 직관보다 데이터 활용, 데이터 공유 및 협업 문화
  • IT 인프라(= 분석 인프라): 운영 시스템 데이터 통합, EAI·ETL 등 데이터 유통 체계, 분석 전용 서버 및 스토리지, 빅데이터 분석 환경, 비주얼 분석 환경

분석 성숙도(Maturity)는 CMMI 모델을 기반으로 비즈니스·조직·역량·IT 부문의 성숙도를 평가하며, 도입·활용·확산·최적화 4단계로 구분한다.

  • 도입 단계: 분석을 시작하여 환경·시스템 구축. 실적 분석·통계, 정기 보고, 운영 데이터 기반. 일부 부서 수행, 담당자 역량 의존. 데이터 웨어하우스·데이터 마트·ETL/EAI·OLAP
  • 활용 단계: 분석 결과를 실제 업무에 적용. 미래 결과 예측, 시뮬레이션, 운영 데이터 기반. 전문 담당 부서 수행, 분석 기법 도입, 관리자가 분석 수행. 실시간 대시보드, 통계 분석 환경
  • 확산 단계: 전사 차원에서 분석을 관리·공유. 전사 성과 실시간 분석, 프로세스 혁신 3.0, 분석 규칙 관리, 이벤트 관리. 전사 모든 부서 수행, 분석 CoE 조직 운영, 데이터 사이언티스트 확보. 빅데이터 관리 환경, 시뮬레이션·최적화, 비주얼 분석, 분석 전용 서버
  • 최적화 단계: 분석을 진화시켜 혁신 및 성과 향상에 기여. 외부환경 분석 활용, 최적화 업무 적용, 실시간 분석, 비즈니스 모델 진화. 데이터 사이언스 그룹, 경영진 분석 활용, 전략 연계. 분석 협업 환경, 분석 Sandbox, 프로세스 내재화, 빅데이터 분석

데이터 거버넌스 체계 수립

데이터 거버넌스는 전사 차원의 모든 데이터에 대해 정책·지침, 표준화, 운영 조직 및 책임 등 표준화된 관리 체계를 수립하고 프레임워크 및 저장소를 구축하는 것이다. 마스터데이터, 메타 데이터, 데이터 사전이 중요한 관리 대상이며, 기업은 이를 통해 데이터의 가용성·유용성·통합성·보안성·안정성을 확보할 수 있고 빅데이터 프로젝트 성공의 기반이 된다. 독자적으로 수행되기도 하지만 전사 IT 거버넌스나 EA(Enterprise Architecture)의 구성 요소로 구축되기도 한다.

구성 요소는 세 가지다.

  • 원칙(Principle): 데이터를 유지·관리하기 위한 지침과 가이드(보안, 품질 기준, 변경 관리)
  • 조직(Organization): 데이터를 관리할 조직의 역할과 책임(데이터 관리자, DB 관리자, 데이터 아키텍트)
  • 프로세스(Process): 데이터 관리를 위한 활동과 체계(작업 절차, 모니터링 활동, 측정 활동)

체계 요소는 네 가지다.

  • 데이터 표준화: 표준 용어 설정, 명명 규칙 수립, 메타 데이터 구축, 데이터 사전 구축
  • 데이터 관리 체계: 메타 데이터와 데이터 사전의 관리 원칙 수립
  • 데이터 저장소 관리: 메타 데이터 및 표준 데이터 관리를 위한 전사 차원 저장소 구성. 워크플로우 및 관리용 응용 소프트웨어 지원, 관리 대상 시스템과의 인터페이스 통제, 데이터 구조 변경에 따른 사전영향평가 수행
  • 표준화 활동: 체계 구축 후 표준 준수 여부를 주기적으로 점검·모니터링

빅데이터 거버넌스는 분석 대상·목적을 명확히 정의하고 필요한 데이터를 점진적으로 확대하는 것이 좋으며, 데이터 수명주기 관리방안을 수립하지 않으면 가용성·관리 비용 증대 문제에 직면할 수 있다. ERD는 운영 중인 데이터베이스와 일치하도록 변경사항을 관리해야 하고, 산업·데이터 유형·정보 거버넌스 요소별로 구분하여 작성한다. 분석 조직·인력에 대한 지속적 교육과 개인정보 보호·보안 방법도 마련해야 한다.

데이터 분석을 위한 조직 구조

세 가지 조직 구조가 있다.

  • 집중형 조직 구조: 조직 내 별도 독립적인 분석 전담 조직을 구성하여 회사의 모든 분석 업무를 담당. 전사 과제의 전략적 중요도에 따라 우선순위를 정해 추진. 일부 협업 부서와 분석 업무가 중복·이원화될 가능성 있음
  • 기능 중심 조직 구조: 일반적인 분석 수행 구조로, 별도 분석 조직 없이 각 해당 업무 부서에서 직접 분석. 전사적 관점에서 핵심 분석이 어렵고, 특정 업무 부서에 국한된 분석 수행이나 일부 중복 업무 가능성 높음
  • 분산 조직 구조: 분석 조직의 인력들이 협업 부서에 배치되어 업무 수행. 전사 차원에서 우선순위를 선정해 수행 가능. 분석 결과를 신속하게 실무에 적용 가능. 부서 분석 업무와 역할 분담을 명확히 해야 함

분석 프로젝트의 특징 및 특성 관리

분석가의 목표는 분석의 정확도를 높이는 것이지만, 프로젝트 관점에서는 도출된 분석 과제를 잘 구현하여 원하는 결과를 얻고 사용자가 원활하게 활용할 수 있도록 전체 과정을 고려해야 한다. 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적 반복·정교화가 대부분이므로 프로토타이핑 방식의 애자일(Agile) 프로젝트 관리 방식도 고려해야 한다. 데이터 영역과 비즈니스 영역 현황을 이해하고 조정자로서 분석가 역할이 중요하며, 5가지 주요 특성을 고려하여 추가 관리가 필요하다.

Agile 프로젝트 관리 방식은 반복적이고 유연한 접근으로 변화에 빠르게 대응하고 고객 요구 사항을 우선적으로 고려하는 민첩한 관리 방법론이며 불확실한 환경에서 효과적이다.

분석 과제 정의서는 필요한 소스 데이터, 분석 방법, 데이터 입수 난이도·사유, 분석 수행 주기, 분석 결과 검증, 분석 과정 상세 등을 작성하며, 프로젝트 수행 계획의 입력물이자 이해관계자가 방향을 설정하고 성공 여부를 판별할 수 있는 중요 자료다.

분석 과제의 5가지 특성 관리 영역은 다음과 같다.

  • Data Size: 분석하고자 하는 데이터의 양을 고려하는 관리방안 수립
  • Data Complexity: 비정형 및 다양한 시스템에 산재된 데이터를 통합 분석할 때 적합한 분석 모델 선정 고려
  • Speed: 일·주 단위 실적은 배치, 사기 탐지·서비스 추천은 실시간 수행. 분석 모델의 성능 및 속도를 고려한 개발·테스트
  • Analytic Complexity: 정확도(Accuracy)와 복잡도(Complexity)는 트레이드 오프. 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워짐. 기준점을 사전에 정의
  • Accuracy & Precision: 정확도는 분석의 활용적 측면(모델과 실제값 차이), 정밀도는 안정성 측면(반복 시 편차). 둘은 트레이드 오프인 경우가 많음

10개 주제별 프로젝트 관리 체계는 시간·범위·품질·통합·이해관계자·자원·원가·리스크·조달·의사소통이다.

  • 시간: 지속적으로 반복되어 많은 시간이 소요될 수 있음. Time Boxing 기법으로 일정 관리
  • 범위: 데이터 형태·양, 알고리즘에 따라 빈번하게 변경됨. 보고서 형태인지 시스템인지에 따라 자원·범위가 크게 변경
  • 품질: 품질 보증과 품질 통제를 계획·확립하는 프로세스
  • 통합: 다양한 활동·프로세스를 도출·결합·조정·통제·종료에 필요한 프로세스
  • 이해관계자: 스폰서, 고객사, 기타 이해관계자 식별 및 관리
  • 자원: 인력, 시설, 장비, 자재, 도구 등 적절한 자원 식별 및 확보
  • 원가: 개발 예산과 원가 통제의 진척 상황 관찰
  • 리스크: 위험과 기회를 식별하고 관리
  • 조달: 제품·서비스·인도물 인수 및 공급자 관계 관리. 적절한 아웃소싱 필요
  • 의사소통: 프로젝트 관련 정보를 계획·관리·배포

3과목: 데이터 분석

R 함수 – summary

iris 데이터셋의 summary 결과를 예로 들면 다음과 같다.

> summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

연속형 변수는 Sepal.Length, Sepal.Width, Petal.Length, Petal.Width이며, Sepal.Width를 통해 “2.8 이상의 데이터가 75%이고, 3.0 이상이 50%, 3.3 이상이 25%“임을 추론할 수 있다. 범주형 변수는 Species로 setosa, versicolor, virginica 3개 범주에 각 50개씩 총 150개 데이터가 있다. NA’s가 표시되지 않으므로 결측값은 없다.

hitters 데이터셋의 경우 Salary 변수에 NA’s: 59로 59개의 결측값이 표시된다. Orange 데이터셋은 35개 관측치를 포함하며 Tree 종류는 5가지로 각 7개씩 factor 타입으로 저장된다. age의 평균은 922.1, circumference의 Median은 115.0으로 약 50%의 나무가 115보다 큰 둘레를 가지고 있음을 알 수 있다.

그래프 종류 – 상자 그림(Boxplot)

상자 그림은 Min, Q1, Median, Q3, Max 값과 이상값(Outlier)을 한눈에 확인할 수 있는 그래프다. Min, Max는 일반적인 범위(이상값 범위 안쪽)에서 가장 작은 값과 큰 값을 의미하므로 수염의 길이는 대칭이 아닐 수 있다. Q1, Q3는 각각 제1사분위수·제3사분위수(25%, 75% 위치)이며, 사분위수 범위(IQR)는 Q3 - Q1으로 구한다.

이상값 기준은 다음과 같다.

  • 하한: Q1 - 1.5 × IQR
  • 상한: Q3 + 1.5 × IQR

이 범위를 벗어나는 값은 이상값으로 그래프에서 동그라미로 표시된다. Median은 중앙값(50% 위치)을 의미한다. 상자 그림에는 평균, 분산, 데이터 개수 등의 정보는 들어있지 않다.

결측값과 이상값 처리

이상값은 일반적인 다른 값과 멀리 떨어져 있는 값(거리, 밀도)이다. 정형 데이터보다 반정형·비정형 데이터에서 많이 발생하며, 분포를 왜곡할 수 있으나 실제 오류인지 통계적으로 검증할 수 없으므로 제거 여부는 해당 분야 전문가와 상의해야 한다. 반드시 제거해야 하는 것은 아니며 분석 목적에 따라 판단하며, 이상값을 활용한 시스템에는 부정 사용 방지 시스템 등이 있다.

이상값 탐지 방법은 세 가지다.

  • ESD(Extreme Studentized Deviation) 방법: 정규분포에서 나온 표본값일 경우 평균과 표준 편차를 사용. 평균으로부터 T 표준 편차 이상 떨어져 있는 값을 이상값으로 판단하며, 보통 T는 3으로 설정(μ − 3σ < 정상 데이터 < μ + 3σ)
  • 사분위수(Quartile) 방법: Q1, Q3 및 IQR을 사용하여 (Q1 − 1.5×IQR) < 정상 데이터 < (Q3 + 1.5×IQR) 범위로 판단. 상자 그림에서 사용
  • summary 함수: Q1, Q3 값으로 IQR을 구하고 lower, upper 범위를 산출하여 판단

이상값 처리 방법은 다음과 같다.

  • 이상값 제거: 데이터 오류나 노이즈일 경우 제거. 신뢰도를 높이지만 중요한 정보 손실 가능성이 있음. 특히 데이터 수가 적을 때 신중히 사용
  • 데이터 변환: 분포에 큰 영향을 준다면 로그 변환, 제곱근 변환 등으로 정규화. 해석이 어려워지며 모든 모델에 적합하지는 않음
  • 이상값 절단(capping): 하한·상한값을 설정하여 이상값을 해당 값으로 대체. 영향을 줄이면서 손실을 최소화하지만 분포를 왜곡할 수 있음

상관 분석

상관계수는 두 변수의 관련성 정도를 -1 ~ 1 사이 값으로 나타낸다. 상관관계가 존재하지 않을 경우 0이며, 상관관계가 높다고 해서 인과관계가 있다고 할 수는 없다. 피어슨 상관계수와 스피어만 상관계수가 있으며, R의 cor.test( ) 함수로 유의성 검정을 수행한다. 귀무가설은 “상관계수는 0이다”, 대립가설은 “상관계수는 0이 아니다”이다.

공분산은 2개 확률변수의 선형관계를 나타내는 값이다.

  • 모집단의 공분산: cov(x, y) = Σ(xᵢ − μₓ)(yᵢ − μᵧ) / N
  • 표본의 공분산: cov(x, y) = Σ(xᵢ − x̄)(yᵢ − ȳ) / (n − 1)

하나의 변수가 상승할 때 다른 값도 상승하는 선형 상관성이 있다면 양의 공분산을 갖는다. 두 확률변수 x, y가 독립이면 cov(x, y) = 0이며 관측값이 4면에 균일 분포한다고 추정할 수 있으나, cov(x, y) = 0이라고 해서 항상 독립인 것은 아니다.

피어슨 상관계수(Pearson)는 x, y의 공분산을 x, y의 표준편차 곱으로 나눈 값이다.

  • 모집단: corr(x, y) = cov(x, y) / (σₓ · σᵧ)
  • 표본: corr(x, y) = cov(x, y) / (sₓ · sᵧ)
  • 대상 자료는 등간척도, 비율척도
  • 두 변수 간의 선형적 크기만 측정 가능

스피어만 상관계수(Spearman)는 서열척도 자료에서 사용하며, 두 변수 간의 비선형적 관계를 나타낼 수 있다. 두 변수의 순위 사이의 통계적 의존성을 측정하는 비모수적 척도로 연속형 외에 이산형도 가능하다. 원시 데이터가 아닌 순위를 기반으로 하며, 두 변수의 순위가 완전 일치하면 1, 완전 반대면 -1이다. 수학을 잘하는 학생이 영어도 잘하는지 알아보는 데 사용될 수 있다.

피어슨 상관계수 계산 예를 보자. 응답자1의 표준편차 2, 응답자2의 표준편차 2, 공분산이 4일 때 corr = 4 / (2 × 2) = 1이다. 키(165, 170, 175, 180, 185)와 몸무게(65, 70, 75, 80, 85) 5명의 모집단 데이터에서 키의 평균 175, 몸무게 평균 75, 각 표준편차는 √20·√50, 공분산 50이므로 피어슨 상관계수는 50 / (√20 · √50) = 1이다.

스피어만 상관계수는 두 변수 X, Y가 선형관계가 아니더라도 1이 될 수 있고, 데이터가 뚜렷한 경향성을 보이지 않으면 피어슨과 비슷한 값을 갖는다. 이상값을 그 값이 아닌 순위로서만 고려하기 때문에 피어슨보다 이상값에 덜 민감하다.

상관 분석 예시에서 R의 rcorr 함수 결과 상단은 상관계수 행렬(-1 ~ 1, 대각선은 1), 하단은 p-value 행렬이다. Price와 Sales는 -0.44로 음의 상관관계이며 p-value가 0이므로 통계적으로 유의미하다. Sales와 가장 강한 상관관계를 보이는 변수는 절댓값이 가장 큰 Price이다. CAtBat, CHmRun, CRuns, CRBI 등이 서로 상관관계가 높으면 다중공선성 문제가 발생할 수 있다.

산점도에서 직선에 가까울수록 -1 또는 1에 가깝고, 사분면에 고르게 점이 분포하면 상관관계가 없다. 선형성이 있으면 단순 선형 회귀 모형 추정이 가능하다. 연비(MPG)와 마력(Horsepower)은 음의 상관관계이며 둘 다 비율척도이므로 피어슨 상관계수로 분석 가능하다.

주성분 분석(PCA)

주성분 분석(Principal Component Analysis)은 변수가 많을 때 ‘다중공선성’의 영향을 줄이기 위한 차원 축소 기법이다. 공분산 행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾으며, 상관관계가 있는 변수들을 선형 결합하여 상관관계가 없는 새로운 변수(주성분)를 만들고 분산을 극대화한다. 주성분은 변수들의 선형 결합으로 이루어지며, 독립변수들과 주성분 간의 거리인 ‘정보손실량’을 최소화하거나 분산을 최대화한다. “PCA는 데이터의 분산이 최대가 되는 축을 찾는다” = “정보의 손실을 최소화한다”이다.

주성분 분석 시 고민할 것은 세 가지다.

  • 공분산 행렬과 상관계수 행렬 중 어떤 것을 선택할 것인가
  • 주성분의 개수를 몇 개로 할 것인가
  • 주성분에 영향을 미치는 변수로 어떤 변수를 선택할 것인가

공분산 행렬은 변수의 측정 단위를 그대로 반영한 것이고, 상관계수 행렬은 모든 변수의 측정 단위를 표준화한 것이다. 공분산 행렬은 측정 단위에 민감하며, 주성분 분석은 거리를 사용하므로 척도에 영향을 받는다(정규화 전후 결과가 다름). 설문조사처럼 모든 변수가 같은 수준으로 점수화된 경우 공분산 행렬을 사용하고, scale이 서로 많이 다른 경우 상관계수 행렬을 사용한다.

R에서는 prcomp(data, scale=TRUE) 또는 princomp(data, cor=TRUE)로 상관계수 행렬을 적용하며, scale·cor을 FALSE로 지정하거나 생략하면 공분산 행렬이 사용된다. prcomp와 princomp의 결과는 같다.

주성분 개수 결정 기준은 세 가지다.

  • 성분들이 설명하는 분산의 비율: 누적 분산 비율이 70 ~ 90% 사이가 되는 주성분 개수 선택
  • 고윳값(Eigenvalue): 평균 고윳값(각 주성분의 표준편차 제곱값의 평균)보다 큰 주성분을 선택. 일반적으로 1보다 큰 값 사용
  • 스크리 플롯(Scree Plot): 고윳값을 내림차순 정렬해 팔꿈치(Elbow) 부분을 찾아 최적 요소 수 결정

예를 들어 USArrests 데이터에 대한 prcomp 결과 PC2의 Cumulative Proportion이 0.8675(86.75%)이면 2개의 주성분을 사용한다. PC1 = -0.536·Murder - 0.583·Assault - 0.278·UrbanPop - 0.543·Rape 같은 식으로 주성분을 표현할 수 있다.

Scree Plot에서 Eigenvalue가 1보다 큰 것이 1, 2 주성분이면 2개를 사용하고, Eigenvalue 기준으로 3개가 나오지만 Elbow 기법으로는 4개가 최적인 경우도 있다.

결과 해석에서 Standard deviation은 자료의 산포도를 나타내는 수치로 분산의 양의 제곱근이고, Proportion of Variance는 각 분산이 전체 분산에서 차지하는 비중, Cumulative Proportion은 분산의 누적 비율이다. 첫 번째 주성분만 수용했을 때 분산의 62%를 설명하면 정보 손실은 (100 − 62) = 38%가 된다.

회귀 모형 해석

표본 회귀선의 유의성 검정은 두 변수 사이에 선형관계가 성립하는지 검정한다. 귀무가설은 “회귀식의 기울기계수 b₁은 0과 같다”, 대립가설은 “회귀식의 기울기계수 b₁은 0과 같지 않다”이다.

회귀 모형의 해석 방법은 다음과 같다.

  • ‘모형이 통계적으로 유의미한가?’ → F-통계량의 유의확률(p-value)
  • ‘회귀계수들이 통계적으로 유의미한가?’ → 회귀계수의 t 값에 대한 유의확률
  • ’모형이 얼마나 설명력을 갖는가?’ → 결정계수(R²)의 크기
  • ’모형이 데이터를 잘 적합하고 있는가?’ → 잔차 그래프로 회귀 진단
  • 모형 가정: 선형성, 정규성, 독립성, 등분산성, 비상관성

F-통계량 = 회귀제곱평균(MSR) / 잔차제곱평균(MSE). 값이 클수록 회귀 모형은 통계적으로 유의하며, p-value < 0.05일 때 통계적으로 유의하다.

t 값 = Estimate(회귀계수) / Std. Error(표준 오차). t-통계량이 크다는 것은 표준 오차가 작다는 의미이며, 클수록 회귀계수가 유의하다. p-value < 0.05일 때 통계적으로 유의하다.

결정계수(R²) = SSR / SST = 1 − SSE / SST. 회귀식의 적합도를 측정하는 척도로 0 ~ 1 범위를 가지며, 커질수록 설명력이 높아진다. 전체 분산 중 모델에 의해 설명되는 분산의 양이다.

R의 lm 결과 예시를 보자.

> a <- lm(formula = y ~ u + v + w, data = df)
> summary(a)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.43742 0.46949 7.322 3.01e-09 ***
u 0.46762 0.04419 10.581 6.55e-14 ***
v 0.95558 0.04546 21.019 < 2e-16 ***
w -1.99230 0.01052 -189.459 < 2e-16 ***
Multiple R-squared: 0.9988, Adjusted R-squared: 0.9987
F-statistic: 1.254e+04 on 3 and 46 DF, p-value: < 2.2e-16

여기서 t-통계량은 Estimate/Std.Error로 회귀계수가 유의미한지를, R²는 모형의 설명력을, F-통계량은 모형의 통계적 유의성을 보여준다.

시계열 분석

정상성(Stationarity)은 시계열의 평균과 분산에 체계적인 변화가 없고 주기적 변동이 없는 상태로, 미래의 확률적 성질이 과거와 동일하다고 가정한다.

정상 시계열의 조건은 다음과 같다.

  • 평균은 모든 시점에 대해 일정: E(xₜ) = μ
  • 분산은 모든 시점에 대해 일정: var(xₜ) = σ²
  • 공분산은 시점이 아닌 시차에만 의존: Cov(xₜ₊ₕ, xₜ) = cₕ

비정상 시계열은 정상 시계열로 전환한 후 분석한다.

  • 평균이 일정하지 않은 경우: 원계열에 차분(Differencing) 적용
  • 계절성을 갖는 비정상 시계열: 계절 차분 적용 (68월 판매량이 증가한다면 이번 연도 − 이전 연도 68월 판매량)
  • 분산이 일정하지 않은 경우: 원계열에 로그 변환 적용
  • 구간 분할(Segmentation): 특정 구간에서 정상성을 가질 경우 해당 구간만 분리하여 분석
  • 이상값 삭제(Outlier Removal): 이상값이 정상성을 해칠 경우 제거

차분은 현재 시점 값에서 이전 시점 값을 빼는 작업으로 추세(Trend)와 계절성(Seasonality)을 제거하여 평균과 분산이 일정한 데이터로 변환한다.

시계열 분해 요인은 네 가지다.

  • 추세 요인(Trend Factor): 자료의 형태가 오르거나 내리는 등 특정 형태를 취하는 경우
  • 계절 요인(Seasonal Factor): 계절 또는 고정된 주기(1년 중 특정 때, 주 특정 요일)에 따라 변화
  • 순환 요인(Cyclical Factor): 물가상승률·급격한 인구 증가 등 명확한 주기가 없는 변동
  • 불규칙 요인(Irregular Factor): 나머지 세 요인으로 설명할 수 없는, 회귀 분석의 오차에 해당하는 요인

시계열 데이터 분석 절차는 ‘시계열 그래프 그리기 → 추세와 계절 요인 파악 및 제거 → 잔차 예측 → 잔차에 모델 적합 → 예측된 잔차에 추세·계절성을 재반영하여 예측’ 순이다.

확률적 시계열 모형은 세 가지다.

  • AR 모형: 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중값으로 이루어진 정상확률 모형(정상 시계열)
    • yₜ = c + φ₁yₜ₋₁ + φ₂yₜ₋₂ + … + φₚyₜ₋ₚ + eₜ
    • c는 모형의 평균·추세 상수(회귀 모형의 절편), φ는 자기회귀계수, p는 자기회귀의 차수
  • MA 모형: 현시점의 자료는 평균과 유한 개의 과거 백색 잡음의 선형 결합으로 표현(정상 시계열)
    • yₜ = c + eₜ + θ₁eₜ₋₁ + θ₂eₜ₋₂ + … + θ_qeₜ₋_q, eₜ ~ N(0, σ²)
    • c는 모형의 평균, θ는 이동평균계수, q는 이동평균의 차수
  • ARIMA 모형: 비정상 시계열 모형이며 차분·변환을 통해 AR, MA, ARMA 모형으로 정상화

모형 평가

홀드아웃(Hold-out)은 데이터셋을 Training Data와 Test Data로 7:3 또는 8:2로 분리하는 기법이다.

  • Training Data: 학습용 데이터
  • Test Data: 학습 종료 후 성능 확인용 데이터
  • Validation Data: 학습 중 성능 확인용 데이터(Overfitting 여부 확인, Early Stopping 등). 반복되는 학습 기법에서 과대적합 감지 시 빠르게 학습을 멈추기 위해 사용

K-Fold 교차검증은 주어진 데이터를 K개로 나누고, K번 반복적으로 학습·성과 측정하여 평균 낸 성능으로 평가하는 방법이다. 10 Fold 교차검증은 데이터를 10개 조각으로 나눠 1개를 검증·9개를 학습 데이터로 사용하고 총 10번 검증 후 평균을 최종 결과로 사용한다. 순서는 다음과 같다.

  1. 전체 데이터를 섞음(Shuffle)
  2. 동일 크기의 K개로 분할(K의 최솟값은 2)
  3. K번째 하부 집합은 검증용, K-1개는 훈련용으로 사용하여 K번 반복 모델링 후 성능 측정
  4. K개 결과를 평균 낸 값을 최종 결과로 사용

LOOCV(Leave One Out Cross Validation)는 데이터 개수 n에 대해 n번 학습을 진행하고 평가 결과를 평균하는 방식이다. 1개 관측값만 Validation으로, 나머지 n−1개를 train으로 사용한다. k = n인 경우의 교차검증이며, n개의 MSE를 평균하여 최종 MSE를 계산한다. CV(n) = (1/n) Σ MSEᵢ.

부트스트랩(Bootstrap)은 교차검증과 유사하지만 훈련용 자료를 반복하여 재선정(복원 추출)한다는 차이가 있다. 관측치를 한 번 이상 훈련용 자료로 사용하는 복원 추출법에 기반하며, 전체 데이터 양이 크지 않을 경우의 모형 평가에 가장 적합하다. 0.632 부트스트랩은 훈련 데이터를 63.2% 사용하며, 훈련에 사용하지 않는 데이터는 36.8%가 된다.

의사결정나무(Decision Tree) 모형

의사결정나무의 결정 규칙은 세 가지다.

  • 분리 기준(Split Criterion): 어떤 특성으로 데이터를 분할할지 결정. 정보 이득(Information Gain), 지니 지수, 엔트로피 지수 등을 사용. 불확실성·불순도가 낮아지는 방향(순수도가 높아지는 방향)으로 분리
  • 정지 규칙(Stopping Rule): 더 이상 분리가 일어나지 않고 현재의 마디가 최종 마디가 되도록 하는 규칙. 과대적합(Overfitting) 방지. 노드에 속한 최소 샘플 수 미만이거나 트리의 최대 깊이 이상이면 멈춤
  • 가지치기 규칙(Pruning Rule): 생성된 의사결정나무를 단순화하여 불필요한 분기를 제거. 모델의 일반화 능력 향상, 과대적합 방지. 가지치기의 비용 함수(Cost Function)를 최소로 하는 분기를 찾아내도록 학습

분류용 불순도 측정 지표는 세 가지다.

  • 지니 지수(Gini Index): Gini(T) = 1 − Σ(각 범주별 수 / 전체 수)² = 1 − Σ_{k=1}^{k} Pᵢ². 값이 작을수록 순수도가 높음
  • 엔트로피 지수(Entropy Measure): Entropy(T) = − Σ_{k=1}^{k} Pᵢ·log₂Pᵢ. 값이 작을수록 순수도가 높음. 확률이 0.5일 때 불순도가 가장 높으며 Entropy는 1
  • 카이제곱 통계량의 유의확률(p-value): p-value가 가장 작은 값을 갖는 방법을 선택. p-value가 작을수록 집단 간 분포가 동일하지 않은 이질성이 높은 상태

앙상블(Ensemble) 모형

배깅(Bagging, Bootstrap AGGregatING)은 서로 다른 훈련 데이터 샘플로 훈련하며 같은 알고리즘을 사용하는 방법이다. 원 데이터에서 중복을 허용하여 같은 크기의 표본을 여러 번 단순 임의 복원 추출하고 각 표본에 대해 모델을 생성한다. 여러 모델이 병렬로 학습하며 같은 데이터가 여러 번 추출되거나 어떤 데이터는 추출되지 않을 수 있다.

부스팅(Boosting)은 이전 모델의 결과에 따라 다음 모델 표본 추출에서 분류가 잘못된 데이터에 가중치(weight)를 부여하여 표본을 추출한다. 여러 모델이 순차적으로 학습하며, 맞히기 어려운 문제에 초점이 맞춰져 있어 이상값(Outlier)에 민감하다. 대표 알고리즘은 Ada Boosting, Gradient Boosting(XGBoost, Light GBM) 등이다.

인공신경망

인공신경망(ANN)은 분류·예측 모두 가능하며 입력층, 은닉층, 출력층으로 구성된다.

  • Bias, Variance: Overfitting은 Low Bias, High Variance(유연성 크고 복잡도 높음)
  • 신경망 활성화 함수: sigmoid(2개, 01), softmax(3개 이상의 범주), tanh(-11)
  • 은닉층 노드 수
    • 많으면: 과적합 문제 발생, 레이어가 많아지면 기울기 소실 문제
    • 적으면: 과소적합 문제 발생, 복잡한 의사결정 경계를 만들 수 없음
  • 기울기 소실: 다층신경망에서 역전파 알고리즘이 입력층으로 갈수록 Gradient가 점차 작아져 0에 수렴하여 weight가 업데이트되지 않는 현상

분류모형 평가지표

오분류표(혼동행렬)는 실제 값과 예측 값을 비교한 2×2 표다. TRUE는 귀무가설 기각(차이 있음), FALSE는 귀무가설 채택(차이 없음)을 의미한다.

예측 TRUE예측 FALSE
실제 TRUETPFN (2종 오류)
실제 FALSEFP (1종 오류)TN

주요 지표는 다음과 같다.

  • Sensitivity / Recall / TP Rate: TP / (TP + FN)
  • FN Rate: FN / (TN + FN)
  • Specificity: TN / (TN + FP)
  • FP Rate: FP / (TN + FP) = 1 − Specificity
  • Error Rate: (FP + FN) / (TP + TN + FP + FN)
  • Precision: TP / (TP + FP)
  • Accuracy: (TP + TN) / (TP + TN + FP + FN)
  • F1 Score: 2 × Precision × Recall / (Precision + Recall)

암기 팁으로, FP는 1종 오류(P에 위에서 아래로 긋기 1회 포함), FN은 2종 오류(N에 위에서 아래로 긋기 2회 포함)로 기억한다.

Fβ Score는 β 값에 따라 재현율에 가중치를 두는 방식이다. 재현율에 정밀도의 β배만큼 가중치를 부여한다.

  • Fβ = (1 + β²) × (precision × recall) / (β² × precision + recall)
  • F2 = (1 + 2²) × (precision × recall) / (2² × precision + recall): 재현율에 2배 가중치
  • F0.5: 정밀도에 2배 가중치

군집 분석 – 계층적 군집

계층적 군집(Hierarchical Clustering)은 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성한다. 유사도 판단은 두 개체 간의 거리에 기반하므로 거리 측정 정의가 필요하며, 거리는 유클리드·맨해튼·민코프스키·마할라노비스 등을 사용한다.

특징은 다음과 같다.

  • 이상값에 민감(거리 기반이므로)
  • 사전에 군집 수 k를 설정할 필요가 없는 탐색적 모형
  • 매 단계에서 지역적 최적화를 수행하므로 결과가 전역적 최적해가 아닐 수 있음
  • 병합적 방법에서 한 번 군집이 형성되면 다른 군집으로 이동 불가
  • R에서는 hclust( ) 함수, cluster 패키지의 agnes( ), mclust( ) 함수 사용

수학적 거리의 종류는 다음과 같다. x = (x₁, x₂, …, xₙ), y = (y₁, y₂, …, yₙ)에 대해

  • Euclidean: d(x, y) = √(Σᵢ (xᵢ − yᵢ)²) = (Σ |xᵢ − yᵢ|²)^(1/2)
  • Manhattan: d(x, y) = Σᵢ |xᵢ − yᵢ| = (Σ |xᵢ − yᵢ|¹)^(1/1)
  • Minkowski: d(x, y) = (Σᵢ |xᵢ − yᵢ|^p)^(1/p)

예를 들어 A(3, 3), B(5, 2) 사이의 거리는 Manhattan으로 |3−5| + |3−2| = 3, Euclidean으로 √((3−5)² + (3−2)²) = √5이다.

응집형(병합 군집)의 종류는 다섯 가지다.

  • 최단 연결법(Single Linkage, 단일 연결법): 두 군집 사이의 거리는 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최솟값
  • 최장 연결법(Complete Linkage, 완전 연결법): 거리의 최댓값으로 두 관측값을 연결
  • 중심 연결법(Centroid Linkage): 두 군집의 중심 간 거리를 측정하여 연결. 두 군집이 결합될 때 새 군집의 평균은 가중평균으로 계산
  • 평균 연결법(Average Linkage): 모든 항목에 대한 거리 평균을 구하면서 군집화. 계산량이 많아질 수 있음
  • 와드 연결법(Ward Linkage): 계층적 군집 내의 오차(편차) 제곱합(Error Sum of Square)에 기초. 크기가 비슷한 군집끼리 병합하는 경향

연관 분석(Association Analysis)

연관 규칙은 A → B 형태로 표기하며, “if A then B”, 즉 A가 팔리면 B가 같이 팔린다는 의미다.

주요 측정지표는 세 가지다.

  • 지지도(Support) = P(A ∩ B) = (A와 B가 동시에 포함된 거래 수) / (전체 거래 수): 전체 거래 중 차지하는 비율로 연관 규칙이 얼마나 의미 있는지 확인
  • 신뢰도(Confidence) = P(B|A) = P(A ∩ B) / P(A) = (A와 B가 동시에 포함된 거래 수) / (A가 포함된 거래 수): A를 구매했을 때 B를 구매할 확률
  • 향상도(Lift) = P(B|A) / P(B) = P(A ∩ B) / (P(A) × P(B)) = (A와 B가 동시에 일어난 확률) / (A, B가 독립된 사건일 때 동시에 일어날 확률): A가 주어지지 않았을 때 B의 확률 대비, A가 주어졌을 때 B의 확률 증가 비율

향상도 해석은 값에 따라 다르다.

  • 1보다 큰 수: 향상도가 높을수록 연관성이 높음. 규칙이 결과 예측에 우수함. 서로 양의 관계로 B만 구매할 확률보다 A 구매 후 B 구매 확률이 더 높음
  • 1: 품목 A와 B 사이에 아무런 상호관계가 없음(독립)
  • 1보다 작은 수: 두 품목이 서로 음의 관계

참고