* 띄어쓰기 없이 입력해 주십시오
  > 총 도서목록 > 분야별 도서목록 > 경제·경영 > 부정 적발 애널리틱스: 조직 내 부정 위험 관리를 위한 데이터 과학 지침서
       
 
 

부정 적발 애널리틱스: 조직 내 부정 위험 관리를 위한 데이터 과학 지침서
바르트 바선스·베로니크 판 블라셀라르·바우터 베르베케 지음/ 김성수·김정훈 옮김
한울아카데미 / 2019-07-10 발행 / 신국판 / 반양장 / 408면 / 33,000원
ISBN 978-89-460-7163-6 93320
분야 : 경제·경영
 
  데이터 분석을 활용한 가장 완벽한 부정 적발 및 방지 가이드

조직 내 부정은 늘 존재하며, 이를 적절하게 관리하는 것은 매우 중요하다. 이 책은 조직 내 부정을 탐지하는 데 필요한 데이터를 활용하는 최신 부정 적발 및 예방 방법론을 풀이하고 있다. 부정행위 적발 데이터 애널리틱스의 기초에서부터 고급 패턴 인식 방법론, 최첨단 소셜 네트워크 분석 및 부정 조직 적발까지를 면밀히 안내한다. 보험부정, 탈세, 신용카드 부정과 같은 다양한 실제 부정 사례를 통해 부정 적발의 실무적인 적용에 초점을 맞추었다.
통찰력 있는 이 안내서를 통해 부정 애널리틱스에 대해 그리고 부정과의 싸움에서 과거 데이터를 활용할 수 있는 비결에 대해 명확히 알 수 있을 것이다.


조직의 부정, 가장 효과적인 적발 관리 방법은 무엇인가
데이터의 ‘흔적’ 분석을 통한 부정 위험 관리 시스템이 필요하다

오랫동안 뛰어난 성과를 내오던 글로벌 기업도 제대로 부정위험을 관리하지 못하면 빠르게 무너진 사례가 많다. 이렇듯 조직 내 부정위험은 기업의 존폐를 가르는 아주 중요한 사실이나, 이를 관리하는 기업의 자원에는 한계가 있다. 부정이 전혀 발생하지 않도록 관리하는 것은 불가능할 뿐만 아니라 설사 무결점으로 관리한다 하더라도 이에 대한 비용이 엄청나게 들 것이다. 제한된 자원을 제대로 활용하여 최대한 효과적으로 부정위험 관리를 하는 것이 기업의 목표일 것이다.
이제는 많은 기업이 시스템을 통해 업무를 수행하고 있고, 그 시스템 내에는 임직원들이 업무를 하면서 남긴 ‘흔적’이 곳곳에 데이터 혹은 로그상태로 남아 있다. 만일 완벽히 시스템을 통해서만 업무를 수행하고 이러한 흔적들을 의미 있는 정보로 활용할 수 있는 기술을 접목하여 그 의미를 제대로 이해할 수만 있다면, 이론적으로 그 회사가 목표로 했던 무결점 부정위험 관리는 가능할 수도 있을 것이다.

급변하는 경영환경 속 최선의 조직 관리를 위하여

이 책은 기업 내 존재하는 수많은 ‘흔적’을 다양한 통계적 기법이나 각종 기술들을 활용하여 부정위험 관리를 할 수 있는 방안을 제시해 주고 있다. 최근의 기술적이고 예측적인 분석 및 소셜 네트워크 분석이 어떻게 과거의 데이터에서 부정 패턴을 학습하여 부정에 맞서 싸우는지를 이 책은 생생하게 보여준다. 기업은 정보의 홍수와 급변하는 경영환경 속에 직면해 있으며, 이러한 환경하에서 이 책에서 제시하는 통찰을 기반으로 기업에 맞는 부정위험 관리 방식을 새롭게 정립하고 제대로 구축 및 운영함으로써 업무의 변화를 도모하고자 한다.


기업조직에서의 부정의 양태 그리고 적발 및 예방
부정 적발 및 예방을 위한 시스템과 모형을 알아본다

모두 7장으로 구성된 이 책의 제1장에서는 기술적(descriptive), 예측적(predictive) 기법 및 소셜 네트워크 기법을 이용한 부정 애널리틱스를 소개한다. 부정의 정의와 특징에 대한 설명을 시작으로 다양한 종류의 부정에 대해 논의한다. 이어서 부정이 미치는 영향과 발생 건수를 줄이기 위한 부정 적발 및 예방에 대해 논의한다. 빅데이터와 애널리틱스는 기업의 부정 적발 시스템을 향상시킬 수 있는 강력한 도구를 제공한다. 이러한 도구들이 어떻게 그리고 왜 전통적인 전문가 기반의 부정 적발 접근법들을 보완하는지를 자세히 살펴본다. 그다음 데이터 기반의 부정 적발 시스템을 개발하고 실행하는 단계들의 높은 수준의 개요를 설명하는 부정 애널리틱스 처리 모형이 소개된다. 제1장은 이 주제에 대한 과학적인 시각과 훌륭한 부정 데이터 과학자에게 요구되는 특징과 기술들을 언급하며 마무리된다.


부정 관리를 위한 데이터 관리의 중요성
데이터가 전처리(前處理) 단계에서 확실하게 검증되고 문서화되기 위하여

제2장은 모든 부정 애널리틱스 모형의 기본 요소인 데이터에 대한 폭넓은 설명을 제공한다. 여러 종류의 데이터 원천과 데이터들의 병합 및 표본화하는 방법에 대해 소개한다. 이어서 데이터 요소의 다른 유형, 시각적 탐색, 벤포드의 법칙과 기술통계학에 대해 논의한다. 이러한 것들은 이용 가능한 데이터의 특징과 한계의 이해를 시작하기 위한 모든 필수적인 도구이다. 결측값(missing values) 처리, 이상치(outlier) 적발 및 처리, 이상징후(red flags)의 정의, 데이터 표준화, 변수 범주화, 증거력 코딩(weight of evidence code)의 가중치, 변수 선택과 같은 데이터 전처리 작업(data preprocessing activity) 또한 광범위하게 다루어진다. 또한 입력 데이터의 차원수 축소 기술인 주성분 분석(PCA)이 설명되며, 이는 리디트(RIDIT) 및 프리디트(PRIDIT) 분석으로 실증된다. 제2장은 세분화(segmentation)와 그에 따른 위험요소에 대한 검토로 끝이 난다.


부정 관리를 위한 다양한 방법들
기술적 애널리틱스의 비지도 기술 방법들

제3장은 부정 적발에 사용되는 기술적 애널리틱스(descriptive analytics)에 대한 설명으로 시작된다. 여기서 아이디어는 부정이 포함된 데이터 집합에서 비정상적인 패턴이나 이상치들을 발견하는 것으로, 도표 및 통계상의 이상치 적발 절차에 대해 우선 검토한다. 이후 중단점 분석(break-point analysis), 동료집단 분석(peer group analysis), 연관 규칙(association rules), 군집화(clustering), 단일 등급 서포트 벡터 머신(one-class SVMs)에 대한 개요를 제공한다.

기술적 분석 혹은 비(非)지도 학습은 평균적인 행동이나 표준에서 벗어나는 일반적이지 않고 비정상적인 행동을 찾아내는 것을 목표로 한다. 표준은 여러 방법으로 정의할 수 있다. 평균적인 고객의 특정 시점의 행위 또는 특정 시간 고객층의 평균적 행위로, 혹은 이 둘을 합친 것으로 정의할 수도 있다. 다음 장에서 언급이 되겠지만 예측적 분석 혹은 지도 학습은 기존에 알려진 부정 관련성 거래가 포함된 과거 데이터 집합이 있는 것으로 가정한다. 그렇기 때문에 만들어진 분석 모형은 과거에 일어났던 부정 패턴만을 적발해 낼 수 있으며, 결과적으로 기존에 알려지지 않았던 부정을 적발해 내는 것은 불가능하다. 하지만 예측적 애널리틱스는 기술적 분석에서 찾은 비정상(anomalies)을 설명하는 데 유용하게 쓰일 수 있다. _ 107쪽

예측적 애널리틱스로 부정 적발의 모형 만들기

제4장은 부정 적발을 위한 예측적 애널리틱스(predictive analytics)에 대해서 다룬다. 개별 거래가 이분법적 혹은 연속적으로 표시되어 있는 데이터 집합으로부터 예측 모형을 만들기 위해 필요한 선형 회귀분석(linear regression), 로지스틱(logistic) 회귀분석, 의사결정나무(decision tree), 신경망(neural networks), 서포트 벡터 머신(support vector machines), 앙상블 기법(ensemble methods), 다등급 분류(multiclass classification)와 같은 분석 기술들에 대해 논의하고, 예측 모형의 성능을 측정하기 위해 데이터 집합을 나누는 방법과 조치에 대해 설명한다. 또한 등급 불균형 문제를 광범위하게 설명하며, 일부 성능 벤치마크에 대한 내용으로 마무리한다.

예측적 애널리틱스는 관심 있는 목표(target)의 측정치를 미리 예측해 볼 수 있는 모형을 만드는 것이다. 모형을 만든 후에 목표는 전통적으로 최적화 절차 기간에 학습과정을 조정하는 데 사용된다. 예측적 애널리틱스는 목표의 측정 수준에 따라 회귀(regression)와 분류(classification)라는 두 가지 종류로 구별된다. 회귀(regression)에서 목표변수(종속변수)는 연속적이며 미리 정해진 구간을 따라 변한다. 해당 구간은 제한적(예: 0과 1 사이)일 수도 있고 무제한적(예: 0과 무한대 사이)일 수도 있다. 부정 적발 환경에서 회귀가 쓰이는 전통적인 예로는 부정 금액의 예측이 있다. 분류(classification)에서 목표는 범주형으로서, 이미 정의된 제한된 범위 안에서만 값을 가질 수 있는 것을 의미한다. 이항 분류에서는 고려 대상이 2개의 등급(예: 부정 관련자 vs. 부정 무관련자)만인 반면, 다등급 분류에서 대상은 2개 이상의 등급이 속할 수 있다(예: 심각한 부정, 보통 부정, 부정 무관). _ 153쪽

소셜 네트워크 분석을 통한 부정 적발

제5장은 독자들에게 소셜 네트워크 분석(social network analysis)이 어떻게 부정 적발에 이용되고 있는지에 대해 소개한다. 부정에 대한 경향은 종종 사회의 주변환경에 의해 영향을 받기 때문에 사람 대 사람 간 관계의 주요 요소들을 설명하고 사회적 관계 내에서 어떻게 거래 데이터의 출처가 변형될 수 있는지를 보여준다. 그다음 네트워크에서 의미 있는 특성들을 추출해 내는 특성화(featurization)에 대해 설명한다. 우리는 이러한 특성들을 근접 지표(neighborhood metrics), 중심점 지표(centrality metrics), 집합 추론 알고리즘(collective inference algorithms)의 세 가지 주요 유형으로 구분한다. 그 후 네트워크 내 서로 밀접하게 연결되어 있는 부정 관련자들을 찾아내는 커뮤니티 마이닝에 대해 살펴본다. 다중 그래프(multipartite graph)에 대한 소개로 부정은 복수의 서로 다른 요인에 의해 영향을 받으며, 해당 요인들을 기준으로 부정에 대한 더 나은 이해와 적발이 가능한 점이 기술된다. 그리고 실제 사회보장 부정 사례를 예시로 끝을 맺는다.

온라인 소셜 네트워크 사이트의 이용자는 다른 사람들과의 관계를 분명히 드러낸다. 결과적으로, 소셜 네트워크 사이트는 실제 세계에 존재하는 관계와 (거의) 완벽하게 일치한다. 우리는 당신이 누구인지와 취미 및 관심사, 결혼 여부, 자녀 수, 매주 조깅을 함께하는 친구들, 와인 클럽에서 만난 친구들 등을 알고 있다. 어찌되었든 이렇게 연결된 네트워크의 정보와 지식은 매우 흥미로운 자료이다. 마케팅 관리자는 적절한 캠페인을 만드는 데 필요한 사람을 추측할 필요가 없다. 그런 정보는 어디든 존재한다. 그리고 바로 그것이 문제이다. 소셜 네트워크 사이트는 보유한 데이터와 자료의 풍부함을 인정하지만 해당 데이터를 무료로 공유할 생각은 없다. 또한 이러한 데이터는 종종 사유화되고 규제되며 상업적인 용도로 사용되지 않는다. 반면 소셜 네트워크 사이트는 관리자 및 기타 이해관계자에게 정확한 네트워크를 게시하지 않고도 소셜 네트워크를 활용해 마케팅 캠페인을 시작하고 관리할 수 있는 다양하고 훌륭한 내부 시설들을 제공한다. _ 245쪽


부정 애널리틱스 모형의 후처리와 그 방법들
기술적, 예측적 애널리틱스 및 소셜네트워크 분석을 통해 구축한 ‘분석적 부정 모형’

제6장은 부정 애널리틱스 모형의 후처리(postprocessing)에 대해 다루는데, 이는 분석적 부정 모형 주기(analytical fraud model lifecycle)에 대한 개요로 시작된다. 또한 인기 있는 모형표시 방법인 신호등 지표(traffic light indicator) 접근법과 의사결정 테이블(decision table)을 논의하고 조사 대상 샘플 선정과 관련된 가이드라인, 경고 및 부정발생 시 대처(case management) 등에 대해 설명하며 시각적인 애널리틱스가 후처리 작업에 어떻게 기여할 수 있는지를 보여준다. 데이터와 모형의 안정성(stability), 그리고 모형 보정(model calibration)을 통해 분석적인 부정 모형의 평가(backtest) 방법을 설명한다. 이 장은 모형의 설계와 문서화에 대한 가이드라인을 제공하며 마무리된다.

분석 단계의 결과물은 기술적, 예측적 기법 그리고 소셜 네트워크 또는 이를 결합한 기법을 사용하여 구축된 분석적 부정 모형(analytical fraud model)이다. 기본적으로 분석 모형은 부정의 발생 여부 혹은 부정 금액을 예측하는 수학 공식으로 귀결된다. 다음 단계에서 이 모형 또는 공식은 현존하는 비즈니스 환경 또는 ICT(Information and Communication Technologies) 시스템에 통합되어야 한다. 이 과정을 성공적으로 완수하기 위해서는 필요조건을 완벽하게 이해하는 것이 중요하며, 이는 주로 분석 모형의 최종 사용자들에 의해 지정된다. 더 나아가 모형을 작동시킨 이후에도 부정행위의 변화에 맞춰 성능의 저하를 적시에 탐지하고 그에 상응하는 적절한 조치를 취할 수 있도록 면밀하게 모니터링해야 한다. _ 319쪽


부정 적발 애널리틱스의 확장된 견해
데이터의 품질 문제, 그리고 개인정보의 문제

제7장은 부정 애널리틱스에 대한 더 넓은 시야를 갖기 위해 데이터 품질 문제에 대한 인지 및 관리 가이드라인, 프라이버시와 내/외부 데이터에 대한 접근권한 설정에 대한 다양한 방법에 대해 논의한다. 또한 애널리틱스 부정 추정치가 기대하거나 기대하지 못한 손실을 산출하는 데 어떻게 사용될 수 있는지에 대해 논의하는데, 이는 충당금 및 자본금 확충(provisioning and capital buffer)에 대한 의사결정에 도움을 줄 수 있다. 부정 애널리틱스와 관련된 총소유비용(total cost of ownership)과 투자 대비 효익, 분석 모형의 내부개발 대비 아웃소싱에 대한 논의가 이어진다. 추가로 예상(forecasting) 및 텍스트 애널리틱스(text analytics)와 같은 모형의 확대 및 부정 애널리틱스를 위한 IoT(internet of things)의 활용가능성과 위험성을 설명한다. 마지막 장은 기업의 부정을 관리하기 위한 지배구조의 권고로 마무리된다.

고객과 기업 간의 교류와 이로 인한 다양한 채널로부터의 데이터 가용성에 따라, 데이터 품질과 개인정보라는 두 가지 주요 문제에 대한 철저한 검토가 필요하게 되었다. 이는 특히 부정 적발과 같은 중요한 상황과 관련이 있다. 분석적 부정 적발 모형은 기대되거나 비기대 부정 손실을 계산하여 기업이 충당금과 자본금 유보를 결정하는 데 도움이 된다. 경영과 투자 관점에서 분석적 부정 모형의 총소유비용과 투자 수익률에 깊이 있는 통찰 또한 요구된다. 두 가지 관점에서의 견해가 기업 내에서 분석 역량을 보유할 것인지 아니면 대안으로 아웃소싱을 하여 외부 전문가를 활용할지에 대한 결정에 영향을 미친다. _ 355쪽
 
  제1장_ 부정: 적발, 예방, 그리고 애널리틱스!
1. 서론 | 2. 부정 | 3. 부정 적발 및 예방 | 4. 부정 적발을 위한 빅데이터 | 5. 데이터를 기반으로 한 부정 적발 | 6. 부정 적발 기술 | 7. 부정 주기 | 8. 부정 애널리틱스 처리 모형 | 9. 부정 데이터 과학자 | 10. 부정에 대한 과학적 관점 | 참고문헌

제2장_ 데이터 수집, 표본 추출, 전처리(前處理)
1. 서론 | 2. 데이터 원천의 유형 | 3. 데이터의 병합 | 4. 표본 추출 | 5. 데이터 요소 유형 | 6. 시각적 데이터 탐색 및 탐색적 통계 분석 | 7. 벤포드의 법칙 | 8. 기술 통계량 | 9. 결측값 | 10. 이상치 적발 및 처리 | 11. 위험신호 | 12. 데이터 표준화 | 13. 범주화 | 14. 증거력 코딩 | 15. 변수 선택 | 16. 주성분 분석 | 17. 리디트 | 18. 프리디트 분석 | 19. 세분화 | 참고문헌

제3장_ 부정 적발을 위한 기술적 애널리틱스
1. 서론 | 2. 그래픽 이상치 적발절차 | 3. 통계적 이상치 적발절차 | 4. 군집화 | 5. K-평균 군집화 | 6. 단일 등급 서포트 벡터 머신 | 참고문헌

제4장_ 부정 적발을 위한 예측적 애널리틱스
1. 서론 | 2. 목표변수의 정의 | 3. 선형 회귀 | 4. 로지스틱 회귀 | 5. 선형 및 로지스틱 회귀분석을 위한 변수 선택 | 6. 의사결정나무 | 7. 신경망 | 8. 서포트 벡터 머신 | 9. 앙상블 기법 | 10. 다등급 분류 기술 | 11. 예측 모형의 평가 | 12. 예측적 분석 모형에 대한 기타 성능 측정치 | 13. 편향된 데이터 집합을 위한 예측적 모형의 개발 | 14. 부정 적발 성능 벤치마크 | 참고문헌

제5장_ 부정 적발을 위한 소셜 네트워크 분석
1. 네트워크의 형태, 구성요소, 특징, 활용 | 2. 부정은 사회적 현상인가? 동질 선호성 개론 | 3. 이웃의 영향: 측정 지표 | 4. 커뮤니티 마이닝: 부정 관련 집단의 발견 | 5. 그래프 확장: 이원적 관계의 도표화 | 참고문헌

제6장_ 부정 애널리틱스: 후처리
1. 서론 | 2. 분석적 부정 모형의 생애주기 | 3. 모형 표현 | 4. 조사대상 표본 선정 | 5. 부정 경보 및 사례 관리 | 6. 시각적 분석 | 7. 분석적 부정 모형의 평가 | 8. 모형 설계 및 문서화 | 참고문헌

제7장_ 부정 애널리틱스에 대한 더 넓은 견해
1. 서론 | 2. 데이터 품질 | 3. 프라이버시 | 4. 부정 손실의 자본 산정 | 5. 부정 애널리틱스에 대한 경제적 관점 | 6. 인소싱 vs. 아웃소싱 | 7. 모델링의 확장 | 8. 사물인터넷 | 9. 기업 부정 거버넌스 | 참고문헌