본문 바로가기

입시/학생부종합전형

[베이즈정리와 조건부확률] 완벽정리 / 확률과통계 보고서

반응형

베이즈 정리는 인공지능이나 스팸메일분류 이런 데에 많이 쓰이는 수학 개념인데,

기본 개념은 '확률과통계'에서 배우는 것에서 기인하기 때문에

저는 이것을 고3때 확률과통계 보고서로 썻습니다,

 

 

 

 

 

이화여대 과학특기자 합격생의 활동보고서 예시,스펙,작성법/꿀팁 총정리: 영혼갈아넣음주의

※현재 자소서과외, 면접과외를 하고 있으며, 고등학교 내에서 자소서 우수, 교내 면접연습 시 항상 1위로 꼽혔습니다...! (신뢰가 가시길 바라며 적어봐요,,ㅎ) 활동보고서를 쓰기 전, 간단하게 m

young-brightening.tistory.com

저는 연구실적 및 생활기록부 서류평가 +심층면접으로 이루어진

이화여대 과학특기자 전형에 합격했는데 위 글에서 적은 스펙들

뿐만아니라 + 고등학생 때 배우는 교과목에 심화되는 내용을

스스로 공부했고, 이런 수많은 활동들이 쌓여 수학/과학을 중점으로 보는

과학특기자 전형에 있어 긍정적으로 평가되어 합격할 수

있었다고 생각합니다!

 

 

 

 

+) 표절금지

제가 연락온 많은 학생들의 질문을 받아주다가,

또 우연한 경로로 인해 제가 블로그에 올린내용을

짜집기하여 작성하고 이를 생기부에 기록하거나

어딘가에 제출한 것을 직접 몇 번이나 목격했습니다

 

제가 인터넷에 나와있는 기본적인 원리들을 찾아보고 

보고서를 작성한 것과, 해당 보고서 내용 대부분을 발췌해

순서를 바꾸고 자기가 쓴 것처럼 한 행위는 엄연히 다릅니다

후자는 저의 보고서를 표절하는 행위입니다

제가 직접 본 사람에 비해 실제로 표절한 사람은 

셀 수도 없이 훨씬 많겠죠..

해당 아이디어와 인사이트를 제가 제공했으니

확률과 통계 보고서에 베이즈정리를 활용할 때 

해당 글의 링크라도 첨부하시고 참고문헌으로 작성하세요 

 

" 대학 입학 시 표절검사에 걸려서  

불이익을 얻게 되는 것은 본인의 선택입니다."

 

 

 

 

 

 


1. 베이즈정리란?

Bayes(1763)가 증명한 확률에 관한 정리이자 확률변수의 조건부(conditional) 확률분포와

주변부(marginal) 확률분포를 연관 짓는 확률이론으로서로 배반적인(exclusive) n개 사건

A1, ···, An

을 만족할 때, 어떤 사건 E가 일어났다는 가정에서의 조건확률(conditional probability) P(Ai|E)에 관한 정리

 

 

 

 

 

조건확률 P(Ai|E)를 사건 E가 일어났다는 정보를 바탕으로 구해진

사후확률(posterior probability), P(Ai)는 사전확률(prior probability)이라 한다.

 

 

 

 

 

#좀 더 쉽게 설명하자면

사건 AB가 있을 때, 사건 B가 일어난 것을 전제로 한 사건 A의 조건부 확률을 구하고 싶다고 하자.

그런데 지금 알고 있는 것은 사건 A가 일어난 것을 전제로 한 사건 B의 조건부 확률, A의 확률, B의 확률뿐이다.

그럴 때, 원래 구하고자 했던 '사건 B가 일어난 것을 전제로 한 사건 A의 조건부 확률'은 다음과 같이 구할 수가 있다.

 

 

 

 

 

 

 


2. 베이즈 정리 특징

-1975년 머피 Murphy와 체이즈 Chase에 의해 유전상담에 대한 응용이 보고되어 위험률 추정에 이용되고 있다

-사건의 원인들 중 어느 것이 얼마의 확률을 나타내는 결과를 불러일으키는 것인지 궁금 할 때,

새로운 근거가 제시될 때의 특정 확률을 계산할 때 적용된다

-해석적인 측면에서는 새로운 증거에 기반하여 과거의 정보를 향상시키거나 개선한다고 할 수 있다.

어떤 사건 A의 또 다른 사건 B에 대한 조건부 확률은 사건 B의 사건 A에 조건부 확률과 일반적으로 다르다.

그러나 이 두 확률 사이에서는 어떤 관계가 존재하는데, 바로 베이즈 정리가 이 관계를 설명하는 것이다.

베이즈 정리는 확률사건 AB의 조건부 및 주변확률을 연결시켜주는 것인데, 즉

이고 이고 여기서 L(AB)P(BA)로써 B가 주어졌을 경우에 대한 우도함수를 말한다.

*우도함수란? 어떤 표본에서 특정한 값의 집합인 확률변수 Zi(i1, 2, ···, n)를 고정된 모집단 모수 θ의 결합확률밀도함수(joint probability density function)로 표현한 것 / 확률 변수 Y1, Y2,,,이 확률 밀도 함수 를 갖는 모집단에서 추출되고 서로 독립이라고 가정할 때, 독립성에 의해 이들의 결합 밀도 함수는 로 주어지는데 이를 의 함수로 해석하여 일컫는 말

 

 

 

 

 

 

위의 식에서 각각의 항은 일반적으로 쓰이는 명칭을 갖고 있는데,P(A)A에 대한 사전확률(prior probability) 혹은 주변확률(marginal probability)이라 하며, 여기서 사전(prior)이라 함은 사건 B가 영향을 미치지 않은 상태를 말한다. P(AB)는 사건 B가 발생할 때의 A의 조건부 확률로써, 사후확률(posterior probability)이라 하는데, 이는 P(AB)가 사건 B에 대한 구체적인 정보에 의존하기 때문이다. P(BA)는 사건 A에 대한 B의 조건부 확률이며, P(B)는 사건 B에 대한 사전 혹은 주변확률로써, P(AB)의 확률값을 한정(normalizing)시키는 역할을 한다. 이와 같은 용어를 이용하면, 베이즈 정리는 다음과 같은 형태로 이해할 수 있다.

으로 표현되므로, 사후확률은 관측자료에 의한 우도함수와 사전확률의 곱으로 나타난다. 베이즈 정리는 지구물리탐사 자료의 베이지안 역산에 이용되는 기본 이론으로, 야외 탐사 자료에 대한 모델링은 우도함수로, 해석 대상 변수에 대한 사전 정보는 사전확률로 치환하여 이해할 수 있다.

 

 

 

 

 


3. 베이즈 정리 쉬운 예제

 

Q. 3개의 생산라인을 갖고 있는 공장에서 1번 라인에서 전체 생산품의 30%, 2번 라인에서 50%, 3번 라인에서 20%가 만들어진다. 각 라인에서 나오는 불량품은 2%, 6%, 1%라고 한다. 이 회사제품 중 임의로 하나를 추출한 제품이 불량일 때, 이 제품이 2번 라인에서 생산되었을 확률은?

 

A(풀이) : 임의로 추출한 제품이 불량품일 사건을 B라고 한다. 그럼, P(BlA1)=0.02, P(BlA2)=0.06, P(BlA3)=0.01이다. 또한 문제로부터, P(A1)=0.3, P(A2)=0.5, P(A3)=0.2를 알 수 있다. 이렇게 문제로부터 알 수 있는 정보들을 확률(수학적)로 표현해주는 것이 먼저이다. 이제 구해야 하는 것? 바로, P(A2lB)

따라서 답은 0.789가 된다.

 

 

 

 


4. 베이즈 정리 두 가지 맥락

ㄱ.역확률 문제

베이즈 정리는 앞의 정의에서 알 수 있듯, 본래 역확률(inverse probability) 문제를 해결하기 위한 방법이었다. , 조건부 확률 P(BA)를 알고 있을 때, 전제와 관심 사건이 관계가 정반대인 조건부 확률 P(AB)을 구하는 방법이었다.

 

 

ㄴ. 데이터를 이용한 사후확률의 추정

하지만 베이즈 정리를 이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하는 알고리즘으로 보고 관심을 가지는 사람들도 있었다. 이 때는 어떤 사건이 일어날 확률에 대한 임의의 가정 P(A)에 실제로 발견된 자료나 증거 B를 반영해서, 자료로 미루어보아 어떤 사건이 일어날 확률 P(AB)을 구하는 것이 관심의 대상이 된다.

 

 

 


5. 용어 정리

*새로운 자료가 없는 상태에서 어떤 사건이 일어날 확률에 대한 가정: 사전 확률

*사건이 일어났다는 가정 하에서 새로이 가지게 된 자료가 관측될 확률: 가능도(likelihood)

*사전확률과 가능도를 이용해서 새롭게 계산한, '(새로운 자료로 미루어보아 새롭게 판단한) 어떤 사건이 일어날 확률'을 사후 확률(posterior probability)이라고 한다.

 

 

 

 

 

베이즈 정리의 분모에 해당하는 부분은 가능도를 구할 때 조건으로 걸린 사건(위의 예의 경우,

(실제 병의 유무와는 상관 없이) '양성 판정이 나올 확률')의 확률이다. 기능적으로는 사후 확률이 확률의 정의(0 이상 1 이하여야 한다)를 충족시키도록 사전확률과 가능도의 곱을 보정해주는 역할을 한다.

위와 같은 예에서는 쉽게 계산할 수 있고 엄밀하게 사후확률을 구하려면 반드시 필요한 부분이지만,

실제로 생각보다 계산이 까다로울 경우 등식을 비례 관계로 바꾸고 생략할 수도 있다.

 

 

 

 


6. 크롬웰의 법칙

토머스 베이즈는 확률에 기초한 사고도 합리적이라고 주장했다.

베이즈 정리에는 우리가 우주에 대해 점점 더 많은 정보를 모을수록 우주의 진리에 대해 한 걸음 더 가까이 다가갈 수 있다는 그의 수학적, 철학적 관점이 반영되어 있다고 보아도 좋다. 참고로 어떤 사건에 대한 사전확률이 0이나 1이라면 베이즈 정리에 따라 사후확률도 0이나 1으로 고정되게 된다. 따라서 사전확률이 01 이외의 값이 되어야만 반증이 존재할 시 이를 받아들여서 사후확률을 업데이트하는 것이 가능하다. 이를 다룬 법칙이 크롬웰의 법칙이다.

 

 

 

 

 

 


7. 활용

 

활용-1. 베이즈통계학

베이즈 통계학은 쉽게 말해 사후 확률을 추론하는 방식인 베이즈 정리를 이용해 통계학의 문제에 접근하는 흐름을 일컫는다. 자신이 가지고 있던 기존의 믿음(가설, 모형, ...)에 자료를 반영해서 더 새로운 것으로 만든다는 아이디어는 심플해 보이지만, 베이즈 정리는 확률이나 추정에 대한 관점이 기존의 통계학과 많이 달라서 이를 비판적으로 바라보는 사람들도 많았다. 하지만 이보다도 치명적인 장애물은, 사후분포를 사람의 손으로는 계산하기 쉽지 않은 케이스들이 많다는 것이었다. 만약 사전분포와 가능도가 특정한 짝을 이루고 있다면, 이로부터 추출되는 사후분포는 사전분포와 동일한 형태를 가지는데, 이러한 사전분포를 공액사전분포 또는 켤레사전분포(conjugate prior)라 한다. 예를 들어, 사전분포와 가능도가 모두 정규분포를 따른다면 사후분포는 사전분포와 동일한 정규분포가 된다. 또, 사전분포와 가능도가 각각 베타분포와 이항분포(또는 이것의 특수한 사례로서의 베르누이 분포)를 따른다면, 사후분포는 사전분포와 동일한 베타분포가 된다. 이러한 분포들 사이의 관계는 베이즈 통계학을 본격적으로 배우게 되면 가장 먼저 접하게 되는 내용이다. 이러한 경우에는 정해진 업데이트 공식을 계산하면 쉽게 사후분포를 유도할 수 있기 때문에, 베이즈 통계학의 아이디어가 발견된 이후로 줄곧 사용되어 왔다. 하지만 현실에서 발생하는 데이터들은 항상 이렇게 사전분포와 가능도가 잘 매칭되지 않는 경우가 대부분이라는 것이 문제였다. 이런 경우에는 사람의 손으로 직접 사후분포를 계산하기에는 어려움이 너무 커서, 베이즈 통계학을 현실에서 활용하기에 많은 무리가 따랐다. 하지만 최근 컴퓨터의 계산 능력이 급증하고, 더불어 사후 확률의 계산을 몬테 카를로 방법 혹은 변분법을 이용한 Variational inference같은 기법으로 해낼 수 있다는 것이 밝혀지면서, 베이즈주의의 관점에서 데이터를 분석하는 것이 훨씬 쉽게 되었다.

 

 

활용-2 인지과학 및 인공지능에서의 베이즈정리

심리학, 신경과학, 인지과학, 인공지능, 기계학습 등의 분야에서는 베이즈 정리가 바로 인간이 생각하고 판단하는 근본적인 방식일 수도 있겠다고 보는 이론적인 흐름을 낳기도 했다. 즉, 인간의 사고는 처음에는 아무 정보가 없던 상태에서 새로운 정보를 받아들이고, 이를 통해 자신이 가지고 있던 일종의 사전 확률 체계를 업데이트시켜 세상을 해석하거나 판단을 내리고 의사결정을 하는 방향으로 발전되어 왔다는 것이다. 그리고 이렇게 발전된 사후 확률 체계는 새로운 사전 확률이 되어, 새로운 정보가 유입될 때마다 업데이트를 반복해간다. 심리학, 신경과학 등 인지과학의 여러 분야에서는 인간의 뇌나 마음이 정보를 처리하는 방식이 베이즈 정리를 닮아있다는 가설을 실험이나 모델링을 통해 검증하기도 하고, 인공지능 및 기계학습 분야에서는 베이즈 정리를 기초로 하는 기법들을 많이 발전시켜 왔다.

 

 

 

활용-3 환경

지능형운영센터에는 교통, 전력, 홍수, 산사태 등의 자연재해와 수자원 등을 통합 관리할 수 있는 체계가 갖춰져 있는데, 여기에는 IBM의 분석 솔루션이 적용돼 비상사태를 효과적으로 예측하고 대응할 수 있도록 한다. IBM이 제공한 고해상도 날씨 예측 시스템과 수문학적 모델링 시스템은 날씨 및 수문 관련 방대한 데이터를 분석해 폭우를 48시간 이전에 예측한다. 강 유역의 지형측량 자료와 강수량 통계, 레이더사진 등의 데이터에서 추출한 통합 수학적 모델에 기초해 강수량과 갑작스런 홍수를 예측한다. 뿐만 아니라 강수량과 교통체증, 정전 사태 등 도시에 영향을 미치는 상황들도 평가한다.

 

미국 워싱턴DC의 상하수도를 관리하고 있는 디씨 워터(DC Water)는 배수 및 수집 시스템의 효율적인 관리를 위해 빅데이터 시스템을 도입했다. 예측 분석 시스템을 통해 배수관과 밸브, 공공 수도전, 수집관, 맨홀 및 계량기 등의 자산을 효율적으로 관리할 수 있게 된 것이다. 이를 통해 직원들은 상세한 지도에서 회사 자산의 위치와 상태를 확인하고, 자산 내역과 총 자산 비용, 각 지역의 문제점, 문제 유형 및 지역별 수질 문제에 신속하게 접근하고 있다. 특히 디씨 워터는 예측 분석을 통해 서비스 중단을 예방하고 서비스 수요를 기반으로 새로운 비율 모델을 구축할 수 있었다. 또한 향상된 예방 관리와 자동 검침으로 고객 전화가 36%나 줄었고, 프로세스를 간소화시켜 10분 이내에 신속하게 처리해야 하는 업무를 기존 49%에서 93%까지 늘렸다.

 

 

 

 

 


마지막으로, 베이즈통계학과 베이즈정리 포스팅은 제가 자료를 다 찾아보고 그걸 다 합친게 아마 윗글이라고 생각합니다

내용 자체가 어렵지만 최대한 간단하게 풀어쓰려고 노력하였습니다

내용 이해 안가시는 분들을 위해 가장 간단하게 요약하자면, 베이즈정리는 사전확률의 가능도를 갱신하여 사후확률이 간단해진다는 특성이 있고 이 특성 때문에 인공지능이나 스팸메일 분류 등에 쓰인다고 할 수 있습니다.

 

 

 

 

 

참고문헌: 네이버지식백과, 나무위키

이외에도 많은 보고서 글들은 [입시]-학생부종합전형 카테고리 참고

 

[카이랄(키랄)합성과 녹색화학] 완벽정리&요약 /유기화학 보고서

일반적인 고3은 키랄(카이랄)이라는 용어를 들어본 적도, 그리고 들어볼 수도 없지만 이런 대학전공내용 (?)을 요즈음에는 대학을 가기 위해서는 이런 것까지 탐구해야지 입학사정관님들 눈에

young-brightening.tistory.com

 

 

 

 

대한민국의 모든 수험생들을 응원합니다  ʕتʔ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

이 글의 저작권은 필자에게 있으며,

허가 없이 일부만을 발췌하더라도

법적인 제재를 받을 수 있음을 밝힙니다.

Copyright ⓒ 2022 All rights reserved by @IDEALIFE

All pictures and contents cannot be copied without permission.

 

반응형