-
통계학에 대해서데이터사이언스/통계학을 여행하는 이를 위한 안내서 2022. 8. 30. 20:29
우리는 모른다, 다만 결정한다
통계학은 모형과 표본을 가지고 모수를 추론하는 학문입니다. (또는 예측하는 학문입니다.)
(추론한 결과물은 통계량(statistics)이라고 합니다.)
유사한 의미로 쓰이는 단어는 다음과 같습니다.
모형 표본 모수 통계량 모델
머신러닝, 딥러닝
분포
통계적 가정데이터
샘플
자료
관측치파라미터
ex) 모평균,모분산모델해
추정량(estimator)
ex) 표본평균, 표본분산추론과 예측의 차이 :
추론은 모형이 표본을 잘 설명하는지에 집중하는 방법이고 (확률변수의 성질이 무엇인가?)
예측은 모형이 미래를 잘 맞추는지에 집중하는 방법입니다. (확률변수의 값이 무엇일까?)
특정한 모형들은 그 구조를 파악할 수 없음에도 (해석이 힘들다) 일단 미래는 잘 맞추는 경우가 있습니다.
가장 대표적으로는 구조를 알기 힘들지만 성능은 좋은 알파고(AlphaGo)같은 강화학습 모델이 있을 것입니다.
통계학의 과정에 대해서
이런 정의를 바탕으로 통계학의 과정을 일반화 해볼 수 있습니다.
1.표본을 파악한다.
2.모형을 설정한다. (=적합, 학습, 피팅, 결정)
3.모형을 평가한다.
따라서 여러분이 통계학과 데이터분석(및 인공지능 등)을 배운다면
어떤 페이지를 펼치더라도 이 세 가지 중에 하나를 위한 공부를 하게 될 것입니다.
마찬가지로 통계에는 다양한 용어가 있고, 그 용어들은 보통
1.표본을 파악하거나,
2.모형을 설정하기 위한 것이거나,
3.모형을 평가하는 용어일 가능성이 높습니다.
통계학의 특징에 대해서
항상 내가 갖고 있는 표본(데이터, 자료, 관측치, 샘플)은 여러 경우의 수(평행우주) 중 하나의 가능성입니다.
따라서 언제나 불확실합니다. 그러나 언제나 그것을 수치화 할 수는 있습니다.
어떤 통계적 진술이든지 그 바탕에는 숫자가 있습니다. 그래야만 합니다.
똑같이 수치로 나타내지만 수학은 언제나 확실한 것을 다룬다는 점이 통계학과 근본적으로 다른 점입니다.
통계학의 이러한 특징은 경험론, 실존주의 철학과 맞닿아 있습니다.
통계학의 역사에 대해서
통계학자 에프론(Efron, 2009)은 통계학이 발전해온 과정에 대해 다음과 같이 요약했습니다.
- 19세기: 대용량 자료, 간단한 질문
- 20세기: 소용량 자료, 간단한 질문
- 21세기: 대용량 자료, 복잡한 질문
많은 양의 공공 데이터를 활용하여 간단한 질문에 답하는 것이 통계학의 시작이었다면, 적은 데이터가 주어질 때의 단점을 보완하기 위한 방법론들(효율성, 최소최대수렴속도 등)을 20세기 통계학에서 다루었습니다.
현대의 통계학은 과거의 어느 때 보다도 크고 형태가 다양한 데이터와 많아진 변수들에 대해 답하고 있습니다. 대표적인 문제로는 "large p, small n" 이 있습니다. 큰 자료의 개수인 n보다도 더 큰 변수 p가 주어질 때를 의미합니다.
통계학, 그리고 요리
학교에서 통계학의 과정에 대해서 들었던 말 중에 가장 기억나는 말은 "통계학자는 요리사와 비슷하다" 입니다.
1.재료를 파악한다.
2.요리한다.
3.요리를 평가한다.
요리사가 매일 접하는 재료들은 그때마다 컨디션과 종류가 다를 수 있습니다. 재료의 차이를 파악하고 적절한 레시피를 적용해야합니다. 그리고 그 결정에 정답은 없습니다. 음식의 맛에 대한 피드백도 계속 해야 할 것입니다. 얼마나 고객을 만족시킬 수 있는지가 중요합니다. 통계학자(데이터 과학자)도 본인의 모델과 결과에 대해 논리력과 설득력을 갖춰야 하듯 말입니다.
안 좋은 요리가 만들어지는 이유도 데이터 분석에 그대로 적용 할 수 있습니다. 애초에 좋지 않은 재료(데이터)를 사용하고, 재료에 어울리지 않는 레시피(모델)를 적용하고, 조미료와 요리책에만 의존하는 (하드웨어와 오픈소스에만 의존하는) 요리사는 좋은 요리(결과물)를 내놓기 힘들 것입니다.
'데이터사이언스 > 통계학을 여행하는 이를 위한 안내서' 카테고리의 다른 글
수리통계학에 대해서 (0) 2023.02.20