데이터는 예측하지 않는다
Publish date: 2024-04-28Tags: 통계 데이터-분석
이미지 출처 Yes24 (https://www.yes24.com/Product/Goods/124187392)
감상
인상 깊은 부분
p27 ~ p28
아무리 분석 방법을 잘 알고 분석 실력도 출중하더라도 분석 데이터의 질이 좋지 않으면, 좋은 분석이 나올 수 없다는 뜻이다. 그래서 분석 실력만큼 중요한 것이 데이터의 가치를 판단하는 능력이다. 이를 위해서는 분석하려는 분야에 대한 전문성이 필요하고 기초적인 통계 지식을 갖추는 것이 중요하다.
p33
데이터 사이언스를 사용한다(혹은 학습한다)는 것은 데이터를 이용해 내가 일하는 분야에서 발생한 특정 문제를 해결하고자 하는 목적일 가능성이 높다. 이때 가장 중요한 것은 문제의 본질을 얼마나 제대로 파악하고 있는가이다. 문제의 본질은 데이터 사이언스를 통해 알려고 하는 것, 데이터 사이언스를 통해서 하려는 정확한 의사결정이 무엇인가 파악하는 것이다.
p38
“반드시 데이터 분석이 필요한가?” “필요하다면 꼭 빅데이터이어야 하는가?” 이 두개의 질문은 데이터 분석을 시작하기 전 반드시 해야하는 질문이다.
p40
빅데이터 시대에도 데이터의 양보다 질이 중요함
즉, 여전히 정제되지 않은 100만 개 보다는 정제된 100개가 훨씬 유효하다.
p41
대부분은 고급 기술을 사용하기 전에 문제를 해결한다. 설령 고급 기술을 사용한다 하더라도 적은 양의 데이터와 기초 통계 수준의 실력만으로(검을 뽑지 않고 칼집만 사용)문제를 해결한다. 마치, 무림 고수가 천하제일검을 실제 사용하는 일은 드문 것처럼 말이다.
p45
‘3) 왠만한 건 고등학교 수준의 통계학만으로 가능하다’ 단락
우리가 데이터 분석을 어려워하는 이유는 지식이 부족해서가 아니라 어떻게 적용할지 몰라서이다.
- 모든 데이터 사이언스는 “측정 -> 수집 -> 분석"의 단계를 따른다. (중략) 하지만 측정과 수집 둘 다 엉망이 되면, 아무리 어마어마한 분석 도구를 사용하더라도 정확한 결과를 얻기 어렵다.
p49
그런데 대상의 실체가 불분명해서 측정이 불간으한 것이 있다. 바로 감정, 기분, 능력, 성과 같은 사회 과학에서 다루는 개념이다. 측정이 불가능한 것을 억지로 측정하기 위해 도입된 것이 대체지표이다.
- 만족 : 1점 ~ 5점 사이의 만족도 설문조사
- 술에 취함 : 혈중 알콜 농도
- 능력 : 시험 성적
대체 지표는 대상을 모사할 뿐이지, 원래의 대상이 될 수 없다.
p74
즉, 자유 낙하하는 공의 떨어진 시간과 거리와의 관계는 아주 강력한 상관관계를 가지고 있지만 선형회귀분석을 할 경우에는 상관관계가 없는 것으로 나타나는 대표적인 사례이다. (거리와 시간과의 관계는 y=ax^2 + bx + c의 형태이지만, 선형회귀분석의 기본 꼴은 y = ax+b의 형태이다.)
p77~p78
빅데이터로 본 ‘프로야구 5강’ 기사에서 SNS에서의 치킨 언급량과 승률의 상관관계 분석에 대한 비판.
책에는 기사가 ‘치킨 판매량'을 변수로 둔 것처럼 적었는데, 실제 기사를 보니 ‘SNS'에서의 치킨에 대한 언급한 량이였다. 미국의 ‘닭날개 가설'을 우리나라의 SNS상 치킨 언급량으로 변형해 적용했다고 기사에서 밝히고 있다.
왜 이러한 황당한 결론이 나오게 된 것일까? 여러 이유가 있겠지만, 그 중 갖아 큰 이유는 데이터 분석을 통해서 나오는 결과는 변수들 사이에 상관관계(Correlation)를 알려주는 것이지, 인과관계(Casuality)를 알려주는 것은 아니라는 사실을 놓쳐기 때문이다. 다시 한 번 말하지만, 데이터만으로는 변수들 사이의 인과관계를 분석할 수 없다.
모기약을 많이 산다고 모기가 늘고, 치킨 판매량이 는다고 야구 경기력이 향상된다는 것이 틀렸다는 것 쯤은 누구나 알만한 상식 수준의 판단이다. 이를 좀 더 고급스럽게 표현하면, 변수들 사이의 관계를 파악하는 인사이트는 데이터 분석 능력이 아닌 다른 영역에서 우선하여 나온다는 것이다.
p89
아무리 데이터 사이언스가 날고 기어도 그 기본 전제인 수학의 테두리는 벗어날 수 없다. 그러니 우리가 무엇을 문제로 정의할 것인지, 그리고 무엇을 분석할 것인지 고민할 때는 이 같은 절대 진리를 위배하는 것은 아닌지 잘 따져보는 혜안이 필요하다. 단순히 분석 기술을 잘 아는 것과는 다르다.
p93
그래서 결론적으로 얘기하면, 빅데이터는 데이터 사이선스나 전산학 혹은 통계학을 하는 입장에서 컴퓨터로도 다루기 까다로운 큰 데이터일 뿐이지 그 이상의 어떤 대단한 무엇도 아니다.(빅데이터가 마치 모든 걸 해결해줄것인냥 생각할 필요가 없다)
p98
논쟁을 할 때 상대방이 데이터가 조작되었다고 주장한다면 상대도 인정할만한 출처의 데이터를 가지고 와서 논쟁을 함.
p100
사람들(특히, 문과출신)은 수치나 테이블 사용하기를 좋아한다. 문과 출신이 숫자를 사랑해서 그런 것을 당연히 아닐 테고, 나도 숫자를 활용할 줄 안다는 정도를 보여주고 싶어서 그런 것일 테다.
p102
자신의 주장이 혹은 어떤 사실이 맞다는 것을 뒷받침하려고 데이터를 조작하는 경우, 이는 엄연한 범죄 행위가 되며 조작 사실이 발각되었을 때 사람들로부터 엄청난 반감을 사게 된다. 하지만 표본 추출을 객관화하지 않는 것에 대해서는 사람들이 크게 의식하지 않는다. 사람들은 데이터 조작보다 표본의 객관화에 대해서 훨씬 관대하다.
p106
물리학적 소양은 논리적으로 세상은 바라보는 능력, 수학적 소양은 그렇게 바라본 세상을 논리에 맞게 풀어가는 능력. 이 둘을 합쳐서 과학적 소양이라고 설명
그래서 이러한 과학적 소양이 빠진 인문학은 진짜 인문학에 아니며 이런 사회는 구성원 스스로를 합리적이고 똑똑한 존재인양 착각하게 만든다.
p109
데이터 과학은 데이터를 다루는 학문이다. 이러한 정량화(혹은 수치화)된 데이터를 분석하는데 사용되는 학문이 바로 통계학(Statistics)이다. 따라서 데이터 과학에서 사용하는 기법이 아무리 바뀌어도, 사용되는 분석 기법들은 통계학의 특성을 벗어날 수 없다.
p111
그럼에도 이러한 분석이 가능하다고 믿는 이유는 한 가지 큰 가정을 전제로 하는데, 그 가정은 바로 “과거의 사건이 현재나 미래에도 재현(Recursive)된다.“라는 생각 때문이다. 통계학의 모든 예측 모델은 이 “재현성"을 기반으로 한다. 즉, 과거의 사건이 미래에도 재현된다는 가정하에서 예측이 의미가 있어진다는 뜻이다.
중략
따라서 통계(혹은 데이터 과학, 혹은 빅데이터)를 통하 미래 예측은 시뮬레이션처럼 미래를 모사(imitate)만 할 수 있을 뿐이지 정확히 예측한다는 것은 불가능하다.
p114
예측을 목적으로 하는 데이터 분석의 경우 정작 목표로 잡아야 할 것은 미래의 예측이 아니라 과거 데이터에서 ‘패턴'을 찾는 것이다. 이처럼 예측이 패턴 찾기가 되면 시간에 따라 예측을 하는 것이 아니라, 특정 조건이 맞으면 예상되는 결과를 도출해 내는 단계가 된다. 이러한 패턴 기반의 데이터 누석은 엄밀하게 보면 예측은 아니지만, 그와 비슷한 효과를 낼 수 있다.
p118
사람이 취했는지를 판단할 때는 정신과에서 하는 인지능력 시험이 더 정확할 수도 있지만 보통 혈중 알코올 농도를 특정해서 판단함.
이 사례를 통해서도 알 수 있듯이 데이터 사이언스에서 정작 중요한 것은 데이터를 잘 수집하고 잘 분석하는 것이 아니라, 문제의 본질에 접근해서 적은 노력으로 측정하고 분석하는 방법을 찾는 것이라 할 수 있다.
p126
데이터 사이언스는 수집이 가능한 한정된 데이터에서 분석된 사실이 전체 데이터로 분석된 사실과 동일하다는 가정에서 출발한다. 하지만 이러한 가정은 항상 참이 아니다.
p129
실제로 “완벽한” 동전 던지기의 확률이 진실로 0.5인 이유는 실험 데이터 분석이나 통계로 구해진 것이 아니라, 기하학(벡터)과 물리학(만유 인력법칙)을 기반으로 한 수학적 증명(넓게는 과학적 증명)에 기인한다. 그리고 이러한 증면의 출발은 공정성이 0.5인 완벽한 동전을 “질량이 없는 그리고 높이가 0에 근접하고 넓이가 무한에 근접하는 원판"으로 정의하는 데서 시작한다.
p130
데이터 분석을 통해 얻어진 사실의 대표성이 실제 정답인지에 대한 판단은 데이터 분석이 아닌, 다른 방법을 이용해 증명해야 한다.
중략
특히 사회 과학 분야의 경우, 그때의 상황이나 분위기에 따라 분석에 사용되는 데이터들이 선택적 혹은 편향적으로 수집 될 수 있다.
p131
데이터 사이언스는 한계가 있지만 그럼에도 유용한 방법론이자 도구이다. 한계를 인지하고 사용해야 함.
Sometimes, something is better than nothing.
p136
행여 어떤 데이터 분석 회사가 자신들의 기술력을 근거로 “정확한 예측"을 말한다면, 그 업체는 파트너로 고려하지 않는 것이 타당하다. 왜냐하면 도박과 확률(혹은 통계)의 차이조차도 모르는 곳이니 말이다.
p138
결과적으로, 확률이 도박과 가장 다른 점은 목적이 ‘예측'에 있는 것이 아니라 “관리"에 있다는 것이다. 이는 게임에서 단순히 이기거나 지거나, 승부 예측을 통해서 돈을 버느냐 마느냐 같은 것이 아니라, 확률에 따라 자원을 어떻게 효율적으로 운영하느냐에 중점을 둬야 한다는 것을 말한다. 그리고 이와 같은 확률의 목적성은 확률을 기반으로 하는 통계, 통계를 기반으로 하는 데이터 과학(혹은 빅데이터) 모두 동일하다.
p215
인공지능의 근간이 되는 데이터 사이언스는 과학아 아니다. 데이터를 기반으로 도출된 해답은 실제에 대한 답(진실)을 주는 것이 아니라, 답을 얻기 위해 학습에 사용된 데이터의 대푯값에 따른 결과만 정답으로 제공할 뿐이다. 그리고 이러한 대푯값은 데이터의 다수결에 의해 결정된다. 천동설이 대세인 데이터를 학습한 챗GPT에서는 천동설이 정답이 될 수밖에 없는 것처럼 말이다.
관련 자료
- 저자 블로그 : https://brunch.co.kr/@amangkim