인과관계 에서 상관관계의 중요성 확대 :
"인과관계는 원인 → 결과" 이며, "상관관계는 그냥 같이 변할 뿐!"
과거에는 데이터를 분석할 때, "어떤 원인이 결과를 만들었는가?" 에 집중.
빅데이터 시대에는 데이터의 양이 너무 많고, 복잡해서 "정확한 원인을 찾기보다는, 데이터를 활용해 패턴을 찾는 것" 이 더 중요하다.
예를 들면
- 어떤 소비자가 어떤 상품을 많이 사는가?
→ 인과관계를 몰라도, 데이터 분석으로 "이 제품을 사는 고객이 저 제품도 산다"는 패턴을 찾을 수 있음. - AI가 질병을 예측하는 방법
→ AI가 "이런 증상을 가진 사람은 이 질병에 걸릴 확률이 높다"라고 예측하지만,
→ 왜 그런지는 모름(인과관계는 불분명). - 넷플릭스 추천 알고리즘
→ "이 영화를 본 사람은 저 영화도 본다." (인과관계는 모르지만, 상관관계가 있음.)
즉, 빅데이터 시대에는 "왜?"보다 "무엇이 관련 있는가?"를 찾는 것이 더 중요해졌다!
빅데이터는 너무 방대한 정보를 다루기 때문에, 인과관계를 따지기 어렵다 그래서 패턴과 트렌드를 찾는 "상관관계"가 더 중요한 역할을 한다. 하지만, 인과관계도 완전히 무시하면 안됨! 중요한 연구에서는 상관관계를 기반으로 인과관계를 추가 분석하는 과정도 필요.
결국 인과관계의 중요성이 사라진 것이 아니라, 분석의 효율성이 낮아진 것이라고 보는것이 더 정확하다.
빅데이터 환경에서는 인과관계를 분석하는 것이 어렵고 비용이 많이 들기 때문, 인과관계 자체가 중요하지 않은 것은 아님.
즉, 빅데이터 시대에서는 인과관계 분석이 너무 어렵고, 상관관계 분석이 더 효율적이기 때문에 상관관계를 더 많이 활용한다. "빅데이터 환경에서 인과관계를 찾는 것이 비효율적" 이라는 점이 핵심!
그렇다면 효율성을 판단하는 주요 기준은 무엇인가?
기준별 상관관계 분석 과 인과관계 분석
비용(자원) | 저비용, 빠르게 분석 가능 | 비용과 시간이 많이 듦 |
시간(속도) | 즉시 분석 가능 | 실험과 연구가 필요해 느림 |
활용 가능성 | 바로 실생활(마케팅, 추천 시스템)에 적용 가능 | 적용하려면 추가 연구 필요 |
정확도 | 빠르지만 원인을 정확히 알 수 없음 | 원인을 알지만 시간이 오래 걸림 |
대표 예시 | 넷플릭스 추천, 광고 최적화 | 신약 개발, 정책 연구 |
효율성이 높은지 판단하는 방법
효율성이 높은지 판단하는 기준은
✔ "적은 비용과 시간으로 최대 효과를 얻을 수 있는가?"
✔ "결과가 바로 활용될 수 있는가?"
✔ "정확성과 속도 중 어느 것이 더 중요한가?"
빅데이터 시대에서는 속도와 실용성이 중요한 경우가 많아서, 인과관계보다 상관관계 분석이 더 "효율적" 이라고 말한다.
여기까지 내용을 보면 최소한의 비용과 자원으로 최대의 효과를 이루자 는 말은 많이들 들어봤을것이다.
공정관리(일정관리)에서도 프로젝트의 성공목표기준이기도 하며, 그것은 효율성이 높은 작업(Activity)과 비용이 높은(즉, 가중치가 높은) 작업을 중점관리 함으로써 최대의 효과를 얻는것과 같다.
이렇게 보면 공정관리와 빅데이터 는 유사한 점이 많으것 같다.
'데이터 분석가:Applied Data Analytics' 카테고리의 다른 글
EDA(탐색적 데이터 분석) 훈련 방법 (0) | 2025.02.16 |
---|---|
알고리즈미스트(Algorithmist) (0) | 2025.02.01 |
챗GPT를 더 잘사용하기위한 26가지 프롬프트 원칙 (0) | 2025.01.22 |
파이썬 설치 (0) | 2025.01.21 |
Looker Studio 란? (0) | 2025.01.16 |