Play with Data 2 > Chapter 3. 지식 iN 데이터를 분석해보자

[따라하기] 네이버 지식iN의 데이터 수집방법 알아보기

네이버 지식iN 데이터 수집방법 알아보기

1. 지식iN은 데이터를 어떻게 수집했을까?

어떻게 데이터를 수집해서 이렇게 원 그래프로 표현할 수 있을까요? 생각해봅시다.


 <워크 시트> 지식iN이 데이터를 수집한 방법 조사하기

1) 10대 남자라는 정보는 어떻게 얻었을까요?

2) 분야별 데이터 비율을 어떻게 얻었을까요?

3) 전체 질문수, 답변수, 답변자 수 데이터를 어떻게 모았을까요?

네이버 지식iN에서 질문을 작성하면, ‘분야 선택’ 창이 생깁니다. 여기서 해당되는 분야를 선택할 수 있습니다.

‘네이버 개인정보처리방침’을 보면 자세한 내용을 확인할 수 있습니다. 회원제 서비스를 이용하기 위해 회원가입을 할 경우, 서비스를 위해 필요한 최소한의 (개인정보)를 수집하는 경우가 있습니다. 회원가입을 할 때 (성별), (생년월일) 등의 정보를 수집합니다.

 

  


지식iN에 질문을 올리고 답변을 할 때의 정보를 축적하고 분류하여 통계를 낼 수 있습니다. 위 그림은 특정 시간을 기준으로 한 쇼핑 분야 통계 데이터입니다. 쇼핑 분야에서 연령대별, 성별로 답변한 비율을 시각화하여 확인 할 수 있습니다. 

전체 질문수, 답변수, 답변자 수의 데이터는 어떻게 확인하고, 기록할 수 있을까요? 사람이 숫자를 일일이 세어 기록할 수 있으나 엄청나게 많은 노력과 시간이 필요합니다. 이 문제를 해결하기 위해 지식iN 데이터 수집을 컴퓨터 프로그래밍으로 자동화하였습니다. 지식iN에 질문을 올리고 답변을 작성하면 그 숫자가 체크가 되어 데이터가 저장됩니다. 사람이 직접 개수를 센다면 무척 오래 걸리겠지만 자동화 시스템을 만들었기 때문에 컴퓨터가 개수를 세고 통계를 냅니다. 


2. 지식iN은 어떤 데이터를 수집할까?

 <워크시트>

지식iN에서 통계를 낼 때 중요한 데이터는 어떤 것이 있을까요?

* ‘네이버 개인정보처리방침’을 보면 자세한 내용을 확인할 수 있습니다. 회원제 서비스를 이용하기 위해 회원가입을 할 경우, 서비스를 위해 필요한 최소한의 ( 개인정보 )를 수집하는 경우가 있습니다. 회원가입시에 ( 성별 ), ( 생년월일 ) 등의 정보를 수집합니다.

* 지식iN에서는 ( 나이 ), ( 성별 ), ( 기간 ), 분야 등을 기준으로 통계를 내고 있습니다.


※ 균형 잡힌 데이터의 중요성과 윤리적 문제

‘강아지-고양이 분류기 사례’와 ‘지식iN 데이터를 분석할 때 유의할 점’을 통해 균형 잡힌 데이터의 중요성과 윤리적 문제에 대해 생각해봅시다. 

Q. 아래에 제시된 강아지와 고양이 사진으로 인공지능을 학습시키면 어떻게 될까요?


 
제시된 강아지, 고양이 사진으로만 인공지능을 학습시킬 경우 강아지와 고양이를 제대로 분류하지 못 할 수 있습니다. 학습시킨 사진에서 강아지의 귀 모양은 모두 둥근 모양이며, 고양이의 귀 모양은 모두 뾰족한 모양입니다. 인공지능은 뾰족한 귀 모양을 가진 강아지 사진을 보고 고양이로 분류할 가능성이 높습니다.

데이터 윤리 - 새(bird) 이름이 ‘화질구지’?

 

 이 사진의 경우 고양이로 분류할 가능성이 높습니다.

이처럼 학습 데이터가 부족하거나 균형이 잡히지 않은 경우, 인공지능도 한 쪽으로 치우친 판단을 할 가능성이 높습니다. 

(2) 지식iN 데이터를 분석할 때 유의할 점

우리가 지식인의 데이터를 보고 판단을 할 때 유의해야 할 점은 무엇일까요? 아래 그래프를 통해 생각해봅시다. 이 그래프는 2020년 7월에 10대 남성이 네이버 지식iN에서 어떤 분야에 대한 질문을 많이 올렸는지 보여줍니다.

이 데이터만으로 모든 10대 남성이 연애와 결혼에 관심이 많다고 판단할 수 있을까요? 그렇게 일반화 하기는 어렵습니다. 그 이유는 ‘특정 시기에 지식iN을 활용한 10대 남성’에 대한 데이터이기 때문입니다. 2020년 7월에 인기 연예인이 연애나 결혼을 하여 갑자기 관심이 높아졌을 수도 있고, 연애나 결혼에 관심 있는 일부 사람들이 지식iN을 많이 활용했을 수 있습니다. 따라서 다른 시기에는 어땠는지, 지식iN을 활용하지 않은 사람은 어떤지 추가로 확인하면, 데이터를 정확하게 분석하는데 도움이 될 것입니다.

앞서 강아지-고양이 분류기 사례를 통해 균형 잡히지 않은 데이터를 학습한 인공지능은 판단도 한쪽으로 치우 칠 수 있다는 것을 배웠습니다. 아울러, 지식iN 데이터 분석 시 유의할 점을 통해 데이터가 어떤 시기에 어떤 경로를 통해 수집된 것인지 명확히 알아야 한다는 점을 배웠습니다. 인공지능의 편향된 판단이나 잘못된 데이터 분석 결과는 사회적, 윤리적 문제로 이어질 수 있으니 항상 주의해야 합니다.