DL(Deep-Learning)
train/test/validation 나누기 - splitfolders
인공지능 모델 학습을 위해 train/validation/test 데이터로 나눠준다. Train : 학습에 사용되는 훈련용 데이터 validation : 모델의 일반화 능력을 높이기 위해 학습중 평가에 사용되는 검증 데이터 Test : 학습이 끝난 후 모델의 성능을 평가하기 위한 테스트용 데이터 ✔︎ splitfolders 'splitfolders' 는 데이터 셋을 분리하기 위한 파이썬 라이브러리이다. # 설치 방법 !pip install split-folders # 사용방법 비율을 이용해서 데이터셋을 나누는 방법 train : val : test = 7 : 1 : 2 import splitfolders splitfolders.ratio('데이터 폴더 경로', output='output 폴더 경로', s..
[DL] 엔트로피 Entropy
엔트로피 Entropy 원래 분자들의 무질서도 혹은 에너지의 분산 정도를 나타내는 물리학 용어에서 출발한다. 정보이론에서의 Entropy 1948년 미국의 수학자이자 전기공학자인 클로드 섀년(𝐶𝑙𝑎𝑢𝑑𝑒 𝐸𝑙𝑤𝑜𝑜𝑑 𝑆ℎ𝑎𝑛𝑛𝑜𝑛)은 엔트로피 개념에서 힌트를 얻어 확률 분포의 무질서도나 불확실성 혹은 정보 표현의 부담 정도를 나타내는 정보 엔트로피(섀년 엔트로피) 개념을 고안해 낸다. '정보‘라는개념이 등장하게 되는데, '정보이론'은 신호에 존재하는 '정보의 양'을 측정하는 이론이라 할 수 있다. 여기서 '정보의 양' 은 '놀람의 정도'를 의미한다. 놀람의 정도는 쉽게 말해 모두가 알만한 정보가 아닌, 새롭고 특이해서 사람들로 하여금 놀람을 일으키는 정도라고 이해하면 된다. 예를들어 '3년 뒤 삼성전자의..
분류 성능 지표 - Precision(정밀도), Recall(재현율)
분류와 정답 모델의 성능을 평가하는 요소는 모델이 내놓은 답과 실제 정답의 관계로써 정의를 내릴 수 있다. 정답이 True와 False로 나누어져있고, 분류 모델 또한 True False의 답을 내린다. TP : 신경망의 추측이 '참(P)'이며, 데이터의 정답 또한 '참'(T)으로 정확하게 평가한 결과 TN : 신경망의 추측이 '거짓(N)'이며, 데이터의 정답은 '참'(T)으로 부정확하게 평가한 결과 FP : 신경망의 추측이 '참(P)'이며, 데이터의 정답은 '거짓(F)'으로 부정확하게 평가한 결과 FN : 신경망의 추측이 '거짓(N)'이며, 데이터의 정답 또한 '거짓(F)'으로 정확하게 평가한 결과 Precision(정밀도) 정밀도란 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율입니다..
활성화 함수 activation function
신경망모델의 각 layer에서는 input 값과 W(가중치)를 곱하고 b(편향)를 더하는 연산을 통해 a=WX+b를 계산하고 마지막에 활성화 함수를 거쳐 h(a)를 출력한다. 이렇게 각 layer마다 활성화 함수를 거쳐 출력하는 이유가 무엇일까? XOR문제 - 선형분류기의 한계 인공신경망에 대한 연구가 한계를 맞게된 첫 과제는 바로 XOR문제였다. 아래 그림에서 확인할 수 있듯이 기존의 퍼셉트론은 AND와 OR문제는 해결할 수 있었지만 선형 분류기라는 한계에 의해 XOR과 같은 non-linear한 문제는 해결할 수 없었다. 그리고 이를 해결하기 위해 나온 개념이 hidden layer이다. 그러나 이 hidden layer도 무작정 쌓기만 한다고 해서 퍼셉트론을 선형분류기에서 비선형분류기로 바꿀 수 있..