컴퓨터 비전 수업/수업 필기

컴퓨터 비전 2주차(2)

코딩입문시작 2024. 10. 18. 14:56

[학습 목표]

이미지 인식 문제에 대해 알고 이미지 인식 분야에서 다루는 주요 문제에 대해 설명할 수 있다.


 

딥러닝 기술이 적용되고 있는 분야

  • 이미지 인식
  • 음성 인식
  • 자연어 처리

이미지 인식 (Image Recognition) 문제

  • 인간이 일상 속에서 접할 수 있는 몇 가지 주요한 사물들을 인식하기 위한 시도가 시작
  • CIFAR-10 데이터 셋 : 10가지 사물 중 어떤 것이 포함되어 있는지를 단순 분류하는 문제 제시하기 위해 만들어짐.

 

왜 학습 데이터 수가 많을까?

  • 딥러닝이라고 하는 것은 층이 굉장히 짙다고 하는 의미가 있다. 그래서 층이 깊어지다 보니까 순전파를 통해서 추론을 하고 추론한 결과에서 예측값하고 실제값의 차이를 가지고 기울기를 반영한 형식으로 학습하는 것이 바로 딥러닝이라고 할 수 있다. 그래서 층을 깊이 가다 보니까 매개변수가 굉장히 많다. 그러다 보니 매개변수들을 학습을 잘하기 위해서 굉장히 많은 데이터를 요구하고 필요로 한다고 이해하면 된다.

MNIST (손글씨 데이터셋) 이 기본적인 분류 성능이 제일 높다.

초창기 이미지 인식 대회 중 가장 대표적인 것이 PASCAL VOC Challenge (Visual Object Classes) 이다.

이미지 인식 분야에서 다루는 주요 문제는 다음과 같다.

  • Classification (분류) : Input에 대해서 하나의 레이블을 예측하는 작업
  • Detection (검출) : 물체의 레이블을 예측하면서 그 물체가 어디에 있는지 정보를 제공
  • Segmentation (분할) : 모든 픽셀의 레이블을 예측

 

분류 (Classification) 문제의 주요 목표

  • 주어진 이미지 안에 어느 특정한 클래스에 해당하는 사물이 포함되어 있는지 여부를 분류하는 모델을 만드는 것
  • 클래스란 관심의 대상을 분류를 하고 그 카테고리 하나하나를 클래스라고 한다. (강아지 클래스, 고양이 클래스, ...)

다중 분류의 예시

 

분류는 어떻게 진행이 되느냐?

  • 주어진 이미지 안에 특정 클래스의 사물이 존재할 가능성을 나타내는 신뢰도 점수 (Confidence Score)를 제출하도록 요구한다. 
  • 이를 통해 추후 정답 여부 확인 시 해당 결과물에 대한 사후적인 해석의 여지를 두게 되는 것이다.
  • 신뢰도 점수에 대한 해석 방법 : 분류 문제에서 분류의 대상이 되는 이미지에는 여러 개의 사물이 있을 수 있다. 둘 중 어느 경우를 전제하느냐에 따라 신뢰도 점수의 최종 해석 방법이 달라진다.

 

분류 중에 까다로운 분류는 복수 사물 분류이다. 

  • 단순히 가장 큰 신뢰도 점수를 갖는 분류 하나만 선정하여 제시하는 것은 그다지 합리적인 결론이 아니다. XXX
  • PASCAL VOC Challenge 이미지 인식 대회의 경우에는 각 분류마다 문턱값 (Threshold, 임계값)을 미리 설정해 놓고, 주어진 이미지의 각 분류별 신뢰도 점수가 Threshold보다 큰 경우에 한하여 주어진 이미지 안에 해당 분류가 포함되어 있을 것이다라고 결론을 내린다.

 

분류의 평가 척도 (Evaluation measure)

  • 어떤 모델의 분류 성능을 평가하고자 할 때, 다양한 종류의 평가 척도 중 하나 혹은 여러 개를 선정하여 사용할 수 있다.
  • 정확도 (Accuracy), 정밀도 (Precision), 재현율 (Recall)

정확도 (Accuracy)

  • 분류 문제에서의 정확도는 일반적으로 테스트를 위해 주어진 전체 이미지 수 대비, 분류 모델이 올바르게 분류한 이미지 수로 정의한다.
  • 비율이 높을수록 좋은 모형이다.

 

정밀도 (Precision)

  • 복수 사물 분류 문제에서는 정확도를 그대로 사용하기 곤란해지는 상황이 발생한다.
  • 분류 문제에서의 어느 특정 클래스 C의 정밀도는 분류 모델이 C일 것으로 예측한 이미지 수 대비, 분류 모델이 올바르게 분류한 클래스 C 이미지 수로 정의한다.
  • 각 Class에 대한 정밀도를 계산한 후에 이들 전체의 대푯값(Representative value)을 취하고, 이를 최종적인 평가 척도로 삼을 수 있다. (전체 C개의 Class에 대한 평균 정밀도를 계산)

중요!!

 

재현율 (Recall)

  • 복수 사물 분류 문제에서는 정확도를 그대로 사용하기 곤란해지는 상황이 발생한다. 
  • 하나의 분류에 대하여 (다른 분류와는 독립적으로) 매겨지는 평가 척도
  • 분류 문제에서의 어느 특정 Class C의 재현율은 실제 Class C 이미지 수 대비, 분류 모델이 올바르게 분류한 Class C 이미지 수로 정의
  • 실제 타겟 클래스 중에 예측이 맞은 확률 !!!

 

검출(Detection) 문제의 주요 목표

  • 주어진 이미지 안에 어느 특정한 클래스에 해당하는 사물(만약 있다면)이 어느 위치에 포함되어 있는지 '박스 형태'로 검출하는 모델을 만드는 것 
  • 특정 클래스의 사물이 포함되어 있는지 여부만 분류하는 분류 문제의 목표에서 한 발 더 나아간 것
  • 직사각형 모양의 박스는 바운딩 박스 (Bounding Box)라고 한다. 바운딩 박스를 정의하기 위해서는 좌표를 결정해야 하고, 이와 더불어 제시한 바운딩 박스 안에 포함된 사물에 대한 각 Class 별 신뢰도 점수도 함께 제시해야 한다. 

 

 

검출 문제는 분류에 비해 높은 난이도를 지닌다.

  • 분류에 비해 바운딩 박스들과 관련된 정보를 추가로 제시해야 한다.
  • 이들 각각에 결부된 사물의 Class에 대해 분류를 빠짐없이 수행해야 한다.

 

검출의 평가 척도 : IOU (Intersection Over Union)

  • 각 예측 바운딩 박스와 실제 바운딩 박스에 대하여 IOU를 사용하여 예측 바운딩 박스와 실제 바운딩 박스가 서로 얼마나 겹쳐지는지를 평가한다.
  • 많이 겹칠수록 검출의 평가가 좋아진다.

 

IOU (Intersection Over Union)

  • 예측 바운딩 박스와 실제 바운딩 박스 간의 IOU에 대한 문턱값 (Threshold)을 0.5로 정해 놓고 있다.
  • 겹친 영역의 비율이 50% 넘겼을 때만 두 바운딩 박스를 매칭한 다음 해당 바운딩 박스의 신뢰도 점수를 평가하는 방식을 채택함
  • 이 때, 중요한 건 실제 바운딩 박스랑 예측 바운딩 박스는 한 사물에 대해 1개씩이여야 한다.

 

분할(Segmentation) 문제의 주요 목표

  • 주어진 이미지 안에 어느 특정한 클래스에 해당하는 사물(만약 있다면)이 어느 위치에 포함되어 있는지 'PIXEL 단위'분할하는 모델을 만드는 것
  • 주어진 이미지 내 각 위치 상의 Pixel들을 하나씩 조사하면서 현재 조사 대상인 Pixel이 어느 특정한 Class에 해당하는 사물의 일부인 경우, 해당 Pixel의 위치에 그 Class를 나타내는 '값'을 표시하는 방식으로 예측 결과물을 생성 
  • 사물이 있다면 1, 사물이 없다면 0, 이렇게 생성된 결과물을 마스크(MASK)라고 한다.

 

분류 문제 VS 분할 문제

  • 분류 문제 : 각 이미지에 대한 신뢰도 점수를 제출
  • 분할 문제 : 각 Pixel이 어떤 Class에 해당하는지 나타내는 값을 곧바로 제출한다.

 

Semantic 분할 VS Instance 분할

  • Semantic 분할 : 분할의 기본 단위를 Class로 하여 동일한 Class에 해당하는 사물을 예측 마스크 상에 동일한 색상으로 표시
  • Instance 분할 : 분할의 기본 단위를 사물로 하여 동일한 Class에 해당하더라도 서로 다른 사물에 해당하면 이들을 예측 마스크 상에 다른 색으로 표시
  • Semantic 분할은 한 클래스에 여러 사람이 나오면 같은 객체로 보지만, Instance 분할은 사람 내에서 여러 사람이라면 각각 다른 객체로 인식하는 것이다.

 

분할의 평가 척도

  • 분할의 평가 척도도 IOU를 사용한다.
  • 하지만 다른 점은, 기존 실제 마스크 상에서 배경 Class를 제외한 특정 Class를 나타내는 영역의 가장자리에서는 반드시 폭 5px의 '흰색' 경계선이 표시되어 있다는 것이다.
  • 실제 마스크 상에서 흰색으로 표시된 Pixel의 경우, IOU 계산 시 고려 대상에서 완전히 배제되기 때문이다.
  • 애매함을 해결하고자 도입한 규정이라고 보면 된다. 

'컴퓨터 비전 수업 > 수업 필기' 카테고리의 다른 글

컴퓨터 비전 3주차(1)  (0) 2024.10.21
컴퓨터 비전 2주차(3)  (2) 2024.10.19
컴퓨터 비전 2주차(1)  (8) 2024.10.18
컴퓨터 비전 1주차(2)  (0) 2024.09.23
컴퓨터 비전 1주차(1)  (1) 2024.09.23