본문 바로가기

전체 글

(7)
Chap 1. Introduction to Computer Vision 💡 이 글은 Computer Vision_Algorithms and Applications Second Edition - Richard Szeliski 책과 관련된 강의를 듣고 이해한 내용을 정리한 글입니다. 틀린 내용이 있을 수 있습니다. Computer Vision Automatic understanding of images and videos Computer Vision은 이미지와 영상을 자동으로 이해하는 것이다. Computer Vision Task Computer Vision의 주요 task는 다음과 같다. Detection: 물체가 어디에 있는지 찾아낸다. Recognition: 물체를 찾아내고 무엇인지 식별한다. Measurement: 3D와 관련된 분야이다. 예를 들어, 카메라가 탑재된 로..
2강 | Image Classification 🐱Image Classification: 이미지 분류 Image Classification(이미지 분류)는 컴퓨터 비전에서 핵심 과제에 해당된다. 이미지 분류 과정 고양이 이미지를 입력 받는다. 시스템에 미리 정해놓은 카테고리 집합(개, 고양이 등..)이 있는 상태이다. 컴퓨터는 이미지가 어떤 카테고리에 속하는지 고른다. 하지만, 컴퓨터에게 “고양이” 이미지는 숫자에 불과하다. 이렇게 사람과 컴퓨터의 이미지에 대한 인식 차이를 의미론적 차이(Semantic Gap)라고 한다. 이미지 데이터 이미지 데이터는 픽셀(pixel: 모니터 화면을 구성하는 최소 단위)로 이루어져 있으며, 기본적으로 a X b X c 3차원 구조(배열)이다. a X b X c 에서 a는 너비(width. 열), b는 높이(heigh..
ESRGAN ESRGAN ESRGAN(Enhanced Super-Resolution Generative Adversarial Network)은 기존 SRGAN에서 발전되었으며 3가지 주요 포인트는 RRDB(Residual-in-Residual Dense Block)을 사용한다. 이 때 Batch Normalization을 사용하지 않았다. Discriminator가 절대값(absolute value) 대신 상대적인 현실성(relative realness)을 예측하도록 하는 relativistic Gan의 아이디어를 가져왔다. Activation 이전에 features를 사용하여 perceptual loss를 향상시킴으로써 일관적인 밝기, texture 복원에 강력한 supervision을 제공한다. 기존의 SRGAN..
ResNet ResNet ResNet은 2015년 ImageNet에서 우승한 모델로, top5 error rate를 3.6%까지 줄여 처음으로 Human error를 능가했다. ResNet의 큰 특징은 152층까지 네트워크를 쌓았다는 점이다. 기존 우승 모델들은 8층, 22층 정도 수준이었다. 딥러닝은 기본적으로 layer를 많이 쌓으면 쌓을수록 성능이 더 좋아질 것이라고 생각하지만, ResNet 이전의 모델들은 통상 20개의 layer 이상부터는 성능이 낮아지는 현상이 나타났다. 위 첫 번째 그래프는 일반적인 cnn 모델의 layer 개수에 따른 error rate을 나타낸 것이다. 층이 많은것이 error rate가 높다. 하지만 두 번째 ResNet 그래프를 보면, 많은 layer를 가진 모델의 error ra..
1강 | Introduction to CNN for Visual Recognition 🙌 들어가기 전에 Computer Vision의 중요성 최근 몇 년간 엄청난 양의 시각 데이터들이 쏟아져 나오고 있다! CISCO에서 수행한 2015-2017년도의 한 통계 자료에 따르면, 인터넷 트래픽 중 80% 지분은 비디오 데이터이다. YouTube에는 매 초마다 다섯 시간 분량의 비디오가 업로드 된다고 한다. 따라서, 시각 데이터들을 활용할 수 있는 알고리즘을 개발하는 것이 중요해졌다. 👣 Computer Vision의 역사 생물학적 Vision 5억 4천만 년 전, 지구 대부분은 물이었고 바다를 부유하는 일부 생물만이 존재했다. 이들은 눈(eyes) 같은 건 존재하지 않는, 단조로운 삶을 사는 존재였다. 그러나 이 시기에, 짧은 시간 동안 생물의 종이 폭발적으로 늘어나는 ‘진화의 빅뱅’이 발생했..
0강 | 딥러닝 기초 (CS231n) 이 글은 Stanford University의 CS231n(Convolutional Neural Networks for Visual Recognition) 강의를 듣고 정리한 글입니다. 제가 개인적으로 이해한 내용이므로 잘못된 부분이 있을 수 있습니다. 강의 소개 이 강의는 Computer Vision에 관한 강의이다. Computer Vision은 우리 사회에서 널리 쓰이게 되었다(이미지 인식, 의학, 드론, 그리고 자율주행 차 등등...). 이러한 응용 프로그램들의 핵심은 시각적 인식(visual recognition) 작업이다. 시각적 인식은 이미지 분류(image classification), 로컬라이제이션(localization: object의 위치 특정) 그리고 인식(detection: 여러 ..
세븐 테크(SEVEN TECH) 서점에 들러 IT 관련 책을 구경하던 중 이 책을 발견하게 되었다. 책에서 소개하는 세븐테크로는 "인공지능, 블록체인, VR/AR, 로봇공학, 사물인터넷, 클라우드 컴퓨팅, 메타버스"가 있다. 내용이 궁금해 도서관에서 책을 빌려 읽어보았고 이 중 인공지능에 관한 내용을 리뷰해보려 한다. 합리적으로 행동하는 기계 결국 우리가 인공지능을 만든다는 것은, 사람처럼 생각하는 무엇을 만드는 것이 아니라 합리적으로 행동하는 기계, 목표를 최적화하는 기계를 만드는 일이다. 이때 인공지능은 어떤 존재가 아니라 도구에 불과하다. 즉, 인공지능은 주어진 목표를 위해 적절히 행동하는 무언가를 만드는 방법론이다. - p59 중 생각해보자. 비행기가 발전하면 할수록 새처럼 생기고, 새처럼 날았는가? 그렇지 않다. 자동차가 발전..