일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 기능과 역할
- DACON
- TensorFlow Object Detection API install
- 크롤링
- Towards Deep Learning Models Resistant to Adversarial Attacks
- paper review
- Linux build
- TensorFlow Object Detection Error
- CARLA simulator
- InstructPix2Pix
- TensorFlow Object Detection Model Build
- 리눅스 빌드
- 논문 분석
- 논문분석
- DOTA dataset
- 개발흐름
- Carla
- Git
- VOC 변환
- Custom Animation
- 사회초년생 추천독서
- object detection
- Docker
- 커스텀 애니메이션 적용
- Branch 활용 개발
- Object Detection Dataset 생성
- AI Security
- TensorFlow Object Detection 사용예시
- Paper Analysis
- 객체 탐지
- Today
- Total
목록Paper Review (11)
JSP's Deep learning

1. 언어모델의 역사 Transformer의 등장을 통해서 RNN의 입력 시퀀스 길이에 따른 모델 복잡도, 기울기 소실 문제 등을 개선하였다. Transformer는 거대 언어 모델(Large Language Model)의 토대가 되었다. 현재(2023년)에는 범용 인공지능에 한 발짝 다가선 ChatGPT가 화두에 올랐다. 2. Transformer 2.1. 구조 2.1.1. 전체 구조 Transformer의 구조는 크게 5가지로 나눌 수 있다. 인코더 입력 전처리된 입력 문장에 대한 임베딩을 수행한다. 포지션 인코딩을 통해 위치 값을 반영한다. 디코더 입력 디코더의 입력 문장에 대한 임베딩 및 포지션 인코딩을 수행한다. 학습시에는 정답문장, 추론(번역 task)시에는 시작 토큰이 최초 입력으로 주어진다..

1. InstructPix2Pix란? 이미지와 텍스트(지시어)의 입력으로 이미지를 지시어대로 편집하는 Diffusion 모델 Prompt to Prompt 기법을 적용하여 편집된 이미지와 편집 전 이미지의 일관성을 보장 GPT-3와 Stable Diffusion모델을 사용하여 이미지와 그에 맞는 지시어 그리고 편집된 이미지의 학습데이터를 구축 (즉, 기존의 대형 언어모델과 이미지 생성 모델을 사용하여 학습데이터셋 구축) 기존 image to image 모델과 다르게 이미지 스타일 변화, 배경 변경 등 다양한 이미지 편집 기능을 수행 (하지만 학습데이터셋에 존재하지 않는 편집기능은 수행할 수 없음) 2. 용어정리 2.1. Prompt to Prompt Prompt의 각 토큰(단어)이 어떤 픽셀과 유사한지를..

1. 요약 YOLOv3는 Residual 기법이 적용된 DarkNet-53 구조를 사용하였다. 클래스 분류에 Logistic classifiers를 사용하였다. K-means 클러스터링을 통해서 Bounding box priors을 구성했다. (Bounding box priors에 대해서는 뒤에서 설명한다) 3-scales feature map을 사용하여 feature을 추출한다. YOLOv3는 YOLOv2와 비교했을 때, 작은 객체에 대한 탐지 성능이 향상되었다. 2. 용어정리 1) Linear activation f(x) = cx의 식을 가지는 선형 활성화 함수 다중 출력이 가능하다. 미분 값이 상수이기 때문에 오차역전파를 통한 학습이 불가능하다는 특징이 존재한다. 2) Upsampling Decon..

1. 요약 ①“Optimization 관점”에서 Adversarial Robustness 정의 (=> 강력한 Adversarial Attack에 대한 Defense을 학습) ②Adversarial Training with Strong Attack => Robustness↑ ③ Model’s Capacity↑=> 복잡하고 정교한 Decision boundary => Robustness↑ ④복잡한 Dataset에 대한 Attack에 대해서는 Defense 성능이 좋지 못하다. 2. 용어 정리 1)“First-Order Attack” “한 번의 미분”만으로 공격을 수행하는 기법(Loss function에 대해서 한 번) => 즉, 오차역전파를 한번만 수행함. PGD(Projected Gradient Desce..

1. 요약 YOLO9000은 9000개 이상의 categories에 대해서 detection이 가능한 object detection system이다. (YOLOv1은 200-classes) YOLOv2는 Speed와 accuracy의 tradeoff가 잘 절충된 model이다. YOLO9000에서는 Classification dataset과 detection dataset을 결합하여 학습하는 방법을 사용했다. 결론적으로, COCO dataset에 없는 class에 대해서도 Object detection이 가능하게 되었다. (단, 비슷한 형태의 세부 카테고리의 객체에 대해서 탐지가 가능해진 것!) 2. 주요 용어(간단 정리) ...상세한 사항은 관련 논문을 찾아봐야합니다... 1) ResNet Residu..

1. YOLOv1 요약 1) YOLOv1의 Detection System 2) YOLOv1의 장단점 (1) 장점 One-Stage Object Detection 45 fps로 빠르다. => Real time object detection에 적합하다. 물체에 대해서 더 잘 일반화를 한다. 배경에 대해서 잘못 예측하는 경우가 더 적다. (2) 단점 더 많은 Localization Error을 가진다. 2. YOLOv1의 용어정리 1) Leaky ReLU ReLU에서 일부 뉴런이 활성화되지 않는 문제를 개선 x ≤ 0에 대해서, 0.01x를 적용 2) HSV color space (H, S, V)의 좌표로 색을 표현하는 방법 H(Hue) : 색상, 색의 종류 (0~179) S(Saturation) : 채도, ..

1. 요약 “C & W(Carlini & Wagner) Attack” 라는 강력한 Targeted White-Box Attack을 소개한다. C & W Attack은 Defensive Distillation을 무력화 시킨다. C & W Attack은 Distance method에 따라 L_0, L_2, L_∞ 3가지 방법이 존재한다. 2. 용어 정리 1) Transferability Adversarial example을 생성한 Model외의 다른 Model에도 High-Confidence로 Attack이 적용되는 것 3. Background 1) Neural Networks and Notation Neural Network의 수식적 정의 2) Adversarial Examples Adversarial E..

1. Faster R-CNN 요약 1) Architecture 2) Faster R-CNN의 특징 Region Proposal Network(RPN)을 이용한 Region Proposals RPN과 Fast R-CNN detector가 하나의 convolution feature map을 공유하도록 합친 단일 네트워크(Single Network) End-to-End 방식의 학습 GPU 상에서 5 fps의 속도을 가진다. 3) Multiple scales와 sizes을 처리하기 위한 Faster R-CNN의 체계 (a) : 이미지 피라미드(Pyramids of images)에서 다양한 scales와 sizes을 가진 이미지마다 feature map을 만들어 처리하는 방법 (b) : 필터 피라미드(Pyrami..