printf("ho_tari\n");
ep.49 딥러닝 이미지 분류 실습(3) 본문
2024.9.13
객체 탐지 (Object Detection)
- 한 이미지에서 객체와 그 경계 상자(bounding box)를 탐지
- 객체 탐지 알고리즘은 일반적으로 이미지를 입력으로 받고, 경계 상자와 객체 클래스 리스트를 출력
- 경계 상자에 대해 그에 대응하는 예측 클래스와 클래스의 신뢰도(confidence)를 출력
Applications
- 자율 주행 자동차에서 다른 자동차와 보행자를 찾을 때
- 의료 분야에서 방사선 사진을 사용해 종양이나 위험한 조직을 찾을 때
- 제조업에서 조립 로봇이 제품을 조립하거나 수리할 때
- 보안 산업에서 위협을 탐지하거나 사람 수를 셀 때
Bounding Box
- 이미지에서 하나의 객체 전체를 포함하는 가장 작은 직사각형
IOU(Intersection Over Union)
- 실측값(Ground Truth)과 모델이 예측한 값이 얼마나 겹치는지를 나타내는 지표
- IOU가 높을수록 잘 예측한 모델
- 예시
NMS(Non-Maximum Suppression, 비최댓값 억제)
- 확률이 가장 높은 상자와 겹치는 상자들을 제거하는 과정
- 최댓값을 갖지 않는 상자들을 제거
- 과정
- 확률 기준으로 모든 상자를 정렬하고 먼저 가장 확률이 높은 상자를 취함
- 각 상자에 대해 다른 모든 상자와의 IOU를 계산
- 특정 임곗값을 넘는 상자는 제거
모델 성능 평가
정밀도(Precision)와 재현율(Recall)
- 일반적으로 객체 탐지 모델 평가에 사용되지는 않지만, 다른 지표를 계산하는 기본 지표 역할을 함
- True Positives(TP): 예측이 동일 클래스의 실제 상자와 일치하는지 측정
- False Positives(FP): 예측이 실제 상자와 일치하지 않는지 측정
- False Negatives(FN): 실제 분류값이 그와 일치하는 예측을 갖지 못하는지 측정
- 모델이 안정적이지 않은 특징을 기반으로 객체 존재를 예측하면 거짓긍정(FP)이 많아져서 정밀도가 낮아짐
- 모델이 너무 엄격해서 정확한 조건을 만족할 때만 객체가 탐지된 것으로 간주하면 거짓부정(FN)이 많아져서 재현율이 낮아짐
정밀도-재현율 곡선(Precision-Recall Curve)
- 신뢰도 임계값마다 모델의 정밀도와 재현율을 시각화
- 모든 bounding box와 함께 모델이 예측의 정확성을 얼마나 확실하는지 0 ~ 1사이의 숫자로 나타내는 신뢰도를 출력
- 임계값 T에 따라 정밀도와 재현율이 달라짐
- 임계값 T 이하의 예측은 제거함
- T가 1에 가까우면 정밀도는 높지만 재현율은 낮음
- 놓치는 객체가 많아져서 재현율이 낮아짐. 즉, 신뢰도가 높은 예측만 유지하기때문에 정밀도는 높아짐
- T가 0에 가까우면 정밀도는 낮지만 재현율은 높음
- 대부분의 예측을 유지하기때문에 재현율은 높아지고, 거짓긍정(FP)이 많아져서 정밀도가 낮아짐
- 예를 들어, 모델이 보행자를 탐지하고 있으면 특별한 이유없이 차를 세우더라도 어떤 보행자도 놓치지 않도록 재현율을 높여야 함
- 모델이 투자 기회를 탐지하고 있다면 일부 기회를 놓치게 되더라도 잘못된 기회에 돈을 거는 일을 피하기 위해 정밀도를 높여야 함
AP (Average Precision, 평균 정밀도) 와 mAP(mean Average Precision)
- 곡선의 아래 영역에 해당
- 항상 1x1 정사각형으로 구성되어 있음
즉, 항상 0 ~ 1 사이의 값을 가짐 - 단일 클래스에 대한 모델 성능 정보를 제공
- 전역 점수를 얻기위해서 mAP를 사용
- 예를 들어, 데이터셋이 10개의 클래스로 구성된다면 각 클래스에 대한 AP를 계산하고, 그 숫자들의 평균을 다시 구함
- mAP 사용
- 최소 2개 이상의 객체를 탐지하는 대회인 PASCAL Visual Object Classes와 Common Objects in Context(COCO)에서 mAP가 사용됨
- COCO 데이터셋이 더 많은 클래스를 포함하고 있기 때문에 보통 Pascal VOC보다 점수가 더 낮게 나옴
데이터셋(Dataset)
VOC Dataset
- 2005년부터 2012년까지 진행
- Object Detection 기술의 benchmark로 간주
- 데이터셋에는 20개의 클래스가 존재
background
aeroplane
bicycle
bird
boat
bottle
bus
car
cat
chair
cow
diningtable
dog
horse
motorbike
person
pottedplant
sheep
sofa
train
tvmonitor
- 훈련 및 검증 데이터 : 11,530개
- ROI에 대한 27,450개의 Annotation이 존재
- 이미지당 2.4개의 객체 존재
COCO Dataset
- Common Objects in Context
- 200,000개의 이미지
- 80개의 카테고리에 500,000개 이상의 객체 Annotation이 존재
person
bicycle
car
motorbike
aeroplane
bus
train
truck
boat
traffic light
fire hydrant
stop sign
parking meter
bench
bird
cat
dog
horse
sheep
cow
elephant
bear
zebra
giraffe
backpack
umbrella
handbag
tie
suitcase
frisbee
skis
snowboard
sports ball
kite
baseball bat
baseball glove
skateboard
surfboard
tennis racket
bottle
wine glass
cup
fork
knife
spoon
bowl
banana
apple
sandwich
orange
broccoli
carrot
hot dog
pizza
donut
cake
chair
sofa
pottedplant
bed
diningtable
toilet
tvmonitor
laptop
mouse
remote
keyboard
cell phone
microwave
oven
toaster
sink
refrigerator
book
clock
vase
scissors
teddy bear
hair drier
toothbrush
객체 탐지 (Object Detection)의 역사
- RCNN (2013)
- Rich feature hierarchies for accurate object detection and semantic segmentation (https://arxiv.org/abs/1311.2524)
- 물체 검출에 사용된 기존 방식인 sliding window는 background를 검출하는 소요되는 시간이 많았는데, 이를 개선시킨 기법으로 Region Proposal 방식 제안
- 매우 높은 Detection이 가능하지만, 복잡한 아키텍처 및 학습 프로세스로 인해 Detection 시간이 매우 오래 걸림
- SPP Net (2014)
- Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (https://arxiv.org/abs/1406.4729)
- RCNN의 문제를 Selective search로 해결하려 했지만, bounding box의 크기가 제각각인 문제가 있어서 FC Input에 고정된 사이즈로 제공하기 위한 방법 제안
- SPP은 RCNN에서 conv layer와 fc layer사이에 위치하여 서로 다른 feature map에 투영된 이미지를 고정된 값으로 풀링
- SPP를 이용해 RCNN에 비해 실행시간을 매우 단축시킴
- Fast RCNN (2015)
- Fast R-CNN (https://arxiv.org/abs/1504.08083)
- SPP layer를 ROI pooling으로 바꿔서 7x7 layer 1개로 해결
- SVM을 softmax로 대체하여 Classification 과 Regression Loss를 함께 반영한 Multi task Loss 사용
- ROI Pooling을 이용해 SPP보다 간단하고, RCNN에 비해 수행시간을 많이 줄임
- Fater RCNN(2015)
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (https://arxiv.org/abs/1506.01497)
- RPN(Region proposal network) + Fast RCNN 방식
- Selective Search를 대체하기 위한 Region Proposal Network구현
- RPN도 학습시켜서 전체를 end-to-end로 학습 가능 (GPU사용 가능)
- Region Proposal를 위해 Object가 있는지 없는지의 후보 Box인 Anchor Box 개념 사용
- Anchor Box를 도입해 FastRCNN에 비해 정확도를 높이고 속도를 향상시킴
- SSD (2015)
- SSD: Single Shot MultiBox Detector (https://arxiv.org/abs/1512.02325)
- Faster-RCNN은 region proposal과 anchor box를 이용한 검출의 2단계를 걸치는 과정에서 시간이 필요해 real-time(20~30 fps)으로는 어려움
- SSD는 Feature map의 size를 조정하고, 동시에 앵커박스를 같이 적용함으로써 1 shot으로 물체 검출이 가능
- real-time으로 사용할 정도의 성능을 갖춤 (30~40 fps)
- 작은 이미지의 경우에 잘 인식하지 못하는 경우가 생겨서 data augmentation을 통해 mAP를 63에서 74로 비약적으로 높임
- RetinaNet (2017)
- Focal Loss for Dense Object Detection (https://arxiv.org/abs/1708.02002)
- RetinaNet이전에는 1-shot detection과 2-shot detection의 차이가 극명하게 나뉘어 속도를 선택하면 정확도를 trade-off 할 수 밖에 없는 상황
- RetinaNet은 Focal Loss라는 개념의 도입과 FPN 덕분에 기존 모델들보다 정확도도 높고 속도도 여타 1-shot detector와 비견되는 모델
- Detection에선 검출하고 싶은 물체와 (foreground object) 검출할 필요가 없는 배경 물체들이 있는데 (background object) 배경 물체의 숫자가 매우 많을 경우 배경 Loss를 적게 하더라도 숫자에 압도되어 배경의 Loss의 총합을 학습해버림 (예를 들어, 숲을 배경으로 하는 사람을 검출해야하는데 배경의 나무가 100개나 되다보니 사람의 특징이 아닌 나무가 있는 배경을 학습해버림)
- Focal Loss는 이런 문제를 기존의 crossentropy 함수에서 (1-sig)을 제곱하여 background object의 loss를 현저히 줄여버리는 방법으로 loss를 변동시켜 해결
- Focal Loss를 통해 검출하고자 하는 물체와 관련이 없는 background object들은 학습에 영향을 주지 않게 되고, 학습의 다양성이 더 넓어짐 (작은 물체, 큰 물체에 구애받지 않고 검출할 수 있게됨)
- 실제로 RetinaNet은 object proposal을 2000개나 실시하여 이를 확인
- Mask R-CNN (2018)
- Mask R-CNN (https://arxiv.org/pdf/1703.06870.pdf)
- YOLO (2018)
- YOLOv3: An Incremental Improvement (https://arxiv.org/abs/1804.02767)
- YOLO는 v1, v2, v3의 순서로 발전하였는데, v1은 정확도가 너무 낮은 문제가 있었고 이 문제는 v2까지 이어짐
- 엔지니어링적으로 보완한 v3는 v2보다 살짝 속도는 떨어지더라도 정확도를 대폭 높인 모델
- RetinaNet과 마찬가지로 FPN을 도입해 정확도를 높임
- RetinaNet에 비하면 정확도는 4mAP정도 떨어지지만, 속도는 더 빠르다는 장점
- RefineDet (2018)
- Single-Shot Refinement Neural Network for Object Detection (https://arxiv.org/pdf/1711.06897.pdf)
- M2Det (2019)
- M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network (https://arxiv.org/pdf/1811.04533.pdf)
- EfficientDet (2019)
- EfficientDet: Scalable and Efficient Object Detection (https://arxiv.org/pdf/1911.09070v1.pdf)
- YOLOv4 (2020)
- YOLOv4: Optimal Speed and Accuracy of Object Detection (https://arxiv.org/pdf/2004.10934v1.pdf)
- YOLOv3에 비해 AP, FPS가 각각 10%, 12% 증가
- YOLOv3와 다른 개발자인 AlexeyBochkousky가 발표
- v3에서 다양한 딥러닝 기법(WRC, CSP ...) 등을 사용해 성능을 향상시킴
- CSPNet 기반의 backbone(CSPDarkNet53)을 설계하여 사용
- YOLOv5 (2020)
- YOLOv4에 비해 낮은 용량과 빠른 속도 (성능은 비슷)
- YOLOv4와 같은 CSPNet 기반의 backbone을 설계하여 사용
- YOLOv3를 PyTorch로 implementation한 GlennJocher가 발표
- Darknet이 아닌 PyTorch 구현이기 때문에, 이전 버전들과 다르다고 할 수 있음
- 이후
- 수 많은 YOLO 버전들이 탄생
- Object Detection 분야의 논문들이 계속해서 나오고 있음
YOLO (You Only Look Once)
- 가장 빠른 객체 검출 알고리즘 중 하나
- 256x256 사이즈의 이미지
- 파이썬, 텐서플로 기반 프레임워크가 아닌 C++로 구현된 코드 기준 GPU 사용 시, 초당 170 프레임(170 FPS, frames per second)
- 작은 크기의 물체를 탐지하는데는 어려움
YOLO 아키텍처
- 백본 모델(backbone model) 기반
- 특징 추출기(Feature Extractor)라고도 불림
- YOLO는 자체 맞춤 아키텍쳐 사용
- 어떤 특징 추출기 아키텍쳐를 사용했는지에 따라 성능 달라짐
- 마지막 계층은 크기가 w×h×D인 특징 볼륨 출력
- w×h는 그리드의 크기이고, D는 특징 볼륨 깊이
- Objectness Score: 바운딩 박스에 객체가 포함되어 있을 확률
YOLOv3 모델 (TensorFlow)
!pip install --upgrade pip
#!pip install tensorflow-gpu==2.9.0
#!pip install tensorflow-gpu==2.10
!pip install tensorflow==2.10
!pip install protobuf==3.20.3
!git clone https://github.com/zzh8829/yolov3-tf2
%cd yolov3-tf2/
!pip install -r requirements-gpu.txt
#!pip install keras==2.4.2
#!pip install keras==2.9
!pip install keras==2.10
!pip install opencv-python-headless pillow numpy
모델 파일 변환
DarkNet의 모델파일을 Keras에서 사용할 수 있는 모델 파일로 변환
- convert.py: 변환 실행 파일
- yolov3.weight: Darknet으로 학습된 모델 파일
- yolov3.tf: Keras Yolov3 모델
!apt install --allow-change-held-packages libcudnn8=8.1.0.77-1+cuda11.2
!wget https://pjreddie.com/media/files/yolov3.weights -O data/yolov3.weights
!python convert.py --weights ./data/yolov3.weights --output ./checkpoints/yolov3.tf
Detector
!pip list | grep tensorflow
!pip list | grep keras
import time
import cv2
import numpy as np
import tensorflow as tf
from yolov3_tf2.models import YoloV3
from yolov3_tf2.dataset import transform_images, load_tfrecord_dataset
from yolov3_tf2.utils import draw_outputs
from absl import app,logging,flags
from absl.flags import FLAGS
#from keras.preprocessing import image
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM
import matplotlib.pyplot as plt
from IPython.display import Image, display
flags.DEFINE_string('classes','./data/coco.names','classes file')
flags.DEFINE_string('weights','./checkpoints/yolov3.tf','weights file')
flags.DEFINE_boolean('tiny',False,'yolov3 or yolov3-tiny')
flags.DEFINE_integer('size',416,'resize images to')
flags.DEFINE_string('image','./data/girl.png','path to input image')
#flags.DEFINE_string('image','./data/meme.png','path to input image')
flags.DEFINE_string('tfrecord',None,'tfrecord')
flags.DEFINE_string('output','./output.jpg','output image')
flags.DEFINE_integer('num_classes',80,'number of classes')
app._run_init(['yolov3'],app.parse_flags_with_usage)
#physical_devices=tf.config.experimental.list_physical_devices('GPU')
#tf.config.experimental.set_memory_growth(physical_devices[0],True)
yolo=YoloV3(classes=FLAGS.num_classes)
yolo.load_weights(FLAGS.weights).expect_partial()
class_names=[c.strip()for c in open(FLAGS.classes).readlines()]
def detector():
img_raw=tf.image.decode_image(open(FLAGS.image,'rb').read(),channels=3)
img=tf.expand_dims(img_raw,0)
img=transform_images(img,FLAGS.size)
t1=time.time()
boxes,scores,classes,nums=yolo(img)
t2=time.time()
print('time:{}'.format(t2-t1))
for i in range(nums[0]):
print('{},{},{}'.format(class_names[int(classes[0][i])],np.array(scores[0][i]),np.array(boxes[0][i])))
img=cv2.cvtColor(img_raw.numpy(),cv2.COLOR_RGB2BGR)
img=draw_outputs(img,(boxes,scores,classes,nums),class_names)
return img
FLAGS.image='data/girl.png'
Image(filename=FLAGS.image,width=500)
output=detector()
display(Image(data=bytes(cv2.imencode('.jpg',output)[1]),width=500))
FLAGS.image='data/meme.jpg'
Image(filename=FLAGS.image,width=1000)
output=detector()
display(Image(data=bytes(cv2.imencode('.jpg',output)[1]),width=1000))
FLAGS.image='data/meme2.jpeg'
Image(filename=FLAGS.image,width=400)
output=detector()
display(Image(data=bytes(cv2.imencode('.jpg',output)[1]),width=400))
YOLOv3 모델 (PyTorch)
!git clone https://github.com/ultralytics/yolov3
%cd yolov3
%pip install -qr requirements.tx
import yaml
import torch
from IPython.display import Image, clear_output
print(f"Torch: {torch.__version__} ({torch.cuda.get_device_properties(0).name if torch.cuda.is_available() else 'CPU'})")
#print("Torch: {torch.__version__} ({torch.cuda.get_device_properties(0).name if torch.cuda.is_available() else 'CPU'})")
추론(Inference)
detect.py: YOLOv3 모델을 이용한 추론
Image(filename='data/images/bus.jpg',width=600)
Image(filename='data/images/zidane.jpg',width=600)
!python detect.py --weights yolov3.pt --img 640 --conf 0.25 --source data/images/
Image(filename='runs/detect/exp/bus.jpg',width=600)
Image(filename='runs/detect/exp/zidane.jpg',width=600)
YOLOv5 모델 (PyTorch)
%cd /content
!git clone https://github.com/ultralytics/yolov5
%cd yolov5
%pip install -qr requirements.txt
import torch
from IPython.display import Image, clear_output
추론(Inference)
detect.py: YOLOv3 모델을 이용한 추론
Image(filename='data/images/bus.jpg',width=600)
!python detect.py --weights yolov5s.pt --img 640 --conf 0.25 --source data/images/
Image(filename='runs/detect/exp/bus.jpg',width=600)
포트홀 탐지 모델
%mkdir /content/yolov5/pothole
%cd /content/yolov5/pothole
!curl -L "https://public.roboflow.com/ds/E6mdhejSP2?key=rkfu1nvuQI" > roboflow.zip; unzip roboflow.zip; rm roboflow.zip
from glob import glob
#print(f"Setup complete. Using torch {torch.__version__} ({torch.cuda.get_device_properties(0).name if torch.cuda.is_available() else 'CPU'})")
train_img_list= glob('/content/yolov5/pothole/train/images/*.jpg')
test_img_list= glob('/content/yolov5/pothole/test/images/*.jpg')
valid_img_list= glob('/content/yolov5/pothole/valid/images/*.jpg')
print(len(train_img_list),len(test_img_list),len(valid_img_list))
#https://m.blog.naver.com/siniphia/221397012627
#glob : 사용자가 제시한 조건에 맞는 파일명을 리스트 형식으로 반환
import yaml
with open('/content/yolov5/pothole/train.txt','w') as f:
f.write('\n'.join(train_img_list)+'\n')
with open('/content/yolov5/pothole/test.txt','w') as f:
f.write('\n'.join(test_img_list)+'\n')
with open('/content/yolov5/pothole/valid.txt','w') as f:
f.write('\n'.join(valid_img_list)+'\n')
###### Contents of code cell are written to a file
#from IPython.core.magic import register_cell_magic
from IPython.core.magic import register_line_cell_magic
@register_line_cell_magic
def writetemplate(line,cell):
with open(line,'w') as f:
f.write(cell.format(**globals()))
%cat /content/yolov5/pothole/data.yaml
%%writetemplate /content/yolov5/pothole/data.yaml
train: ./pothole/train/images
test: ./pothole/test/images
val: ./pothole/valid/images
nc: 1
names: ['pothole']
%cat /content/yolov5/pothole/data.yaml
모델 구성
import yaml
with open("/content/yolov5/pothole/data.yaml",'r') as stream:
num_classes=str(yaml.safe_load(stream)['nc'])
%cat /content/yolov5/models/yolov5s.yaml
%%writetemplate /content/yolov5/models/custom_yolov5s.yaml
# Parameters
nc: {num_classes} # number of classes
depth_multiple: 0.33 # model depth multiple
width_multiple: 0.50 # layer channel multiple
anchors:
- [10,13, 16,30, 33,23] # P3/8
- [30,61, 62,45, 59,119] # P4/16
- [116,90, 156,198, 373,326] # P5/32
# YOLOv5 v6.0 backbone
backbone:
# [from, number, module, args]
[[-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2
[-1, 1, Conv, [128, 3, 2]], # 1-P2/4
[-1, 3, C3, [128]],
[-1, 1, Conv, [256, 3, 2]], # 3-P3/8
[-1, 6, C3, [256]],
[-1, 1, Conv, [512, 3, 2]], # 5-P4/16
[-1, 9, C3, [512]],
[-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
[-1, 3, C3, [1024]],
[-1, 1, SPPF, [1024, 5]], # 9
]
# YOLOv5 v6.0 head
head:
[[-1, 1, Conv, [512, 1, 1]],
[-1, 1, nn.Upsample, [None, 2, 'nearest']],
[[-1, 6], 1, Concat, [1]], # cat backbone P4
[-1, 3, C3, [512, False]], # 13
[-1, 1, Conv, [256, 1, 1]],
[-1, 1, nn.Upsample, [None, 2, 'nearest']],
[[-1, 4], 1, Concat, [1]], # cat backbone P3
[-1, 3, C3, [256, False]], # 17 (P3/8-small)
[-1, 1, Conv, [256, 3, 2]],
[[-1, 14], 1, Concat, [1]], # cat head P4
[-1, 3, C3, [512, False]], # 20 (P4/16-medium)
[-1, 1, Conv, [512, 3, 2]],
[[-1, 10], 1, Concat, [1]], # cat head P5
[-1, 3, C3, [1024, False]], # 23 (P5/32-large)
[[17, 20, 23], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)
]
%cat /content/yolov5/models/custom_yolov5s.yaml
학습(Training)
- img: 입력 이미지 크기 정의
- batch: 배치 크기 결정
- epochs: 학습 기간 개수 정의
- data: yaml 파일 경로
- cfg: 모델 구성 지정
- weights: 가중치에 대한 경로 지정
- name: 결과 이름
- nosave: 최종 체크포인트만 저장
- cache: 빠른 학습을 위한 이미지 캐시
%%time
%cd /content/yolov5/
#!python train.py --img 640 --batch 32 --epochs 100 --data ./pothole/data.yaml --cfg ./models/custom_yolov5s.yaml --weights '' --name pothole_results --cache
!python train.py --img 640 --batch 16 --epochs 5 --data ./pothole/data.yaml --cfg ./models/custom_yolov5s.yaml --weights '' --name pothole_results --cache
%load_ext tensorboard
%tensorboard --logdir runs
!ls /content/yolov5/runs/train/pothole_results
Image(filename='/content/yolov5/runs/train/pothole_results/results.png',width=1000)
Image(filename='/content/yolov5/runs/train/pothole_results/train_batch0.jpg',width=1000)
Image(filename='/content/yolov5/runs/train/pothole_results/val_batch0_labels.jpg',width=1000)
검증(Validation)
!python val.py --weights runs/train/pothole_results/weights/best.pt --data ./pothole/data.yaml --img 640 --iou 0.65 --half
!python val.py --weights runs/train/pothole_results/weights/best.pt --data ./pothole/data.yaml --img 640 --task test
추론(Inference)
%ls runs/train/pothole_results/weights
!python detect.py --weights runs/train/pothole_results/weights/best.pt --img 640 --conf 0.4 --source ./pothole/test/images
import glob
import random
from IPython.display import Image, display
image_name=random.choice(glob.glob('/content/yolov5/runs/detect/exp3/*.jpg'))
display(Image(filename=image_name))
모델 내보내기
%mkdir /content/drive/MyDrive/pothole
%cp /content/yolov5/runs/train/pothole_results/weights/best.pt /content/drive/MyDrive/pothole
연기 탐지 모델
%mkdir /content/yolov5/smoke
%cd /content/yolov5/smoke
!curl -L "https://public.roboflow.com/ds/VPclMoWkys?key=q88kvHzQzv" > roboflow.zip; unzip roboflow.zip; rm roboflow.zip
#from glob import get_device_properties
from glob import glob
train_img_list= glob('/content/yolov5/smoke/train/images/*.jpg')
test_img_list= glob('/content/yolov5/smoke/test/images/*.jpg')
valid_img_list= glob('/content/yolov5/smoke/valid/images/*.jpg')
print(len(train_img_list),len(test_img_list),len(valid_img_list))
#print(test_img_list)
import yaml
with open('/content/yolov5/smoke/train.txt','w') as f:
f.write('\n'.join(train_img_list)+'\n')
with open('/content/yolov5/smoke/test.txt','w') as f:
f.write('\n'.join(test_img_list)+'\n')
with open('/content/yolov5/smoke/valid.txt','w') as f:
f.write('\n'.join(valid_img_list)+'\n')
%cat /content/yolov5/smoke/data.yaml
%%writetemplate /content/yolov5/smoke/data.yaml
train: ./smoke/train/images
test: ./smoke/test/images
val: ./smoke/valid/images
nc: 1
names: ['smoke']
%cat /content/yolov5/smoke/data.yaml
모델 구성
import yaml
with open("/content/yolov5/smoke/data.yaml",'r') as stream:
num_classes=str(yaml.safe_load(stream)['nc'])
%cat /content/yolov5/models/yolov5s.yaml
%%writetemplate /content/yolov5/models/custom_yolov5s.yaml
# YOLOv5 🚀 by Ultralytics, GPL-3.0 license
# Parameters
nc: {num_classes} # number of classes
depth_multiple: 0.33 # model depth multiple
width_multiple: 0.50 # layer channel multiple
anchors:
- [10,13, 16,30, 33,23] # P3/8
- [30,61, 62,45, 59,119] # P4/16
- [116,90, 156,198, 373,326] # P5/32
# YOLOv5 v6.0 backbone
backbone:
# [from, number, module, args]
[[-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2
[-1, 1, Conv, [128, 3, 2]], # 1-P2/4
[-1, 3, C3, [128]],
[-1, 1, Conv, [256, 3, 2]], # 3-P3/8
[-1, 6, C3, [256]],
[-1, 1, Conv, [512, 3, 2]], # 5-P4/16
[-1, 9, C3, [512]],
[-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
[-1, 3, C3, [1024]],
[-1, 1, SPPF, [1024, 5]], # 9
]
# YOLOv5 v6.0 head
head:
[[-1, 1, Conv, [512, 1, 1]],
[-1, 1, nn.Upsample, [None, 2, 'nearest']],
[[-1, 6], 1, Concat, [1]], # cat backbone P4
[-1, 3, C3, [512, False]], # 13
[-1, 1, Conv, [256, 1, 1]],
[-1, 1, nn.Upsample, [None, 2, 'nearest']],
[[-1, 4], 1, Concat, [1]], # cat backbone P3
[-1, 3, C3, [256, False]], # 17 (P3/8-small)
[-1, 1, Conv, [256, 3, 2]],
[[-1, 14], 1, Concat, [1]], # cat head P4
[-1, 3, C3, [512, False]], # 20 (P4/16-medium)
[-1, 1, Conv, [512, 3, 2]],
[[-1, 10], 1, Concat, [1]], # cat head P5
[-1, 3, C3, [1024, False]], # 23 (P5/32-large)
[[17, 20, 23], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)
]
%cat /content/yolov5/models/custom_yolov5s.yaml
학습(Training)
- img: 입력 이미지 크기 정의
- batch: 배치 크기 결정
- epochs: 학습 기간 개수 정의
- data: yaml 파일 경로
- cfg: 모델 구성 지정
- weights: 가중치에 대한 경로 지정
- name: 결과 이름
- nosave: 최종 체크포인트만 저장
- cache: 빠른 학습을 위한 이미지 캐시
%%time
%cd /content/yolov5
#!python train.py --img 640 --batch 32 --epochs 100 --data ./smoke/data.yaml --cfg ./models/custom_yolov5s --weights '' --name smoke_results --cache
!python train.py --img 640 --batch 16 --epochs 100 --data ./smoke/data.yaml --cfg ./models/custom_yolov5s.yaml --weights '' --name smoke_results --cache
%load_ext tensorboard
%tensorboard --logdir runs
%load_ext tensorboard
%tensorboard --logdor runs
!ls runs/train/smoke_results
Image(filename='runs/train/smoke_results/results.png',width=1000)
Image(filename='runs/train/smoke_results/train_batch0.jpg',width=1000)
Image(filename='runs/train/smoke_results/val_batch0_labels.jpg',width=1000)
검증(Validation)
!python val.py --weights runs/train/smoke_results/weights/best.pt --data ./smoke/data.yaml --img 640 --iou 0.65 --half
!python val.py --weights runs/train/smoke_results/weights/last.pt --data ./smoke/data.yaml --img 640 --task test
추론(Inference)
!python val.py --weights runs/train/smoke_results/weights/best.pt --img 640 --conf 0.4 --source ./smoke/test/images
import glob
image_name=random.choice(glob.glob('runs/detect/exp2/*.jpg'))
display(Image(filename=image_name))
모델 내보내기
%mkdir /content/drive/My\ Drive/smoke/
%cp runs/train/smoke_result/weights/best.pt /content//drive/content/drive/My\ Drive/smoke/
안전모 탐지 모델
%mkdir /content/yolov5/hardhat
%cd /content/yolov5/hardhat
!curl -L "https://public.roboflow.com/ds/Xs479SrUuJ?key=bgIPiyHKPp" > roboflow.zip; unzip roboflow.zip; rm roboflow.zip
from glob import glob
train_img_list=glob('/content/yolov5/hardhat/train/images/*.jpg')
test_img_list=glob('/content/yolov5/hardhat/test/images/*.jpg')
print(len(train_img_list),len(test_img_list))
from sklearn.model_selection import train_test_split
test_img_list,val_img_list=train_test_split(test_img_list,test_size=0.5,random_state=777)
print(len(test_img_list),len(val_img_list))
import yaml
with open('/content/yolov5/hardhat/train.txt','w') as f:
f.write('\n'.join(train_img_list)+'\n')
with open('/content/yolov5/hardhat/train.txt','w') as f:
f.write('\n'.join(test_img_list)+'\n')
with open('/content/yolov5/hardhat/train.txt','w') as f:
f.write('\n'.join(valid_img_list)+'\n')
%cat /content/yolov5/hardhat/data.yaml
%%writetemplate /content/yolov5/hardhat/data.yaml
train: ./hardhat/train/images
test: ./hardhat/test/images
val: ./hardhat/val/images
nc: 3
names: ['head','helmet','person']
%cat /content/yolov5/hardhat/data.yaml
모델 구성
with open('/content/yolov5/hardhat/data.yaml','r') as stream:
num_classes=str(yaml.safe_load(stream)['nc'])
%cat /content/yolov5/models/yolov5s.yaml
%%writetemplate /content/yolov5/models/custom_yolov5s.yaml
# Parameters
nc: {num_classes} # number of classes
depth_multiple: 0.33 # model depth multiple
width_multiple: 0.50 # layer channel multiple
anchors:
- [10,13, 16,30, 33,23] # P3/8
- [30,61, 62,45, 59,119] # P4/16
- [116,90, 156,198, 373,326] # P5/32
# YOLOv5 v6.0 backbone
backbone:
# [from, number, module, args]
[[-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2
[-1, 1, Conv, [128, 3, 2]], # 1-P2/4
[-1, 3, C3, [128]],
[-1, 1, Conv, [256, 3, 2]], # 3-P3/8
[-1, 6, C3, [256]],
[-1, 1, Conv, [512, 3, 2]], # 5-P4/16
[-1, 9, C3, [512]],
[-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
[-1, 3, C3, [1024]],
[-1, 1, SPPF, [1024, 5]], # 9
]
# YOLOv5 v6.0 head
head:
[[-1, 1, Conv, [512, 1, 1]],
[-1, 1, nn.Upsample, [None, 2, 'nearest']],
[[-1, 6], 1, Concat, [1]], # cat backbone P4
[-1, 3, C3, [512, False]], # 13
[-1, 1, Conv, [256, 1, 1]],
[-1, 1, nn.Upsample, [None, 2, 'nearest']],
[[-1, 4], 1, Concat, [1]], # cat backbone P3
[-1, 3, C3, [256, False]], # 17 (P3/8-small)
[-1, 1, Conv, [256, 3, 2]],
[[-1, 14], 1, Concat, [1]], # cat head P4
[-1, 3, C3, [512, False]], # 20 (P4/16-medium)
[-1, 1, Conv, [512, 3, 2]],
[[-1, 10], 1, Concat, [1]], # cat head P5
[-1, 3, C3, [1024, False]], # 23 (P5/32-large)
[[17, 20, 23], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)
]
%cat /content/yolov5/models/custom_yolov5s.yaml
학습(Training)
- img: 입력 이미지 크기 정의
- batch: 배치 크기 결정
- epochs: 학습 기간 개수 정의
- data: yaml 파일 경로
- cfg: 모델 구성 지정
- weights: 가중치에 대한 경로 지정
- name: 결과 이름
- nosave: 최종 체크포인트만 저장
- cache: 빠른 학습을 위한 이미지 캐시
%time
%cd /content/yolov5
!python train.py --img 416 --batch 64 --epochs 50 --data ./hardhat/data.yaml --cfg ./models/custom_yolov5s.yaml --weights '' --name hardhat_results --cache
%load_ext tensorboard
%tensorboard --logdir runs
!ls runs/train/hardhat_results
Image(filename='runs/train/hardhat_results/results.png',width=1000)
Image(filename='runs/train/hardhat_results/train_batch0.jpg',width=1000)
검증(Validation)
!pyhton val.py --weight runs/train/hardhat_results/weights/best.pt --data./hardhat/data.yaml --img 416 --iou 0.65 --half
!pyhton val.py --weight runs/train/hardhat_results/weights/best.pt --data./hardhat/data.yaml --img 416 --task test
추론(Inference)
!python detect.py --weight runs/train/hardhat_results/weights/best.pt --img 416 --conf 0.4 --source ./hardhat/test/imgages
import glob
image_name=random.choice(glob.glob('runs/detect/exp4/*.jpg'))
display(Image(filename=image_name))
모델 내보내기
%mkdir /content/drive/MyDrive/hardhat
%cp runs/train/hardhat_results/weights/best.pt/content/drive/My\ Drive/hardhat
주차공간 탐지 모델
%mkdir /content/yolov5/pklot
%cd content/yolov5/pklot
!curl -L "https://public.roboflow.com/ds/y5FDvUpYZM?key=pFkL8WVwi2" > roboflow.zip; unzip roboflow.zip; rm roboflow.zip
from glob import get_device_properties
train_img_list= glob('/content/yolov5//pklot/images/*.jpg')
test_img_list= glob('/content/yolov5/pklot/test/images/*.jpg')
valid_img_list= glob('/content/yolov5/pklot/valid/images/*.jpg')
print(len(train_img_list),len(test_img_list),len(valid_img_list))
import yaml
with open('/content/yolov5/pklot/train.txt','w') as f:
f.write('\n'.join(train_img_list)+'\n')
with open('/content/yolov5/pklot/train.txt','w') as f:
f.write('\n'.join(test_img_list)+'\n')
with open('/content/yolov5/pklot/train.txt','w') as f:
f.write('\n'.join(valid_img_list)+'\n')
%cat content/yolov5/pklot/data.yaml
%%writetemplate /content/yolov5/pklot/data.yaml
train: ./pklot/train/images
test: ./pklot/test/images
val: ./pklot/valid/images
nc:2
names:['space-empty','space-occpuied']
모델 구성
with open('data.yaml','r') as stream:
num_classes=str(yaml.safe_load(stream)['nc'])
%cat /content/yolov5/models/yolov5s.yaml
%%writetemplate /content/yolov5/models/yolov5s.yaml
%cat /content/yolov5/models/yolov5s.yaml
학습(Training)
- img: 입력 이미지 크기 정의
- batch: 배치 크기 결정
- epochs: 학습 기간 개수 정의
- data: yaml 파일 경로
- cfg: 모델 구성 지정
- weights: 가중치에 대한 경로 지정
- name: 결과 이름
- nosave: 최종 체크포인트만 저장
- cache: 빠른 학습을 위한 이미지 캐시
%time
%cd /content/yolov5
!python train.py --img640 --batch 32 --epochs 50 --data./pklot/data.yaml --cfg./models/custom_yolov5s.yaml --weigths '' --name pklot_result --cache
%load_ext tensorboard
%tensorboard --logdir runs
Image(filename='runs/train/pklot_results/results.png',width=1000)
Image(filename='runs/train/pklot_results/train_batch0.jpg',width=1000)
Image(filename='runs/train/pklot_results/val_batch0_label.jpg',width=1000)
검증(Validation)
!python val.py --weights runs/train/pklot_results/weights/best.pt --data ./pklot/data.yaml --img 640 --iou 0.65 --half
!python val.py --weights runs/train/pklot_results/weights/best.pt --data ./pklot/data.yaml --img 640 --task test
추론(Inference)
!python detect.py --weights runs/train/pklot_results/weights/best.pt --img 640 --conf 0.4 --source ./pklot/test/images/
import glob
image_name=random.choice(glob.glob('runs/detect/exp5/*.jpg'))
display(Image(filename=image_name))
모델 내보내기
%mkdir /content/drive/My\ Drive/pklot/
%cp /content/yolov5/runs/trian/pklot_results/weights/best.pt /content/drive/My Drive/pklot/
'두산 로보틱스 부트캠프 ROKEY > Computer Vision 교육' 카테고리의 다른 글
ep.51 Dataset LabelImg (0) | 2024.09.20 |
---|---|
ep.50 Object Detection의 이해 (0) | 2024.09.19 |
ep.48 딥러닝 이미지 분류 실습(2) (0) | 2024.09.12 |
ep.47 딥러닝 이미지 분류 실습(1) (0) | 2024.09.11 |
ep.46 파이토치(PyTorch) (0) | 2024.09.10 |