Xem Nhiều 5/2024 # Bài Toán Phát Hiện Biển Số Xe Máy Việt Nam # Top 1 Yêu Thích

Bài toán phát hiện biển số xe máy Việt Nam

Lời mở đầu

Bài toán nhận diện biển số xe Việt Nam là một bài toán không còn mới, đã được phát triển dựa trên các phương pháp xử lý ảnh truyền thống và cả những kỹ thuật mới sử dụng Deep Learning. Trong bài toán này mình chỉ phát triển bài toán phát hiện biển số (một phần trong bài toán nhận diện biển số) dựa trên thuật toán YOLO-Tinyv4 với mục đích:

Hướng dẫn chuẩn bị dữ liệu cho bài toán Object Detection.

Hướng dẫn huấn luyện YOLO-TinyV4 dùng darknet trên Google Colab.

Chuẩn bị dữ liệu

Đánh giá bộ dữ liệu

Kích thước các biển số xe không có sự đa dạng, do khoảng cách từ camera đến biển số xe xấp xỉ gần bằng nhau giữa các ảnh.

Ảnh có độ sáng thấp và gần giống nhau do ảnh được chụp trong hầm chung cư.

Các phương pháp tăng sự đa dạng của bộ dữ liệu

Đa dạng kích thước của biển số

Đa dạng kích thước bằng 2 cách:

Cách 1: Thu nhỏ kích thước biển bằng cách thêm biên kích thước ngẫu nhiên vào ảnh gốc, sau đó resize ảnh bằng kích thước ảnh ban đầu.

Cách 2: Crop ảnh chứa biển số với kích thước ngẫu nhiên, sau đó resize ảnh bằng kích thước ảnh ban đầu.

# Cách1

def add_boder(image_path, output_path, low, high):

"""

low: kích thước biên thấp nhất (pixel)

hight: kích thước biên lớn nhất (pixel)

"""

# random các kích thước biên trong khoảng (low, high)

top = random.randint(low, high)

bottom = random.randint(low, high)

left = random.randint(low, high)

right = random.randint(low, high)

image = cv2.imread(image_path)

original_width, original_height = image.shape[1], image.shape[0]

#sử dụng hàm của opencv để thêm biên

image = cv2.copyMakeBorder(image, top, bottom, left, right, cv2.BORDER_REPLICATE)

#sau đó resize ảnh bằng kích thước ban đầu của ảnh

image = cv2.resize(image, (original_width, original_height))

cv2.imwrite(output_path, image)

def random_crop(image_path, out_path): image = cv2.imread(image_path)

original_width, original_height = image.shape[1], image.shape[0] x_center,y_center = original_height//2, original_width//2

x_left = random.randint(0, x_center//2) x_right = random.randint(original_width-x_center//2, original_width)

y_top = random.randint(0, y_center//2) y_bottom = random.randint(original_height-y_center//2, original_width)

# crop ra vùng ảnh với kích thước ngẫu nhiên

cropped_image = image[y_top:y_bottom, x_left:x_right]

# resize ảnh bằng kích thước ảnh ban đầu

cropped_image = cv2.resize(cropped_image, (original_width, original_height))

cv2.imwrite(out_path, cropped_image)

def change_brightness(image_path, output_path, value):

"""

value: độ sáng thay đổi

"""

img=cv2.imread(image_path)

hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)

h, s, v = cv2.split(hsv)

v = cv2.add(v, value)

v[v < 0] = 0

final_hsv = cv2.merge((h, s, v))

img = cv2.cvtColor(final_hsv, cv2.COLOR_HSV2BGR)

cv2.imwrite(output_path, img)

import imutils

def rotate_image(image_path, range_angle, output_path):

"""

range_angle: Khoảng góc quay

"""

image = cv2.imread(image_path)

#lựa chọn ngẫu nhiên góc quay

angle = random.randint(-range_angle, range_angle)

img_rot = imutils.rotate(image, angle)

cv2.imwrite(output_path, img_rot)

Trong bài toán sử dụng mô hình YOLO, mình lưu file annotation dưới dạng .txt.

Lưu ý: Với bài toán có nhiều nhãn, nhiều người cùng gán nhãn thì cần thống nhất với nhau trước về thứ tự nhãn. Nguyên nhân do trong file annotation chỉ lưu chỉ số (0,1,3,4,…) của nhãn chứ không lưu tên nhãn.

Sau khi gán nhãn xong các bạn để file annotation và ảnh tương ứng vào cùng một thư mục.

Huấn luyện mô hình

Giới thiệu về YOLO-Tinyv4 và darknet

YOLO-Tinyv4

YOLOv4 là thuật toán Object Detection, mới được công bố trong thời gian gần đây với sự cải thiện về kết quả đáng kể so với YOLOv3.

YOLOv4 cho kết quả real-time khi chạy trên các nền tảng GPU cao cấp. Với mục đích trade-off giữa độ chính xác và tốc độ để có thể chạy trên các nền tảng CPU và GPU thấp hơn thì YOLO-Tinyv4 được ra đời.

Darknet

Darknet là một framework open source chuyên về Object Detection được viết bằng ngôn ngữ C và CUDA. Darknet dùng để huấn luyện các mô hình YOLO một cách nhanh chóng, dễ sử dụng.

Cấu hình darknet

Việc cấu hình trực tiếp trên Google Colab tương đối khó khăn với những bạn chưa quen làm việc với linux, bên cạnh đó vấn đề delay kết nối giữa Google Colab với drive trong một số trường hợp. Vì vậy mình sẽ hướng dẫn các bạn cấu hình trên máy cá nhân, xong nén thành file .zip, sau đó đẩy lên Google Drive.

Việc cấu hình trải qua các bước:

Bước 1: Clone darknet về máy.

Bước 3: Tạo file yolo-tinyv4-obj.cfg.

Tạo file chúng tôi với nội dung tương tự file chúng tôi trong thư mục darknet/cfg, sau đó chỉnh sử một số dòng:

Dòng 6: Thay đổi batch=64. Nghĩa là: batch = số ảnh (cả file annotation) được đưa vào huấn luyện trong một batch.

Dòng 7: Thay đổi subdivisions=16. Trong một batch được chia thành nhiều block, mỗi block chứa batch/subdivisions ảnh được đưa vào GPU xử lý tại một thời điểm. Weights của mô hình được update sau mỗi batch.

Dòng 20: Thay đổi max_batches=classes2000, không nhỏ hơn số ảnh trong tập huấn luyện, và không nhỏ hơn 6000 (theo đây}). VD: max_batches=6000.

Dòng 22: Thay đổi steps= 80%, 90% max_batches. VD: steps=4800,5400. Sau khi huấn luyện được 80%, 90% max_batches, learning_rate sẽ được nhân với một tỷ lệ (dòng 23 trong file), mặc định là 0.1.

Thay đổi classes=1 trong mỗi layer [yolo], dòng 217, 266.

Thay đổi filters trong mỗi layer [convolutional] trước layer [yolo] theo công thức filters=(số class+5)*3. Trong bài toán này filters=18.

Bước 4: Tạo file obj.names chứa tên của các class, sau đó lưu trong thư mục darknet/data.

Bước 8: Nén thư mục darknet thành file chúng tôi sau đó đưa lên Google Drive.

Huấn luyện model trên colab

Để thực thi các lệnh command line trong colab sử dụng thêm ! trước mỗi câu lệnh.

#Sau khi mount với drive. Chuyển đến thư mục chứa file chúng tôi vừa tải lên

#Ví dụ mình để ở thư mục gốc của Google Drive

cd drive/My Drive

#Giải nén file darknet.zip

!unzip darknet.zip

#Chuyển đến thư mục darknet

cd darknet

#Tạo thư mục backup để lưu lại weights khi huấn luyện

#Tên thư mục phải trùng với link folder backup trong file chúng tôi trên

!mkdir backup

#Tạo file chúng tôi chúng tôi theo đoạn code

import os

import numpy as np

#"obj" là tên thư mục chứa cả ảnh và file annotation.

lst_files = os.listdir("data/obj/")

lst_images = []

for file in lst_files:

if ".txt" not in file:

lst_images.append(file)

#Tách 200 ảnh ra làm tập validation

random_idx = np.random.randint(0, len(lst_images), 200)

#Tạo file chúng tôi được đặt trong thư mục darknet/data

with open("data/train.txt","w") as f:

for idx in range(len(lst_images)):

if idx not in random_idx:

f.write("data/obj/"+lst_images[idx]+"n")

#Tạo file chúng tôi được đặt trong thư mục darknet/data

with open("data/valid.txt","w") as f:

for idx in random_idx:

f.write("data/obj/"+lst_images[idx]+"n")

#Biên dịch darknet (chỉ cần biên dịch một lần, lần sau dùng bỏ qua bước này)

!make

#Phân quyền thực thi module darknet

!chmod +x ./darknet

Bắt đầu quá trình huấn luyện sử dụng command line:

!./darknet detector train data/obj.data chúng tôi yolov4-tiny.conv.29 -map

Cú pháp tổng quát để huấn luyện:

!./darknet detector train [data config file] [model config file] [pre-trained weights]

-map: Dùng để hiển thị mAP được tính trên tập validation.

Nếu bạn gặp lỗi:CUDA Error: out of memory: File exists thì hãy quay lại sửa subdivisions=32 trong file yolo-tinyv4-obj.cfg

Theo dõi quá trình huấn luyện

Quá trình huấn luyện sẽ được lưu vào file yolotinv4_lisenceplate.log, ngoài ra darknet tự động tạo ra ảnh chúng tôi lưu trong thư mục darknet và được cập nhật liên tục để theo dõi trực tiếp thông số của quá trình huấn luyện.

Dự đoán

Sau khi huấn luyện xong, toàn bộ weights sẽ được lưu trong folder backup.

#Danh sách các weights được lưu

!ls backup/

!./darknet detector test [data config file] [model config file] [best-weights]

[image path]

#cụ thể như sau

!./darknet detector test data/obj.data chúng tôi

backup/yolo-tinyv4-obj_best.weights test1.jpg

Kết quả dự đoán được lưu thành file predictions.jpg

#Hàm sau được dùng để hiển thị kết quả dự đoán lên colab

def show(path):

import cv2

import matplotlib.pyplot as plt

image = cv2.imread(path)

original_width, original_height = image.shape[1], image.shape[0]

resized_image = cv2.resize(image, (2*original_width, 2*original_height)

, interpolation = cv2.INTER_CUBIC)

resized_image = cv2.cvtColor(resized_image, cv2.COLOR_BGR2RGB)

plt.figure(figsize=(20,10))

plt.axis("off")

plt.imshow(resized_image)

plt.show()

show("predictions.jpg")