干货 | YOLOV5 训练自动驾驶数据集，并转Tensorrt，收藏！-低调大师

干货 | YOLOV5 训练自动驾驶数据集，并转Tensorrt，收藏！

2020-10-10 1024

AI视线

点击关注上方“AI深度学习视线”，并“星标”公号

技术硬文，第一时间送达！

准备数据集
环境配置
配置文件修改
训练
推理
转Tensorrt

准备数据集

1.1 BDD数据集

BDD100K是最大的开放式驾驶视频数据集之一，其中包含10万个视频和10个任务，目的是方便评估自动驾驶图像识别算法的的进展。每个高分辨率视频一共40秒。该数据集包括超过1000个小时的驾驶数据，总共超过1亿帧。这些视频带有GPU / IMU数据以获取轨迹信息。该数据集具有地理，环境和天气多样性，从而能让模型能够识别多种场景，具备更多的泛化能力。这些丰富的户外场景和复杂的车辆运动使感知任务更具挑战性。该数据集上的任务包括图像标记，车道检测，可驾驶区域分割，道路对象检测，语义分割，实例分割，多对象检测跟踪，多对象分割跟踪，领域自适应和模仿学习。我们可以在BDD100K数据网站上下载数据。

Bdd100k的标签是由Scalabel生成的JSON格式。
- labels [ ]:    - id: int32    - category: string (classification)    - manualShape: boolean (whether the shape of the label is created or modified manually)    - manualAttributes: boolean (whether the attribute of the label is created or modified manually)    - score: float (the confidence or some other ways of measuring the quality of the label.)    - attributes:        - occluded: boolean        - truncated: boolean        - trafficLightColor: "red|green|yellow|none"        - areaType: "direct | alternative" (for driving area)        - laneDirection: "parallel|vertical" (for lanes)        - laneStyle: "solid | dashed" (for lanes)        - laneTypes: (for lanes)    - box2d:       - x1: float       - y1: float       - x2: float       - y2: float

道路对象类别包括以下几类：

[    "bike",    "bus",    "car",    "motor",    "person",    "rider",    "traffic light",    "traffic sign",    "train",    "truck"]

1.2 YOLO数据格式

每个图片文件.jpg，都有同一命名的标签文件.txt。

标签文件中每个对象独占一行，格式为<object-class> <x> <y> <width> <height>。

其中：

<object-class>-表示对象的类别序号：从0 到 (classes-1)
<x> <y> <width> <height> -参照图片宽度和高度的相对比例(浮点数值)，从0.0到1.0
例如：<x> = <absolute_x> / <image_width>或<height> = <absolute_height> / <image_height>
注意：<x> <y>是矩形的中心，而不是左上角位置。

如下图所示：

YOLO V5的标签文件和图像文件应位于同一目录下。

1.3 BDD数据转YOLO格式

Berkerley 提供了Bdd100k数据集的标签查看及标签格式转化工具。由于没有直接从bdd100k转换成YOLO的工具，因此我们首先得使用将bdd100k的标签转换为coco格式，然后再将coco格式转换为yolo格式。

bdd to coco

我的目的是识别包括不同颜色交通灯在内的所有交通对象，因此我们需要对原版的bdd2coco.py进行一些修改，以获取交通灯颜色并产生新的类别。

这是修改完的核心代码：

for label in i['labels']:            annotation = dict()            category=label['category']            if (category == "traffic light"):                color = label['attributes']['trafficLightColor']                category = "tl_" + color            if category in id_dict.keys():                empty_image = False                annotation["iscrowd"] = 0                annotation["image_id"] = image['id']                x1 = label['box2d']['x1']                y1 = label['box2d']['y1']                x2 = label['box2d']['x2']                y2 = label['box2d']['y2']                annotation['bbox'] = [x1, y1, x2-x1, y2-y1]                annotation['area'] = float((x2 - x1) * (y2 - y1))                annotation['category_id'] = id_dict[category]                annotation['ignore'] = 0                annotation['id'] = label['id']                annotation['segmentation'] = [[x1, y1, x1, y2, x2, y2, x2, y1]]                annotations.append(annotation)

在完成bdd100k格式到yolo格式的转换后，会获得bdd100k_labels_images_det_coco_train.json和bdd100k_labels_images_det_coco_val.json两个文件。

Coco to yolo

在完成先前的转换之后，我们需要将训练集和验证集的coco格式标签转换为yolo格式。注意需要分别指定训练集和验证集图片位置，对应的coco标签文件位置，及生成yolo标签的目标位置。

config_train ={        "datasets": "COCO",        "img_path": "bdd100k_images/bdd100k/images/100k/train",        "label": "labels/bdd100k_labels_images_det_coco_train.json",        "img_type": ".jpg",        "manipast_path": "./",        "output_path": "labels/trains/",        "cls_list": "bdd100k.names",    }    config_valid ={        "datasets": "COCO",        "img_path": "bdd100k_images/bdd100k/images/100k/val",        "label": "labels/bdd100k_labels_images_det_coco_val.json",        "img_type": ".jpg",        "manipast_path": "./",        "output_path": "labels/valids/",        "cls_list": "bdd100k.names",    }

除此之外，我们还得将所有的类别写入bdd100k.names文件。

personridercarbustruckbikemotortl_greentl_redtl_yellowtl_nonetraffic signtraintl_green

运行Bdd_preprocessing中的完整代码可以完成Bdd100k格式标签到YOLO标签格式的转换。

Bdd2coco以及coco2yolo的详细说明可以参看bdd100k代码库和convert2Yolo代码库。

环境配置

2.1 官方代码

https://github.com/ultralytics/yolov5/tree/v3.0

由于后面转tensorrt版本支持yolov5到3.0版本，所以以3.0版本进行实验。

环境配置可通过下面命令进行一键配置。


# pip install -r requirements.txt
# base ----------------------------------------Cythonmatplotlib>=3.2.2numpy>=1.18.5opencv-python>=4.1.2pillowPyYAML>=5.3scipy>=1.4.1tensorboard>=2.2torch>=1.6.0torchvision>=0.7.0tqdm>=4.41.0
# coco ----------------------------------------# pycocotools>=2.0
# export --------------------------------------# packaging  # for coremltools# coremltools==4.0b4# onnx>=1.7.0# scikit-learn==0.19.2  # for coreml quantization
# extras --------------------------------------# thop  # FLOPS computation# seaborn  # plotting

配置文件修改

3.1 修改 ./data/coco.yaml

修改./data/coco.yaml--》存为bdd.yaml

修改内容：

（1）train/val/test 路径

其中的txt内容均为各集合图像实际绝对路径。

（2）nc：number class 类别数量，BDD数据类别为10

（3）names：前面bdd数据集介绍时候已经列出

3.2 修改 ./model/yolov5.yaml

修改：nc为BDD数据类别数：10

3.3 修改./train.py

修改：

（1）--weights，这里s/m/l/x四个型号可以选择

（2）--cfg，这里s/m/l/x四个型号可以选择

（3）--data，选择根据coco.yaml修改后的bdd.yaml

（4）--batch-size 和 --img-size 可以再这里修改也可以默认不动，再训练命令行里设定

训练

预训练模型

python train.py --img 640 --batch 32 --epochs 300 --data './data/bdd.yaml' --cfg ./models/custom_yolov5x.yaml --weights "./weights/yolov5x.pt" --name yolov5x_bdd_prew  --cache

从头训练

python train.py --img 640 --batch 32 --epochs 300 --data './data/bdd.yaml' --cfg ./models/custom_yolov5x.yaml --weights "" --name yolov5x_bdd  --cache

train_loss:

val_loss:

推断

可选参数：

— weights: 训练权重的路径
— source：推理目标的路径，可以是图片，视频，网络摄像头等
— source：推理结果的输出路径
— img-size：推理图片的大小
— conf-thres：对象置信阈值，默认0.4
— iou-thres：NMS的IOU阈值，可以根据实际对象的重叠度调节，默认0.5
— device: 选择使用CUDA或者CPU
— view-img：显示所有推理结果
— save-txt：将每一帧的推理结果及边界框的位置，存入*.txt文件
— classes：类别过滤，意思是只推理目标类别
— agnostic-nms：使用agnostic-nms NMS

python detect.py --source 0  # webcam                            file.jpg  # image                            file.mp4  # video                            path/  # directory                            path/*.jpg  # glob                            rtsp://170.93.143.139/rtplive/470011e600ef003a004ee33696235daa  # rtsp stream                            rtmp://192.168.1.105/live/test  # rtmp stream                            http://112.50.243.8/PLTV/88888888/224/3221225900/1.m3u8  # http stream

转Tensorrt

6.1 工程配置

https://github.com/wang-xinyu/tensorrtx/tree/master/yolov5,

该项目提供了一大批常见模型的转Tensorrt方法。

环境要求：

GTX1080 / Ubuntu16.04 / cuda10.0 / cudnn7.6.5 / tensorrt7.0.0 / nvinfer7.0.0 / opencv3.3

高版本tensorrt7的变化如下：

6.2 生成转tensorrt的中间文件 yolov5.wts

拷贝 ./tensorrt/yolov5/gen_wts.py文件到./yolov5 工程下，修改其中加载模型路径，执行该python文件，得到yolov5.wts，并将其拷贝回 ./tensorrt/yolov5/下。

1. generate yolov5s.wts from pytorch with yolov5s.pt
git clone https://github.com/wang-xinyu/tensorrtx.gitgit clone https://github.com/ultralytics/yolov5.git// download its weights 'yolov5s.pt'// copy tensorrtx/yolov5/gen_wts.py into ultralytics/yolov5// ensure the file name is yolov5s.pt and yolov5s.wts in gen_wts.py// go to ultralytics/yolov5python gen_wts.py// a file 'yolov5s.wts' will be generated.

6.3 编译yolov5并生成tensorrt模型yolov5.engine

编译之前需要修改：

（1）选模型

（2）CMakeLists.txt

如果tensorrt是通过tar包解压安装的，还需要在CMakeList.txt中对tensorrt路径进行指定，不然会报错找不到nvinfer

（3）另外，如果系统是Ubuntu18.04的话还会存在opencv的问题，找不到libpng12.so和libjasper.so.

这个问题可通过https://blog.csdn.net/baobei0112/article/details/108991915 该博客内容找到答案。

（4）./tensorrt/yolov5/下新建个samples文件夹，把需要测试的图片放进去。

做好准备工作，下面就可以进行YOLOV5的engine编译工作。

build tensorrtx/yolov5 and run
// put yolov5s.wts into tensorrtx/yolov5// go to tensorrtx/yolov5// ensure the macro NET in yolov5.cpp is smkdir buildcd buildcmake ..makesudo ./yolov5 -s             // serialize model to plan file i.e. 'yolov5s.engine'sudo ./yolov5 -d  ../samples // deserialize plan file and run inference, the images in samples will be processed.

6.4 Tensorrt各yolo模型对比

潮水自会来去，但心志得坚若磐石。即便成不了那根定海神针，也至少不是那随意被拍上岸的野鬼游魂。

长按关注 "AI深度视线"
最新人工智能、深度学习、SLAM干货奉上！

本文分享自微信公众号 - AI深度学习视线（AI_DeepSight）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4590228/blog/4669518

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

为了省钱，我用1天时间把PHP学了！

持续坚持原创输出，点击蓝字关注我吧作者：小傅哥博客：https://bugstack.cn 沉淀、分享、成长，让自己和他人都能有所收获！😜 目录一、前言二、技术栈闭环学习三、我那折腾的成长经验 1. 我有一个博客引流 2. 为了引流要付出多少成本？ 3. 使用PHP搭建DDD四层架构四、总结五、系列推荐一、前言你在通往架构师的路上吗？程序员这个行业就像是在不断的打怪升级，突破每一阶段的瓶颈期。从毕业前想通过实习拿到offer、毕业后想通过试用期到转正留下、转正后程序员想做到高级开发、从高级该开发想做到架构师、从架构师想做到更高的总监或者CTO。往后的路越来越不容易，既需要需要个人不断的沉淀学习，也需要一定的机遇机会。在这条路线上架构师是一个瓶颈期的重要转折点，因为这个阶段远不止个人的技术栈学习，还有很多其他能力，几乎可以包括的有如下几点；有中大型项目开发落地经验有可靠的交付质量和统筹能力能解决复杂项目的架构设计和推进执行有一定的技术广度和深度，改的了bug，处理的了事故定得了规范、设计了架构有一定的认知范围，熟悉业务、产品和运营，了解运营规划和业务发...

2020-10-11

657

Facebook AI开源图形变压器网络（GTN），用于与图形自动区分

来源 | reddit 作者|Saksham Goyal 编辑 |代码医生团队图形变压器网络（GTN）是带有加权有限状态传感器（WFST）的开源框架，加权有限状态传感器（WFST）是一种功能强大且表现力强的图形。就像PyTorch一样，GTN为WFST提供了一个框架。GTN用于有效地训练基于图的机器学习模型，并在手写识别，语音识别和自然语言处理等应用程序中组合不同的信息源。通过训练不同类型的模型，GTN库提供了更好的结果。更加结构化的图形使研究人员可以将有关任务的先验知识编码为学习算法。GTN将使我们能够将单词的发音编码为图形，并将该图形合并到学习算法中。但是图形也曾经被使用过。那么，有什么新消息？训练时先前使用的单个图是隐式的，并且图结构必须在软件中进行硬编码。但是有了这个新的框架，研究人员可以在训练时动态地使用WFST。因此，整个系统可以更有效地从数据中学习和改进。由于缺乏易于使用的框架，使用基于功能图的数据结构构建ML模型具有挑战性。通过将图形或数据与图形操作分开，用户现在将拥有更大的自由度来尝试结构化学习算法的更大设计空间。具有GTN的图形结构更适合于暗示性地...

2020-10-12

693

发表评论

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。