【ALINX AXU2CGB试用】Python版本人脸识别

liujing1232 · 发表于 2021-5-29 10:07:45

本帖最后由 liujing1232 于 2021-5-30 11:09 编辑

之前使用的都是Xilinx官方自带的训练好的模型，局限性较大，因此这里训练自定义的数据集，选用的例程同样是人脸识别，选用的算法是YOLOV3-tiny版本。由于自己也不擅长C++，因此这里仅使用Python版本。
1.训练

采用的算法是YOLOV3，代码见下：

https://github.com/david8862/keras-YOLOv3-model-set

该代码是github开源代码，本帖子只是交流学习使用，侵删。这个YOLOV3代码非常牛逼，此前也找过很多YOLOV3相关的代码，这个代码的功能性最强，训练得到的精度也是目前找到的最好的，最厉害的是里面不仅仅只有YOLOV3，还有多种网络组成的算法，例如YOLO3-MobileNet组成的神经网络，精度非常高，但是网络体积非常小，可惜在DPU上不是很友好，MobileNet网络需要训练中优化来着，比较复杂，也没深入探究。

下面是人脸识别的数据集网址：

http://shuoyang1213.me/WIDERFACE/

按照github里面的指令即可训练得到YOLOV3模型，测试的图片结果如下：

训练得到的模型精度较好。

2.测试

利用xilinx的编译工具以及armlinux交叉编译工具把上面训练得到的模型bian以为动态链接库，也就是：

aarch64-xilinx-linux-gcc --sysroot=sysroots/aarch64-xilinx-linux
\<o:p></o:p>
-fPIC -shared dpu_${MODEL_NAME}.elf -o
libdpumodel${MODEL_NAME}.so<o:p></o:p>

复制代码

会比C++版本多一个步骤，C++的只需要得到可执行文件(.elf)即可，但是Python调用还需要编译得到动态链接库，然后在Python程序中调用。

相关python源码如下：

n2cube.dpuOpen()<o:p></o:p>
""" Create DPU Kernels for
tf_yolov3_voc """<o:p></o:p>
kernel = n2cube.dpuLoadKernel(args.kernel_conv)<o:p></o:p>
""" Create DPU Tasks for
tf_yolov3_voc """<o:p></o:p>
task = n2cube.dpuCreateTask(kernel, 0) # 1 =
T_MODE_PROF; 0 = normal;<o:p></o:p>
#task = n2cube.dpuEnableTaskProfile(task)<o:p></o:p>
time_start=time.process_time() #Running time
calculate (start)<o:p></o:p>
"""Load image to
DPU"""<o:p></o:p>
print("Loading picture from image
folder({})...".format(args.image_path))<o:p></o:p>
image = cv2.imread(args.image_path) <o:p></o:p>
image_size = image.shape[:2]#前两维<o:p></o:p>
image_data = pre_process(image,
(args.input_size, args.input_size))#改变输入的尺寸，并扩展为[1,416,416,3]<o:p></o:p>
image_data =
np.array(image_data,dtype=np.float32)#转换为array类型的，float类型<o:p></o:p>
input_len =
n2cube.dpuGetInputTensorSize(task, args.input_node)#获取输入INPUT_NODE的长度<o:p></o:p>
conv_time_start = time.process_time() #
<------------- Start Convolution Time Recording<o:p></o:p>
"""将存储在CPU中的图像数据放到DPU的输入tensor中，数据长度应该为416*416*3"""<o:p></o:p>
n2cube.dpuSetInputTensorInHWCFP32(task,args.input_node,image_data,input_len)<o:p></o:p>
"""Model run on
DPU"""<o:p></o:p>
n2cube.dpuRunTask(task)<o:p></o:p>
conv_sbbox_size =
n2cube.dpuGetOutputTensorSize(task, args.output_node0)#小box的输出size，应该是13*13*6<o:p></o:p>
conv_out1 =
n2cube.dpuGetOutputTensorInHWCFP32(task, args.output_node0, conv_sbbox_size)#获取输出0的张量<o:p></o:p>
conv_out1 = np.reshape(conv_out1, (1, 13,
13, 3,5+args.num_classes))#改变维度，扩展一维，变为张量<o:p></o:p>
conv_mbbox_size =
n2cube.dpuGetOutputTensorSize(task, args.output_node1)#中box的输出size，应该是26*26*6<o:p></o:p>
conv_out2 =
n2cube.dpuGetOutputTensorInHWCFP32(task, args.output_node1, conv_mbbox_size)<o:p></o:p>
<span lang="EN-US" style="font-size:9.0pt;font-family:"Times New Roman",serif;
mso-fareast-font-family:宋体;mso-bidi-theme-font:minor-bidi;mso-ansi-language:
EN-US;mso-fareast-language:ZH-CN;mso-bidi-language:AR-SA">conv_out2 =
np.reshape(conv_out2, (1, 26, 26, 3,5+args.num_classes))

复制代码

代码还能优化，采取多线程应该可以使识别速度更快，然而我不擅长，有擅长的可以与我交流一下。

在该段程序中调用动态链接库，并将其使用DPU进行加速。

识别效果如下：

视频测试效果：

PS：发热严重，完全不敢长时间使用。

[评测分享] 【ALINX AXU2CGB试用】Python版本人脸识别