【机器视觉】Python+OpenCV+MediaPipe实时人流检测

【机器视觉】Python+OpenCV+MediaPipe实时人流检测
安装所需模块:

pip install cv2

pip install midiapipe

MidiaPipe

MediaPipe 为直播和流媒体提供跨平台、可定制的机器学习解决方案。

  • 端到端加速引擎:内置的快速 ML 推理和处理即使在常见硬件上也能加速
  • 一次构建,任意部署:统一解决方案适用于 Android、iOS、桌面/、Web 和物联网
  • 即用型解决方案:先进的机器学习解决方案展示了框架的全部功能
  • 免费开源:Apache 2.0下的框架和解决方案,完全可扩展和可定制

FaceDetection模型

MediaPipe 人脸检测是一种超快的人脸检测解决方案,带有 6 个地标和多人脸支持。它基于 BlazeFace,这是一种轻量级且性能良好的人脸检测器,专为移动 GPU 推理量身定制。检测器的超实时性能使其能够应用于任何需要准确的面部感兴趣区域作为其他任务特定模型输入的实时取景器体验,例如 3D 面部关键点或几何估计(例如 MediaPipe Face Mesh),面部特征或表情分类,以及面部区域分割。 BlazeFace 使用了一个轻量级特征提取网络,其灵感来自 MobileNetV1/V2,但与 MobileNetV1/V2 不同,它是一种从 Single Shot MultiBox Detector (SSD) 修改而来的 GPU 友好锚点方案,以及一种替代非极大值抑制的改进的 tie 分辨率策略。

【机器视觉】Python+OpenCV+MediaPipe实时人流检测

论文名称:SSD: Single Shot MultiBox Detector
原文地址:Single Shot
配置模型参数

with mp_face_detection.FaceDetection(

        model_selection=1, min_detection_confidence=0.5) as face_detection:

  • model_selection:使用 0 选择最适合距离相机 2 米以内的人脸的短距离模型,使用 1 选择最适合距离相机 5 米以内的人脸的全距离模型。
  • min_detection_confidence:人脸检测模型的最小置信值 ([0.0, 1.0]),以便将检测视为成功。默认为 0.5。

人脸地标

检测到的人脸的集合,其中每个人脸都表示为一个检测集合,其中包含一个边界框和 6 个关键点(右眼、左眼、鼻尖、嘴巴中心、右耳和左耳)。
边界框由 xmin 和宽度和 ymin 和高度组成。每个关键点由 x 和 y 组成,分别通过图像宽度和高度归一化为 [0.0, 1.0]。

if results.detections:

            for detection in results.detections:  # 获取人脸地标

                people += 1

                mp_drawing.draw_detection(image, detection)

【机器视觉】Python+OpenCV+MediaPipe实时人流检测

部分代码

本项目可以使用文件输入和摄像头进行输入,下面代码采用的是文件输入,如果需要使用摄像头作为输入源,只需要将 cap = cv2.VideoCapture("video/finger3.MP4") 内部参数置为0即可,不过还需要调整一下其它位置,这里不做过多叙述。

import cv2

import mediapipe as mp

mp_face_detection = mp.solutions.face_detection  # 人脸检测器

mp_drawing = mp.solutions.drawing_utils  # 绘制人脸地标

cap = cv2.VideoCapture('video/head3.MP4')  # 视频输入源

with mp_face_detection.FaceDetection(

        model_selection=1, min_detection_confidence=0.5) as face_detection:

    while cap.isOpened():

        success, image = cap.read()

        if not success:

            print("Ignoring empty camera frame.")

            break

        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

        results = face_detection.process(image)

        image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)  # 将图片转化为标准RGB格式

        people = 0

        if results.detections:

            for detection in results.detections:  # 获取人脸地标

                people += 1

                mp_drawing.draw_detection(image, detection)

        print(fr'[视频中人数:{people}] ')

        # 设置窗口大小

        cv2.namedWindow("image", 0)

        cv2.resizeWindow("image", 500, 460)

        cv2.imshow('image', image)

        if cv2.waitKey(10) & 0xFF == 27:

            break

cap.release()