Detectron Model Zoo and Baselines

Introduction

This file documents a large collection of baselines trained with Detectron, primarily in late December 2017. We refer to these results as the 12_2017_baselines. All configurations for these baselines are located in the configs/12_2017_baselines directory. The tables below provide results and useful statistics about training and inference. Links to the trained models as well as their output are provided. Unless noted differently below (see "Notes" under each table), the following common settings are used for all training and inference runs.

Common Settings and Notes

All baselines were run on Big Basin servers with 8 NVIDIA Tesla P100 GPU accelerators (with 16GB GPU memory, CUDA 8.0, and cuDNN 6.0.21).
All baselines were trained using 8 GPU data parallel sync SGD with a minibatch size of either 8 or 16 images (see the im/gpu column).
For training, only horizontal flipping data augmentation was used.
For inference, no test-time augmentations (e.g., multiple scales, flipping) were used.
All models were trained on the union of coco_2014_train and coco_2014_valminusminival, which is exactly equivalent to the recently defined coco_2017_train dataset.
All models were tested on the coco_2014_minival dataset, which is exactly equivalent to the recently defined coco_2017_val dataset.
Inference times are often expressed as "X + Y", in which X is time taken in reasonably well-optimized GPU code and Y is time taken in unoptimized CPU code. (The CPU code time could be reduced substantially with additional engineering.)
Inference results for boxes, masks, and keypoints ("kps") are provided in the COCO json format.
The model id column is provided for ease of reference.
To check downloaded file integrity: for any download URL on this page, simply append .md5sum to the URL to download the file's md5 hash.
All models and results below are on the COCO dataset.
Baseline models and results for the Cityscapes dataset are coming soon!

Training Schedules

We use three training schedules, indicated by the lr schd column in the tables below.

1x: For minibatch size 16, this schedule starts at a LR of 0.02 and is decreased by a factor of * 0.1 after 60k and 80k iterations and finally terminates at 90k iterations. This schedules results in 12.17 epochs over the 118,287 images in coco_2014_train union coco_2014_valminusminival (or equivalently, coco_2017_train).
2x: Twice as long as the 1x schedule with the LR change points scaled proportionally.
s1x ("stretched 1x"): This schedule scales the 1x schedule by roughly 1.44x, but also extends the duration of the first learning rate. With a minibatch size of 16, it reduces the LR by * 0.1 at 100k and 120k iterations, finally ending after 130k iterations.

All training schedules also use a 500 iteration linear learning rate warm up. When changing the minibatch size between 8 and 16 images, we adjust the number of SGD iterations and the base learning rate according to the principles outlined in our paper Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour.

License

All models available for download through this document are licensed under the Creative Commons Attribution-ShareAlike 3.0 license.

ImageNet Pretrained Models

The backbone models pretrained on ImageNet are available in the format used by Detectron. Unless otherwise noted, these models are trained on the standard ImageNet-1k dataset.

R-50.pkl: converted copy of MSRA's original ResNet-50 model
R-101.pkl: converted copy of MSRA's original ResNet-101 model
X-101-64x4d.pkl: converted copy of FB's original ResNeXt-101-64x4d model trained with Torch7
X-101-32x8d.pkl: ResNeXt-101-32x8d model trained with Caffe2 at FB
X-152-32x8d-IN5k.pkl: ResNeXt-152-32x8d model trained on ImageNet-5k with Caffe2 at FB (see our ResNeXt paper for details on ImageNet-5k)

Log Files

Training and inference logs are available for most models in the model zoo.

Proposal, Box, and Mask Detection Baselines

RPN Proposal Baselines

<table><tbody>    <th valign="bottom">        backbone        </th> <th valign="bottom">type</th> <th valign="bottom">lr schd</th> <th valign="bottom">im/ gpu</th> <th valign="bottom">train mem (GB)</th> <th valign="bottom">train time (s/iter)</th> <th valign="bottom">train time total (hr)</th> <th valign="bottom">inference time (s/im)</th> <th valign="bottom">box AP</th> <th valign="bottom">mask AP</th> <th valign="bottom">kp AP</th> <th valign="bottom">prop. AR</th> <th valign="bottom">model id</th> <th valign="bottom">download links</th>  <tr> <td align="left">R-50-C4</td> <td align="left">RPN</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">4.3</td> <td align="right">0.187</td> <td align="right">4.7</td> <td align="right">0.113</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">51.6</td> <td align="right">35998355</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35998355/12_2017_baselines/rpn_R-50-C4_1x.yaml.08_00_43.njH5oD9L/output/train/coco_2014_train%3Acoco_2014_valminusminival/rpn/model_final.pkl">model</a> | props: <a href="https://dl.fbaipublicfiles.com/detectron/35998355/12_2017_baselines/rpn_R-50-C4_1x.yaml.08_00_43.njH5oD9L/output/test/coco_2014_train/rpn/rpn_proposals.pkl">1</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35998355/12_2017_baselines/rpn_R-50-C4_1x.yaml.08_00_43.njH5oD9L/output/test/coco_2014_valminusminival/rpn/rpn_proposals.pkl">2</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35998355/12_2017_baselines/rpn_R-50-C4_1x.yaml.08_00_43.njH5oD9L/output/test/coco_2014_minival/rpn/rpn_proposals.pkl">3</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">RPN</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">6.4</td> <td align="right">0.416</td> <td align="right">10.4</td> <td align="right">0.080</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">57.2</td> <td align="right">35998814</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35998814/12_2017_baselines/rpn_R-50-FPN_1x.yaml.08_06_03.Axg0r179/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | props: <a href="https://dl.fbaipublicfiles.com/detectron/35998814/12_2017_baselines/rpn_R-50-FPN_1x.yaml.08_06_03.Axg0r179/output/test/coco_2014_train/generalized_rcnn/rpn_proposals.pkl">1</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35998814/12_2017_baselines/rpn_R-50-FPN_1x.yaml.08_06_03.Axg0r179/output/test/coco_2014_valminusminival/generalized_rcnn/rpn_proposals.pkl">2</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35998814/12_2017_baselines/rpn_R-50-FPN_1x.yaml.08_06_03.Axg0r179/output/test/coco_2014_minival/generalized_rcnn/rpn_proposals.pkl">3</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">RPN</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">8.1</td> <td align="right">0.503</td> <td align="right">12.6</td> <td align="right">0.108</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">58.2</td> <td align="right">35998887</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35998887/12_2017_baselines/rpn_R-101-FPN_1x.yaml.08_07_07.vzhHEs0V/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | props: <a href="https://dl.fbaipublicfiles.com/detectron/35998887/12_2017_baselines/rpn_R-101-FPN_1x.yaml.08_07_07.vzhHEs0V/output/test/coco_2014_train/generalized_rcnn/rpn_proposals.pkl">1</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35998887/12_2017_baselines/rpn_R-101-FPN_1x.yaml.08_07_07.vzhHEs0V/output/test/coco_2014_valminusminival/generalized_rcnn/rpn_proposals.pkl">2</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35998887/12_2017_baselines/rpn_R-101-FPN_1x.yaml.08_07_07.vzhHEs0V/output/test/coco_2014_minival/generalized_rcnn/rpn_proposals.pkl">3</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">RPN</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">11.5</td> <td align="right">1.395</td> <td align="right">34.9</td> <td align="right">0.292</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">59.4</td> <td align="right">35998956</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35998956/12_2017_baselines/rpn_X-101-64x4d-FPN_1x.yaml.08_08_41.Seh0psKz/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | props: <a href="https://dl.fbaipublicfiles.com/detectron/35998956/12_2017_baselines/rpn_X-101-64x4d-FPN_1x.yaml.08_08_41.Seh0psKz/output/test/coco_2014_train/generalized_rcnn/rpn_proposals.pkl">1</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35998956/12_2017_baselines/rpn_X-101-64x4d-FPN_1x.yaml.08_08_41.Seh0psKz/output/test/coco_2014_valminusminival/generalized_rcnn/rpn_proposals.pkl">2</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35998956/12_2017_baselines/rpn_X-101-64x4d-FPN_1x.yaml.08_08_41.Seh0psKz/output/test/coco_2014_minival/generalized_rcnn/rpn_proposals.pkl">3</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">RPN</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">11.6</td> <td align="right">1.102</td> <td align="right">27.6</td> <td align="right">0.222</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">59.5</td> <td align="right">36760102</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36760102/12_2017_baselines/rpn_X-101-32x8d-FPN_1x.yaml.06_00_16.RWeBAniO/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | props: <a href="https://dl.fbaipublicfiles.com/detectron/36760102/12_2017_baselines/rpn_X-101-32x8d-FPN_1x.yaml.06_00_16.RWeBAniO/output/test/coco_2014_train/generalized_rcnn/rpn_proposals.pkl">1</a>, <a href="https://dl.fbaipublicfiles.com/detectron/36760102/12_2017_baselines/rpn_X-101-32x8d-FPN_1x.yaml.06_00_16.RWeBAniO/output/test/coco_2014_valminusminival/generalized_rcnn/rpn_proposals.pkl">2</a>, <a href="https://dl.fbaipublicfiles.com/detectron/36760102/12_2017_baselines/rpn_X-101-32x8d-FPN_1x.yaml.06_00_16.RWeBAniO/output/test/coco_2014_minival/generalized_rcnn/rpn_proposals.pkl">3</a></td> </tr> </tr>  </tbody></table>

Notes:

Inference time only includes RPN proposal generation.
"prop. AR" is proposal average recall at 1000 proposals per image.
Proposal download links ("props"): "1" is coco_2014_train; "2" is coco_2014_valminusminival; and "3" is coco_2014_minival.

Fast & Mask R-CNN Baselines Using Precomputed RPN Proposals

<table><tbody>    <th valign="bottom">        backbone        </th> <th valign="bottom">type</th> <th valign="bottom">lr schd</th> <th valign="bottom">im/ gpu</th> <th valign="bottom">train mem (GB)</th> <th valign="bottom">train time (s/iter)</th> <th valign="bottom">train time total (hr)</th> <th valign="bottom">inference time (s/im)</th> <th valign="bottom">box AP</th> <th valign="bottom">mask AP</th> <th valign="bottom">kp AP</th> <th valign="bottom">prop. AR</th> <th valign="bottom">model id</th> <th valign="bottom">download links</th>  <tr> <td align="left">R-50-C4</td> <td align="left">Fast</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">6.0</td> <td align="right">0.456</td> <td align="right">22.8</td> <td align="right">0.241 + 0.003</td> <td align="right">34.4</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36224013</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36224013/12_2017_baselines/fast_rcnn_R-50-C4_1x.yaml.08_22_00.vHd5BeBP/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36224013/12_2017_baselines/fast_rcnn_R-50-C4_1x.yaml.08_22_00.vHd5BeBP/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-50-C4</td> <td align="left">Fast</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">6.0</td> <td align="right">0.453</td> <td align="right">45.3</td> <td align="right">0.241 + 0.003</td> <td align="right">35.6</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36224046</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36224046/12_2017_baselines/fast_rcnn_R-50-C4_2x.yaml.08_22_57.XFxNqEnL/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36224046/12_2017_baselines/fast_rcnn_R-50-C4_2x.yaml.08_22_57.XFxNqEnL/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">Fast</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">6.0</td> <td align="right">0.285</td> <td align="right">7.1</td> <td align="right">0.076 + 0.004</td> <td align="right">36.4</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36225147</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36225147/12_2017_baselines/fast_rcnn_R-50-FPN_1x.yaml.08_39_09.L3obSdQ2/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36225147/12_2017_baselines/fast_rcnn_R-50-FPN_1x.yaml.08_39_09.L3obSdQ2/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">Fast</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">6.0</td> <td align="right">0.287</td> <td align="right">14.4</td> <td align="right">0.077 + 0.004</td> <td align="right">36.8</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36225249</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36225249/12_2017_baselines/fast_rcnn_R-50-FPN_2x.yaml.08_40_18.zoChak1f/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36225249/12_2017_baselines/fast_rcnn_R-50-FPN_2x.yaml.08_40_18.zoChak1f/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Fast</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">7.7</td> <td align="right">0.448</td> <td align="right">11.2</td> <td align="right">0.102 + 0.003</td> <td align="right">38.5</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36228880</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36228880/12_2017_baselines/fast_rcnn_R-101-FPN_1x.yaml.09_25_03.tZuHkSpl/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36228880/12_2017_baselines/fast_rcnn_R-101-FPN_1x.yaml.09_25_03.tZuHkSpl/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Fast</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">7.7</td> <td align="right">0.449</td> <td align="right">22.5</td> <td align="right">0.103 + 0.004</td> <td align="right">39.0</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36228933</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36228933/12_2017_baselines/fast_rcnn_R-101-FPN_2x.yaml.09_26_27.jkOUTrrk/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36228933/12_2017_baselines/fast_rcnn_R-101-FPN_2x.yaml.09_26_27.jkOUTrrk/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Fast</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">6.3</td> <td align="right">0.994</td> <td align="right">49.7</td> <td align="right">0.292 + 0.003</td> <td align="right">40.4</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36226250</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36226250/12_2017_baselines/fast_rcnn_X-101-64x4d-FPN_1x.yaml.08_54_22.u0LaxQsC/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36226250/12_2017_baselines/fast_rcnn_X-101-64x4d-FPN_1x.yaml.08_54_22.u0LaxQsC/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Fast</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">6.3</td> <td align="right">0.980</td> <td align="right">98.0</td> <td align="right">0.291 + 0.003</td> <td align="right">39.8</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36226326</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36226326/12_2017_baselines/fast_rcnn_X-101-64x4d-FPN_2x.yaml.08_55_54.2F7MP1CD/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36226326/12_2017_baselines/fast_rcnn_X-101-64x4d-FPN_2x.yaml.08_55_54.2F7MP1CD/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Fast</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">6.4</td> <td align="right">0.721</td> <td align="right">36.1</td> <td align="right">0.217 + 0.003</td> <td align="right">40.6</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">37119777</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37119777/12_2017_baselines/fast_rcnn_X-101-32x8d-FPN_1x.yaml.06_38_03.d5N36egm/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37119777/12_2017_baselines/fast_rcnn_X-101-32x8d-FPN_1x.yaml.06_38_03.d5N36egm/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Fast</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">6.4</td> <td align="right">0.720</td> <td align="right">72.0</td> <td align="right">0.217 + 0.003</td> <td align="right">39.7</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">37121469</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37121469/12_2017_baselines/fast_rcnn_X-101-32x8d-FPN_2x.yaml.07_03_53.EPrHk63L/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37121469/12_2017_baselines/fast_rcnn_X-101-32x8d-FPN_2x.yaml.07_03_53.EPrHk63L/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-50-C4</td> <td align="left">Mask</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">6.4</td> <td align="right">0.466</td> <td align="right">23.3</td> <td align="right">0.252 + 0.020</td> <td align="right">35.5</td> <td align="right">31.3</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36224121</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36224121/12_2017_baselines/mask_rcnn_R-50-C4_1x.yaml.08_24_37.wdU8r5Jo/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36224121/12_2017_baselines/mask_rcnn_R-50-C4_1x.yaml.08_24_37.wdU8r5Jo/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36224121/12_2017_baselines/mask_rcnn_R-50-C4_1x.yaml.08_24_37.wdU8r5Jo/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">R-50-C4</td> <td align="left">Mask</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">6.4</td> <td align="right">0.464</td> <td align="right">46.4</td> <td align="right">0.253 + 0.019</td> <td align="right">36.9</td> <td align="right">32.5</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36224151</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36224151/12_2017_baselines/mask_rcnn_R-50-C4_2x.yaml.08_25_34.RSN5CVSH/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36224151/12_2017_baselines/mask_rcnn_R-50-C4_2x.yaml.08_25_34.RSN5CVSH/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36224151/12_2017_baselines/mask_rcnn_R-50-C4_2x.yaml.08_25_34.RSN5CVSH/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">Mask</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">7.9</td> <td align="right">0.377</td> <td align="right">9.4</td> <td align="right">0.082 + 0.019</td> <td align="right">37.3</td> <td align="right">33.7</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36225401</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36225401/12_2017_baselines/mask_rcnn_R-50-FPN_1x.yaml.08_42_04.MocEgrRW/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36225401/12_2017_baselines/mask_rcnn_R-50-FPN_1x.yaml.08_42_04.MocEgrRW/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36225401/12_2017_baselines/mask_rcnn_R-50-FPN_1x.yaml.08_42_04.MocEgrRW/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">Mask</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">7.9</td> <td align="right">0.377</td> <td align="right">18.9</td> <td align="right">0.083 + 0.018</td> <td align="right">37.7</td> <td align="right">34.0</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36225732</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36225732/12_2017_baselines/mask_rcnn_R-50-FPN_2x.yaml.08_43_08.gDqBz9zS/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36225732/12_2017_baselines/mask_rcnn_R-50-FPN_2x.yaml.08_43_08.gDqBz9zS/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36225732/12_2017_baselines/mask_rcnn_R-50-FPN_2x.yaml.08_43_08.gDqBz9zS/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Mask</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">9.6</td> <td align="right">0.539</td> <td align="right">13.5</td> <td align="right">0.111 + 0.018</td> <td align="right">39.4</td> <td align="right">35.6</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36229407</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36229407/12_2017_baselines/mask_rcnn_R-101-FPN_1x.yaml.09_38_04.zbVPo8ZE/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36229407/12_2017_baselines/mask_rcnn_R-101-FPN_1x.yaml.09_38_04.zbVPo8ZE/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36229407/12_2017_baselines/mask_rcnn_R-101-FPN_1x.yaml.09_38_04.zbVPo8ZE/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Mask</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">9.6</td> <td align="right">0.537</td> <td align="right">26.9</td> <td align="right">0.109 + 0.016</td> <td align="right">40.0</td> <td align="right">35.9</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36229740</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36229740/12_2017_baselines/mask_rcnn_R-101-FPN_2x.yaml.09_39_00.Z7O7zOEC/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36229740/12_2017_baselines/mask_rcnn_R-101-FPN_2x.yaml.09_39_00.Z7O7zOEC/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36229740/12_2017_baselines/mask_rcnn_R-101-FPN_2x.yaml.09_39_00.Z7O7zOEC/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Mask</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">7.3</td> <td align="right">1.036</td> <td align="right">51.8</td> <td align="right">0.292 + 0.016</td> <td align="right">41.3</td> <td align="right">37.0</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36226382</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36226382/12_2017_baselines/mask_rcnn_X-101-64x4d-FPN_1x.yaml.08_56_59.rUCejrBN/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36226382/12_2017_baselines/mask_rcnn_X-101-64x4d-FPN_1x.yaml.08_56_59.rUCejrBN/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36226382/12_2017_baselines/mask_rcnn_X-101-64x4d-FPN_1x.yaml.08_56_59.rUCejrBN/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Mask</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">7.3</td> <td align="right">1.035</td> <td align="right">103.5</td> <td align="right">0.292 + 0.014</td> <td align="right">41.1</td> <td align="right">36.6</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36672114</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36672114/12_2017_baselines/mask_rcnn_X-101-64x4d-FPN_2x.yaml.08_58_13.aNWCi3U7/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36672114/12_2017_baselines/mask_rcnn_X-101-64x4d-FPN_2x.yaml.08_58_13.aNWCi3U7/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36672114/12_2017_baselines/mask_rcnn_X-101-64x4d-FPN_2x.yaml.08_58_13.aNWCi3U7/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Mask</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">7.4</td> <td align="right">0.766</td> <td align="right">38.3</td> <td align="right">0.223 + 0.017</td> <td align="right">41.3</td> <td align="right">37.0</td> <td align="right">-</td> <td align="right">-</td> <td align="right">37121516</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37121516/12_2017_baselines/mask_rcnn_X-101-32x8d-FPN_1x.yaml.07_04_58.CbM22DZg/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37121516/12_2017_baselines/mask_rcnn_X-101-32x8d-FPN_1x.yaml.07_04_58.CbM22DZg/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37121516/12_2017_baselines/mask_rcnn_X-101-32x8d-FPN_1x.yaml.07_04_58.CbM22DZg/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Mask</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">7.4</td> <td align="right">0.765</td> <td align="right">76.5</td> <td align="right">0.222 + 0.014</td> <td align="right">40.7</td> <td align="right">36.3</td> <td align="right">-</td> <td align="right">-</td> <td align="right">37121596</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37121596/12_2017_baselines/mask_rcnn_X-101-32x8d-FPN_2x.yaml.07_05_48.TL22uFaK/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37121596/12_2017_baselines/mask_rcnn_X-101-32x8d-FPN_2x.yaml.07_05_48.TL22uFaK/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37121596/12_2017_baselines/mask_rcnn_X-101-32x8d-FPN_2x.yaml.07_05_48.TL22uFaK/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr>  </tbody></table>

Notes:

Each row uses precomputed RPN proposals from the corresponding table row above that uses the same backbone.
Inference time excludes proposal generation.

End-to-End Faster & Mask R-CNN Baselines

<table><tbody>    <th valign="bottom">        backbone        </th> <th valign="bottom">type</th> <th valign="bottom">lr schd</th> <th valign="bottom">im/ gpu</th> <th valign="bottom">train mem (GB)</th> <th valign="bottom">train time (s/iter)</th> <th valign="bottom">train time total (hr)</th> <th valign="bottom">inference time (s/im)</th> <th valign="bottom">box AP</th> <th valign="bottom">mask AP</th> <th valign="bottom">kp AP</th> <th valign="bottom">prop. AR</th> <th valign="bottom">model id</th> <th valign="bottom">download links</th>  <tr> <td align="left">R-50-C4</td> <td align="left">Faster</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">6.3</td> <td align="right">0.566</td> <td align="right">28.3</td> <td align="right">0.167 + 0.003</td> <td align="right">34.8</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35857197</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35857197/12_2017_baselines/e2e_faster_rcnn_R-50-C4_1x.yaml.01_33_49.iAX0mXvW/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35857197/12_2017_baselines/e2e_faster_rcnn_R-50-C4_1x.yaml.01_33_49.iAX0mXvW/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-50-C4</td> <td align="left">Faster</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">6.3</td> <td align="right">0.569</td> <td align="right">56.9</td> <td align="right">0.174 + 0.003</td> <td align="right">36.5</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35857281</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35857281/12_2017_baselines/e2e_faster_rcnn_R-50-C4_2x.yaml.01_34_56.ScPH0Z4r/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35857281/12_2017_baselines/e2e_faster_rcnn_R-50-C4_2x.yaml.01_34_56.ScPH0Z4r/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">Faster</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">7.2</td> <td align="right">0.544</td> <td align="right">13.6</td> <td align="right">0.093 + 0.004</td> <td align="right">36.7</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35857345</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35857345/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_1x.yaml.01_36_30.cUF7QR7I/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35857345/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_1x.yaml.01_36_30.cUF7QR7I/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">Faster</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">7.2</td> <td align="right">0.546</td> <td align="right">27.3</td> <td align="right">0.092 + 0.004</td> <td align="right">37.9</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35857389</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35857389/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_2x.yaml.01_37_22.KSeq0b5q/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35857389/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_2x.yaml.01_37_22.KSeq0b5q/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Faster</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">8.9</td> <td align="right">0.647</td> <td align="right">16.2</td> <td align="right">0.120 + 0.004</td> <td align="right">39.4</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35857890</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35857890/12_2017_baselines/e2e_faster_rcnn_R-101-FPN_1x.yaml.01_38_50.sNxI7sX7/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35857890/12_2017_baselines/e2e_faster_rcnn_R-101-FPN_1x.yaml.01_38_50.sNxI7sX7/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Faster</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">8.9</td> <td align="right">0.647</td> <td align="right">32.4</td> <td align="right">0.119 + 0.004</td> <td align="right">39.8</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35857952</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35857952/12_2017_baselines/e2e_faster_rcnn_R-101-FPN_2x.yaml.01_39_49.JPwJDh92/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35857952/12_2017_baselines/e2e_faster_rcnn_R-101-FPN_2x.yaml.01_39_49.JPwJDh92/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Faster</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">6.9</td> <td align="right">1.057</td> <td align="right">52.9</td> <td align="right">0.305 + 0.003</td> <td align="right">41.5</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35858015</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35858015/12_2017_baselines/e2e_faster_rcnn_X-101-64x4d-FPN_1x.yaml.01_40_54.1xc565DE/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35858015/12_2017_baselines/e2e_faster_rcnn_X-101-64x4d-FPN_1x.yaml.01_40_54.1xc565DE/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Faster</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">6.9</td> <td align="right">1.055</td> <td align="right">105.5</td> <td align="right">0.304 + 0.003</td> <td align="right">40.8</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35858198</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35858198/12_2017_baselines/e2e_faster_rcnn_X-101-64x4d-FPN_2x.yaml.01_41_46.CX2InaoG/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35858198/12_2017_baselines/e2e_faster_rcnn_X-101-64x4d-FPN_2x.yaml.01_41_46.CX2InaoG/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Faster</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">7.0</td> <td align="right">0.799</td> <td align="right">40.0</td> <td align="right">0.233 + 0.004</td> <td align="right">41.3</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36761737</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36761737/12_2017_baselines/e2e_faster_rcnn_X-101-32x8d-FPN_1x.yaml.06_31_39.5MIHi1fZ/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36761737/12_2017_baselines/e2e_faster_rcnn_X-101-32x8d-FPN_1x.yaml.06_31_39.5MIHi1fZ/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Faster</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">7.0</td> <td align="right">0.800</td> <td align="right">80.0</td> <td align="right">0.233 + 0.003</td> <td align="right">40.6</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36761786</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36761786/12_2017_baselines/e2e_faster_rcnn_X-101-32x8d-FPN_2x.yaml.06_33_22.VqFNuxk6/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36761786/12_2017_baselines/e2e_faster_rcnn_X-101-32x8d-FPN_2x.yaml.06_33_22.VqFNuxk6/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-50-C4</td> <td align="left">Mask</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">6.6</td> <td align="right">0.620</td> <td align="right">31.0</td> <td align="right">0.181 + 0.018</td> <td align="right">35.8</td> <td align="right">31.4</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35858791</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35858791/12_2017_baselines/e2e_mask_rcnn_R-50-C4_1x.yaml.01_45_57.ZgkA7hPB/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35858791/12_2017_baselines/e2e_mask_rcnn_R-50-C4_1x.yaml.01_45_57.ZgkA7hPB/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35858791/12_2017_baselines/e2e_mask_rcnn_R-50-C4_1x.yaml.01_45_57.ZgkA7hPB/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">R-50-C4</td> <td align="left">Mask</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">6.6</td> <td align="right">0.620</td> <td align="right">62.0</td> <td align="right">0.182 + 0.017</td> <td align="right">37.8</td> <td align="right">32.8</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35858828</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35858828/12_2017_baselines/e2e_mask_rcnn_R-50-C4_2x.yaml.01_46_47.HBThTerB/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35858828/12_2017_baselines/e2e_mask_rcnn_R-50-C4_2x.yaml.01_46_47.HBThTerB/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35858828/12_2017_baselines/e2e_mask_rcnn_R-50-C4_2x.yaml.01_46_47.HBThTerB/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">Mask</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">8.6</td> <td align="right">0.889</td> <td align="right">22.2</td> <td align="right">0.099 + 0.019</td> <td align="right">37.7</td> <td align="right">33.9</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35858933</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35858933/12_2017_baselines/e2e_mask_rcnn_R-50-FPN_1x.yaml.01_48_14.DzEQe4wC/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35858933/12_2017_baselines/e2e_mask_rcnn_R-50-FPN_1x.yaml.01_48_14.DzEQe4wC/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35858933/12_2017_baselines/e2e_mask_rcnn_R-50-FPN_1x.yaml.01_48_14.DzEQe4wC/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">Mask</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">8.6</td> <td align="right">0.897</td> <td align="right">44.9</td> <td align="right">0.099 + 0.018</td> <td align="right">38.6</td> <td align="right">34.5</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35859007</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35859007/12_2017_baselines/e2e_mask_rcnn_R-50-FPN_2x.yaml.01_49_07.By8nQcCH/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35859007/12_2017_baselines/e2e_mask_rcnn_R-50-FPN_2x.yaml.01_49_07.By8nQcCH/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35859007/12_2017_baselines/e2e_mask_rcnn_R-50-FPN_2x.yaml.01_49_07.By8nQcCH/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Mask</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">10.2</td> <td align="right">1.008</td> <td align="right">25.2</td> <td align="right">0.126 + 0.018</td> <td align="right">40.0</td> <td align="right">35.9</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35861795</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35861795/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_1x.yaml.02_31_37.KqyEK4tT/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35861795/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_1x.yaml.02_31_37.KqyEK4tT/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35861795/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_1x.yaml.02_31_37.KqyEK4tT/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Mask</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">10.2</td> <td align="right">0.993</td> <td align="right">49.7</td> <td align="right">0.126 + 0.017</td> <td align="right">40.9</td> <td align="right">36.4</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35861858</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35861858/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml.02_32_51.SgT4y1cO/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35861858/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml.02_32_51.SgT4y1cO/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35861858/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml.02_32_51.SgT4y1cO/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Mask</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">7.6</td> <td align="right">1.217</td> <td align="right">60.9</td> <td align="right">0.309 + 0.018</td> <td align="right">42.4</td> <td align="right">37.5</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36494496</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36494496/12_2017_baselines/e2e_mask_rcnn_X-101-64x4d-FPN_1x.yaml.07_50_11.fkwVtEvg/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36494496/12_2017_baselines/e2e_mask_rcnn_X-101-64x4d-FPN_1x.yaml.07_50_11.fkwVtEvg/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36494496/12_2017_baselines/e2e_mask_rcnn_X-101-64x4d-FPN_1x.yaml.07_50_11.fkwVtEvg/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Mask</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">7.6</td> <td align="right">1.210</td> <td align="right">121.0</td> <td align="right">0.309 + 0.015</td> <td align="right">42.2</td> <td align="right">37.2</td> <td align="right">-</td> <td align="right">-</td> <td align="right">35859745</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35859745/12_2017_baselines/e2e_mask_rcnn_X-101-64x4d-FPN_2x.yaml.02_00_30.ESWbND2w/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35859745/12_2017_baselines/e2e_mask_rcnn_X-101-64x4d-FPN_2x.yaml.02_00_30.ESWbND2w/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/35859745/12_2017_baselines/e2e_mask_rcnn_X-101-64x4d-FPN_2x.yaml.02_00_30.ESWbND2w/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Mask</td> <td align="left">1x</td> <td align="right">1</td> <td align="right">7.7</td> <td align="right">0.961</td> <td align="right">48.1</td> <td align="right">0.239 + 0.019</td> <td align="right">42.1</td> <td align="right">37.3</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36761843</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36761843/12_2017_baselines/e2e_mask_rcnn_X-101-32x8d-FPN_1x.yaml.06_35_59.RZotkLKI/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36761843/12_2017_baselines/e2e_mask_rcnn_X-101-32x8d-FPN_1x.yaml.06_35_59.RZotkLKI/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36761843/12_2017_baselines/e2e_mask_rcnn_X-101-32x8d-FPN_1x.yaml.06_35_59.RZotkLKI/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Mask</td> <td align="left">2x</td> <td align="right">1</td> <td align="right">7.7</td> <td align="right">0.975</td> <td align="right">97.5</td> <td align="right">0.240 + 0.016</td> <td align="right">41.7</td> <td align="right">36.9</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36762092</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36762092/12_2017_baselines/e2e_mask_rcnn_X-101-32x8d-FPN_2x.yaml.06_37_59.DM5gJYRF/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36762092/12_2017_baselines/e2e_mask_rcnn_X-101-32x8d-FPN_2x.yaml.06_37_59.DM5gJYRF/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36762092/12_2017_baselines/e2e_mask_rcnn_X-101-32x8d-FPN_2x.yaml.06_37_59.DM5gJYRF/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> </tr>  </tbody></table>

Notes:

For these models, RPN and the detector are trained jointly and end-to-end.
Inference time is fully image-to-detections, including proposal generation.

RetinaNet Baselines

<table><tbody>    <th valign="bottom">        backbone        </th> <th valign="bottom">type</th> <th valign="bottom">lr schd</th> <th valign="bottom">im/ gpu</th> <th valign="bottom">train mem (GB)</th> <th valign="bottom">train time (s/iter)</th> <th valign="bottom">train time total (hr)</th> <th valign="bottom">inference time (s/im)</th> <th valign="bottom">box AP</th> <th valign="bottom">mask AP</th> <th valign="bottom">kp AP</th> <th valign="bottom">prop. AR</th> <th valign="bottom">model id</th> <th valign="bottom">download links</th>  <tr> <td align="left">R-50-FPN</td> <td align="left">RetinaNet</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">6.8</td> <td align="right">0.483</td> <td align="right">12.1</td> <td align="right">0.125</td> <td align="right">35.7</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36768636</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36768636/12_2017_baselines/retinanet_R-50-FPN_1x.yaml.08_29_48.t4zc9clc/output/train/coco_2014_train%3Acoco_2014_valminusminival/retinanet/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36768636/12_2017_baselines/retinanet_R-50-FPN_1x.yaml.08_29_48.t4zc9clc/output/test/coco_2014_minival/retinanet/detections_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">RetinaNet</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">6.8</td> <td align="right">0.482</td> <td align="right">24.1</td> <td align="right">0.127</td> <td align="right">35.7</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36768677</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36768677/12_2017_baselines/retinanet_R-50-FPN_2x.yaml.08_30_38.sgZIQZQ5/output/train/coco_2014_train%3Acoco_2014_valminusminival/retinanet/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36768677/12_2017_baselines/retinanet_R-50-FPN_2x.yaml.08_30_38.sgZIQZQ5/output/test/coco_2014_minival/retinanet/detections_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">RetinaNet</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">8.7</td> <td align="right">0.666</td> <td align="right">16.7</td> <td align="right">0.156</td> <td align="right">37.7</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36768744</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36768744/12_2017_baselines/retinanet_R-101-FPN_1x.yaml.08_31_38.5poQe1ZB/output/train/coco_2014_train%3Acoco_2014_valminusminival/retinanet/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36768744/12_2017_baselines/retinanet_R-101-FPN_1x.yaml.08_31_38.5poQe1ZB/output/test/coco_2014_minival/retinanet/detections_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">RetinaNet</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">8.7</td> <td align="right">0.666</td> <td align="right">33.3</td> <td align="right">0.154</td> <td align="right">37.8</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36768840</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36768840/12_2017_baselines/retinanet_R-101-FPN_2x.yaml.08_33_29.grtM0RTf/output/train/coco_2014_train%3Acoco_2014_valminusminival/retinanet/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36768840/12_2017_baselines/retinanet_R-101-FPN_2x.yaml.08_33_29.grtM0RTf/output/test/coco_2014_minival/retinanet/detections_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">RetinaNet</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">12.6</td> <td align="right">1.613</td> <td align="right">40.3</td> <td align="right">0.341</td> <td align="right">39.8</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36768875</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36768875/12_2017_baselines/retinanet_X-101-64x4d-FPN_1x.yaml.08_34_37.FSXgMpzP/output/train/coco_2014_train%3Acoco_2014_valminusminival/retinanet/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36768875/12_2017_baselines/retinanet_X-101-64x4d-FPN_1x.yaml.08_34_37.FSXgMpzP/output/test/coco_2014_minival/retinanet/detections_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">RetinaNet</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">12.6</td> <td align="right">1.625</td> <td align="right">81.3</td> <td align="right">0.339</td> <td align="right">39.2</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36768907</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36768907/12_2017_baselines/retinanet_X-101-64x4d-FPN_2x.yaml.08_35_40.pF3nzPpu/output/train/coco_2014_train%3Acoco_2014_valminusminival/retinanet/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36768907/12_2017_baselines/retinanet_X-101-64x4d-FPN_2x.yaml.08_35_40.pF3nzPpu/output/test/coco_2014_minival/retinanet/detections_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">RetinaNet</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">12.7</td> <td align="right">1.343</td> <td align="right">33.6</td> <td align="right">0.277</td> <td align="right">39.5</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36769563</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36769563/12_2017_baselines/retinanet_X-101-32x8d-FPN_1x.yaml.08_42_05.06JTK6vJ/output/train/coco_2014_train%3Acoco_2014_valminusminival/retinanet/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36769563/12_2017_baselines/retinanet_X-101-32x8d-FPN_1x.yaml.08_42_05.06JTK6vJ/output/test/coco_2014_minival/retinanet/detections_coco_2014_minival_results.json">boxes</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">RetinaNet</td> <td align="left">2x</td> <td align="right">2</td> <td align="right">12.7</td> <td align="right">1.340</td> <td align="right">67.0</td> <td align="right">0.276</td> <td align="right">38.6</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">36769641</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36769641/12_2017_baselines/retinanet_X-101-32x8d-FPN_2x.yaml.08_42_55.sUPnwXI5/output/train/coco_2014_train%3Acoco_2014_valminusminival/retinanet/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/36769641/12_2017_baselines/retinanet_X-101-32x8d-FPN_2x.yaml.08_42_55.sUPnwXI5/output/test/coco_2014_minival/retinanet/detections_coco_2014_minival_results.json">boxes</a></td> </tr>  </tbody></table>

Notes: none

Mask R-CNN with Bells & Whistles

<table><tbody>    <th valign="bottom">        backbone        </th> <th valign="bottom">type</th> <th valign="bottom">lr schd</th> <th valign="bottom">im/ gpu</th> <th valign="bottom">train mem (GB)</th> <th valign="bottom">train time (s/iter)</th> <th valign="bottom">train time total (hr)</th> <th valign="bottom">inference time (s/im)</th> <th valign="bottom">box AP</th> <th valign="bottom">mask AP</th> <th valign="bottom">kp AP</th> <th valign="bottom">prop. AR</th> <th valign="bottom">model id</th> <th valign="bottom">download links</th>  <tr> <td align="left">X-152-32x8d-FPN-IN5k</td> <td align="left">Mask</td> <td align="left">s1x</td> <td align="right">1</td> <td align="right">9.6</td> <td align="right">1.188</td> <td align="right">85.8</td> <td align="right">12.100 + 0.046</td> <td align="right">48.1</td> <td align="right">41.5</td> <td align="right">-</td> <td align="right">-</td> <td align="right">37129812</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37129812/12_2017_baselines/e2e_mask_rcnn_X-152-32x8d-FPN-IN5k_1.44x.yaml.09_35_36.8pzTQKYK/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37129812/12_2017_baselines/e2e_mask_rcnn_X-152-32x8d-FPN-IN5k_1.44x.yaml.09_35_36.8pzTQKYK/output/test/coco_2014_minival/generalized_rcnn/bbox_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37129812/12_2017_baselines/e2e_mask_rcnn_X-152-32x8d-FPN-IN5k_1.44x.yaml.09_35_36.8pzTQKYK/output/test/coco_2014_minival/generalized_rcnn/segmentations_coco_2014_minival_results.json">masks</a></td> <tr> <td align="left">[above without test-time aug.]</td> <td align="right"></td> <td align="right"></td> <td align="right"></td> <td align="right"></td> <td align="right"></td> <td align="right"></td> <td align="right">0.325 + 0.018</td> <td align="right">45.2</td> <td align="right">39.7</td> <td align="right">-</td> <td align="right">-</td> <td align="right"></td> <td align="right"></td> </tr>  </tbody></table>

Notes:

A deeper backbone architecture is used: ResNeXt-152-32x8d-FPN
The backbone ResNeXt-152-32x8d model was trained on ImageNet-5k (not the usual ImageNet-1k)
Training uses multi-scale jitter over scales {640, 672, 704, 736, 768, 800}
Row 1: test-time augmentations are multi-scale testing over {400, 500, 600, 700, 900, 1000, 1100, 1200} and horizontal flipping (on each scale)
Row 2: same model as row 1, but without any test-time augmentation (i.e., same as the common baseline configuration)
Like the other results, this is a single model result (it is not an ensemble of models)

Keypoint Detection Baselines

Common Settings for Keypoint Detection Baselines (That Differ from Boxes and Masks)

Our keypoint detection baselines differ from our box and mask baselines in a couple of details:

Due to less training data for the keypoint detection task compared with boxes and masks, we enable multi-scale jitter during training for all keypoint detection models. (Testing is still without any test-time augmentations by default.)
Models are trained only on images from coco_2014_train union coco_2014_valminusminival that contain at least one person with keypoint annotations (all other images are discarded from the training set).
Metrics are reported for the person class only (still run on the entire coco_2014_minival dataset).

Person-Specific RPN Baselines

<table><tbody>    <th valign="bottom">        backbone        </th> <th valign="bottom">type</th> <th valign="bottom">lr schd</th> <th valign="bottom">im/ gpu</th> <th valign="bottom">train mem (GB)</th> <th valign="bottom">train time (s/iter)</th> <th valign="bottom">train time total (hr)</th> <th valign="bottom">inference time (s/im)</th> <th valign="bottom">box AP</th> <th valign="bottom">mask AP</th> <th valign="bottom">kp AP</th> <th valign="bottom">prop. AR</th> <th valign="bottom">model id</th> <th valign="bottom">download links</th>  <tr> <td align="left">R-50-FPN</td> <td align="left">RPN</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">6.4</td> <td align="right">0.391</td> <td align="right">9.8</td> <td align="right">0.082</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">64.0</td> <td align="right">35998996</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35998996/12_2017_baselines/rpn_person_only_R-50-FPN_1x.yaml.08_10_08.0ZWmJm6F/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | props: <a href="https://dl.fbaipublicfiles.com/detectron/35998996/12_2017_baselines/rpn_person_only_R-50-FPN_1x.yaml.08_10_08.0ZWmJm6F/output/test/keypoints_coco_2014_train/generalized_rcnn/rpn_proposals.pkl">1</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35998996/12_2017_baselines/rpn_person_only_R-50-FPN_1x.yaml.08_10_08.0ZWmJm6F/output/test/keypoints_coco_2014_valminusminival/generalized_rcnn/rpn_proposals.pkl">2</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35998996/12_2017_baselines/rpn_person_only_R-50-FPN_1x.yaml.08_10_08.0ZWmJm6F/output/test/keypoints_coco_2014_minival/generalized_rcnn/rpn_proposals.pkl">3</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">RPN</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">8.1</td> <td align="right">0.504</td> <td align="right">12.6</td> <td align="right">0.109</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">65.2</td> <td align="right">35999521</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35999521/12_2017_baselines/rpn_person_only_R-101-FPN_1x.yaml.08_20_33.1OkqMmqP/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | props: <a href="https://dl.fbaipublicfiles.com/detectron/35999521/12_2017_baselines/rpn_person_only_R-101-FPN_1x.yaml.08_20_33.1OkqMmqP/output/test/keypoints_coco_2014_train/generalized_rcnn/rpn_proposals.pkl">1</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35999521/12_2017_baselines/rpn_person_only_R-101-FPN_1x.yaml.08_20_33.1OkqMmqP/output/test/keypoints_coco_2014_valminusminival/generalized_rcnn/rpn_proposals.pkl">2</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35999521/12_2017_baselines/rpn_person_only_R-101-FPN_1x.yaml.08_20_33.1OkqMmqP/output/test/keypoints_coco_2014_minival/generalized_rcnn/rpn_proposals.pkl">3</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">RPN</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">11.5</td> <td align="right">1.394</td> <td align="right">34.9</td> <td align="right">0.289</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">65.9</td> <td align="right">35999553</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/35999553/12_2017_baselines/rpn_person_only_X-101-64x4d-FPN_1x.yaml.08_21_33.ghFzzArr/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | props: <a href="https://dl.fbaipublicfiles.com/detectron/35999553/12_2017_baselines/rpn_person_only_X-101-64x4d-FPN_1x.yaml.08_21_33.ghFzzArr/output/test/keypoints_coco_2014_train/generalized_rcnn/rpn_proposals.pkl">1</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35999553/12_2017_baselines/rpn_person_only_X-101-64x4d-FPN_1x.yaml.08_21_33.ghFzzArr/output/test/keypoints_coco_2014_valminusminival/generalized_rcnn/rpn_proposals.pkl">2</a>, <a href="https://dl.fbaipublicfiles.com/detectron/35999553/12_2017_baselines/rpn_person_only_X-101-64x4d-FPN_1x.yaml.08_21_33.ghFzzArr/output/test/keypoints_coco_2014_minival/generalized_rcnn/rpn_proposals.pkl">3</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">RPN</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">11.6</td> <td align="right">1.104</td> <td align="right">27.6</td> <td align="right">0.224</td> <td align="right">-</td> <td align="right">-</td> <td align="right">-</td> <td align="right">66.2</td> <td align="right">36760438</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/36760438/12_2017_baselines/rpn_person_only_X-101-32x8d-FPN_1x.yaml.06_04_23.M2oJlDPW/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | props: <a href="https://dl.fbaipublicfiles.com/detectron/36760438/12_2017_baselines/rpn_person_only_X-101-32x8d-FPN_1x.yaml.06_04_23.M2oJlDPW/output/test/keypoints_coco_2014_train/generalized_rcnn/rpn_proposals.pkl">1</a>, <a href="https://dl.fbaipublicfiles.com/detectron/36760438/12_2017_baselines/rpn_person_only_X-101-32x8d-FPN_1x.yaml.06_04_23.M2oJlDPW/output/test/keypoints_coco_2014_valminusminival/generalized_rcnn/rpn_proposals.pkl">2</a>, <a href="https://dl.fbaipublicfiles.com/detectron/36760438/12_2017_baselines/rpn_person_only_X-101-32x8d-FPN_1x.yaml.06_04_23.M2oJlDPW/output/test/keypoints_coco_2014_minival/generalized_rcnn/rpn_proposals.pkl">3</a></td> </tr>  </tbody></table>

Notes:

Metrics are for the person category only.
Inference time only includes RPN proposal generation.
"prop. AR" is proposal average recall at 1000 proposals per image.
Proposal download links ("props"): "1" is coco_2014_train; "2" is coco_2014_valminusminival; and "3" is coco_2014_minival. These include all images, not just the ones with valid keypoint annotations.

Keypoint-Only Mask R-CNN Baselines Using Precomputed RPN Proposals

<table><tbody>    <th valign="bottom">        backbone        </th> <th valign="bottom">type</th> <th valign="bottom">lr schd</th> <th valign="bottom">im/ gpu</th> <th valign="bottom">train mem (GB)</th> <th valign="bottom">train time (s/iter)</th> <th valign="bottom">train time total (hr)</th> <th valign="bottom">inference time (s/im)</th> <th valign="bottom">box AP</th> <th valign="bottom">mask AP</th> <th valign="bottom">kp AP</th> <th valign="bottom">prop. AR</th> <th valign="bottom">model id</th> <th valign="bottom">download links</th>  <tr> <td align="left">R-50-FPN</td> <td align="left">Kps</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">7.7</td> <td align="right">0.533</td> <td align="right">13.3</td> <td align="right">0.081 + 0.087</td> <td align="right">52.7</td> <td align="right">-</td> <td align="right">64.1</td> <td align="right">-</td> <td align="right">37651787</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37651787/12_2017_baselines/keypoint_rcnn_R-50-FPN_1x.yaml.20_00_48.UiwJsTXB/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/gene ralized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37651787/12_2017_baselines/keypoint_rcnn_R-50-FPN_1x.yaml.20_00_48.UiwJsTXB/output/test/keypoints_coco_2014_minival/generalized_rcnn /bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37651787/12_2017_baselines/keypoint_rcnn_R-50-FPN_1x.yaml.20_00_48.UiwJsTXB/output/test/keypoints_coco_2014_miniva l/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">Kps</td> <td align="left">s1x</td> <td align="right">2</td> <td align="right">7.7</td> <td align="right">0.533</td> <td align="right">19.2</td> <td align="right">0.080 + 0.085</td> <td align="right">53.4</td> <td align="right">-</td> <td align="right">65.5</td> <td align="right">-</td> <td align="right">37651887</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37651887/12_2017_baselines/keypoint_rcnn_R-50-FPN_s1x.yaml.20_01_40.FDjUQ7VX/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/gen eralized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37651887/12_2017_baselines/keypoint_rcnn_R-50-FPN_s1x.yaml.20_01_40.FDjUQ7VX/output/test/keypoints_coco_2014_minival/generalized_rc nn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37651887/12_2017_baselines/keypoint_rcnn_R-50-FPN_s1x.yaml.20_01_40.FDjUQ7VX/output/test/keypoints_coco_2014_min ival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Kps</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">9.4</td> <td align="right">0.668</td> <td align="right">16.7</td> <td align="right">0.109 + 0.080</td> <td align="right">53.5</td> <td align="right">-</td> <td align="right">65.0</td> <td align="right">-</td> <td align="right">37651996</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37651996/12_2017_baselines/keypoint_rcnn_R-101-FPN_1x.yaml.20_02_37.eVXnKM2Q/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/gen eralized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37651996/12_2017_baselines/keypoint_rcnn_R-101-FPN_1x.yaml.20_02_37.eVXnKM2Q/output/test/keypoints_coco_2014_minival/generalized_rc nn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37651996/12_2017_baselines/keypoint_rcnn_R-101-FPN_1x.yaml.20_02_37.eVXnKM2Q/output/test/keypoints_coco_2014_min ival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Kps</td> <td align="left">s1x</td> <td align="right">2</td> <td align="right">9.4</td> <td align="right">0.668</td> <td align="right">24.1</td> <td align="right">0.108 + 0.076</td> <td align="right">54.6</td> <td align="right">-</td> <td align="right">66.0</td> <td align="right">-</td> <td align="right">37652016</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37652016/12_2017_baselines/keypoint_rcnn_R-101-FPN_s1x.yaml.20_03_32.z86wT97d/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/ge neralized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37652016/12_2017_baselines/keypoint_rcnn_R-101-FPN_s1x.yaml.20_03_32.z86wT97d/output/test/keypoints_coco_2014_minival/generalized_ rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37652016/12_2017_baselines/keypoint_rcnn_R-101-FPN_s1x.yaml.20_03_32.z86wT97d/output/test/keypoints_coco_2014_ minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Kps</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">12.8</td> <td align="right">1.477</td> <td align="right">36.9</td> <td align="right">0.288 + 0.077</td> <td align="right">55.8</td> <td align="right">-</td> <td align="right">66.7</td> <td align="right">-</td> <td align="right">37731079</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37731079/12_2017_baselines/keypoint_rcnn_X-101-64x4d-FPN_1x.yaml.16_40_56.wj7Hg7lX/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminiv al/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37731079/12_2017_baselines/keypoint_rcnn_X-101-64x4d-FPN_1x.yaml.16_40_56.wj7Hg7lX/output/test/keypoints_coco_2014_minival/ge neralized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37731079/12_2017_baselines/keypoint_rcnn_X-101-64x4d-FPN_1x.yaml.16_40_56.wj7Hg7lX/output/test/keypo ints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Kps</td> <td align="left">s1x</td> <td align="right">2</td> <td align="right">12.9</td> <td align="right">1.478</td> <td align="right">53.4</td> <td align="right">0.286 + 0.075</td> <td align="right">56.3</td> <td align="right">-</td> <td align="right">67.1</td> <td align="right">-</td> <td align="right">37731142</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37731142/12_2017_baselines/keypoint_rcnn_X-101-64x4d-FPN_s1x.yaml.16_41_54.e1sD4Frh/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusmini val/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37731142/12_2017_baselines/keypoint_rcnn_X-101-64x4d-FPN_s1x.yaml.16_41_54.e1sD4Frh/output/test/keypoints_coco_2014_minival/ generalized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37731142/12_2017_baselines/keypoint_rcnn_X-101-64x4d-FPN_s1x.yaml.16_41_54.e1sD4Frh/output/test/ke ypoints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Kps</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">12.9</td> <td align="right">1.215</td> <td align="right">30.4</td> <td align="right">0.219 + 0.084</td> <td align="right">55.4</td> <td align="right">-</td> <td align="right">66.2</td> <td align="right">-</td> <td align="right">37730253</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37730253/12_2017_baselines/keypoint_rcnn_X-101-32x8d-FPN_1x.yaml.16_34_24.3G9OcQuR/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminiv al/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37730253/12_2017_baselines/keypoint_rcnn_X-101-32x8d-FPN_1x.yaml.16_34_24.3G9OcQuR/output/test/keypoints_coco_2014_minival/ge neralized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37730253/12_2017_baselines/keypoint_rcnn_X-101-32x8d-FPN_1x.yaml.16_34_24.3G9OcQuR/output/test/keypo ints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Kps</td> <td align="left">s1x</td> <td align="right">2</td> <td align="right">12.9</td> <td align="right">1.214</td> <td align="right">43.8</td> <td align="right">0.218 + 0.071</td> <td align="right">55.9</td> <td align="right">-</td> <td align="right">67.0</td> <td align="right">-</td> <td align="right">37731010</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37731010/12_2017_baselines/keypoint_rcnn_X-101-32x8d-FPN_s1x.yaml.16_39_51.xt1oMzRk/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusmini val/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37731010/12_2017_baselines/keypoint_rcnn_X-101-32x8d-FPN_s1x.yaml.16_39_51.xt1oMzRk/output/test/keypoints_coco_2014_minival/ generalized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37731010/12_2017_baselines/keypoint_rcnn_X-101-32x8d-FPN_s1x.yaml.16_39_51.xt1oMzRk/output/test/ke ypoints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr>  </tbody></table>

Notes:

Metrics are for the person category only.
Each row uses precomputed RPN proposals from the corresponding table row above that uses the same backbone.
Inference time excludes proposal generation.

End-to-End Keypoint-Only Mask R-CNN Baselines

<table><tbody>    <th valign="bottom">        backbone        </th> <th valign="bottom">type</th> <th valign="bottom">lr schd</th> <th valign="bottom">im/ gpu</th> <th valign="bottom">train mem (GB)</th> <th valign="bottom">train time (s/iter)</th> <th valign="bottom">train time total (hr)</th> <th valign="bottom">inference time (s/im)</th> <th valign="bottom">box AP</th> <th valign="bottom">mask AP</th> <th valign="bottom">kp AP</th> <th valign="bottom">prop. AR</th> <th valign="bottom">model id</th> <th valign="bottom">download links</th>  <tr> <td align="left">R-50-FPN</td> <td align="left">Kps</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">9.0</td> <td align="right">0.832</td> <td align="right">20.8</td> <td align="right">0.097 + 0.092</td> <td align="right">53.6</td> <td align="right">-</td> <td align="right">64.2</td> <td align="right">-</td> <td align="right">37697547</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37697547/12_2017_baselines/e2e_keypoint_rcnn_R-50-FPN_1x.yaml.08_42_54.kdzV35ao/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37697547/12_2017_baselines/e2e_keypoint_rcnn_R-50-FPN_1x.yaml.08_42_54.kdzV35ao/output/test/keypoints_coco_2014_minival/generalized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37697547/12_2017_baselines/e2e_keypoint_rcnn_R-50-FPN_1x.yaml.08_42_54.kdzV35ao/output/test/keypoints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">R-50-FPN</td> <td align="left">Kps</td> <td align="left">s1x</td> <td align="right">2</td> <td align="right">9.0</td> <td align="right">0.828</td> <td align="right">29.9</td> <td align="right">0.096 + 0.089</td> <td align="right">54.3</td> <td align="right">-</td> <td align="right">65.4</td> <td align="right">-</td> <td align="right">37697714</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37697714/12_2017_baselines/e2e_keypoint_rcnn_R-50-FPN_s1x.yaml.08_44_03.qrQ0ph6M/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37697714/12_2017_baselines/e2e_keypoint_rcnn_R-50-FPN_s1x.yaml.08_44_03.qrQ0ph6M/output/test/keypoints_coco_2014_minival/generalized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37697714/12_2017_baselines/e2e_keypoint_rcnn_R-50-FPN_s1x.yaml.08_44_03.qrQ0ph6M/output/test/keypoints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Kps</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">10.6</td> <td align="right">0.923</td> <td align="right">23.1</td> <td align="right">0.124 + 0.084</td> <td align="right">54.5</td> <td align="right">-</td> <td align="right">64.8</td> <td align="right">-</td> <td align="right">37697946</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37697946/12_2017_baselines/e2e_keypoint_rcnn_R-101-FPN_1x.yaml.08_45_06.Y14KqbST/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37697946/12_2017_baselines/e2e_keypoint_rcnn_R-101-FPN_1x.yaml.08_45_06.Y14KqbST/output/test/keypoints_coco_2014_minival/generalized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37697946/12_2017_baselines/e2e_keypoint_rcnn_R-101-FPN_1x.yaml.08_45_06.Y14KqbST/output/test/keypoints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">R-101-FPN</td> <td align="left">Kps</td> <td align="left">s1x</td> <td align="right">2</td> <td align="right">10.6</td> <td align="right">0.921</td> <td align="right">33.3</td> <td align="right">0.123 + 0.083</td> <td align="right">55.3</td> <td align="right">-</td> <td align="right">65.8</td> <td align="right">-</td> <td align="right">37698009</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37698009/12_2017_baselines/e2e_keypoint_rcnn_R-101-FPN_s1x.yaml.08_45_57.YkrJgP6O/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37698009/12_2017_baselines/e2e_keypoint_rcnn_R-101-FPN_s1x.yaml.08_45_57.YkrJgP6O/output/test/keypoints_coco_2014_minival/generalized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37698009/12_2017_baselines/e2e_keypoint_rcnn_R-101-FPN_s1x.yaml.08_45_57.YkrJgP6O/output/test/keypoints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Kps</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">14.1</td> <td align="right">1.655</td> <td align="right">41.4</td> <td align="right">0.302 + 0.079</td> <td align="right">56.3</td> <td align="right">-</td> <td align="right">66.0</td> <td align="right">-</td> <td align="right">37732355</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37732355/12_2017_baselines/e2e_keypoint_rcnn_X-101-64x4d-FPN_1x.yaml.16_56_16.yv4t4W8N/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37732355/12_2017_baselines/e2e_keypoint_rcnn_X-101-64x4d-FPN_1x.yaml.16_56_16.yv4t4W8N/output/test/keypoints_coco_2014_minival/generalized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37732355/12_2017_baselines/e2e_keypoint_rcnn_X-101-64x4d-FPN_1x.yaml.16_56_16.yv4t4W8N/output/test/keypoints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">X-101-64x4d-FPN</td> <td align="left">Kps</td> <td align="left">s1x</td> <td align="right">2</td> <td align="right">14.1</td> <td align="right">1.731</td> <td align="right">62.5</td> <td align="right">0.322 + 0.074</td> <td align="right">56.9</td> <td align="right">-</td> <td align="right">66.8</td> <td align="right">-</td> <td align="right">37732415</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37732415/12_2017_baselines/e2e_keypoint_rcnn_X-101-64x4d-FPN_s1x.yaml.16_57_48.Spqtq3Sf/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37732415/12_2017_baselines/e2e_keypoint_rcnn_X-101-64x4d-FPN_s1x.yaml.16_57_48.Spqtq3Sf/output/test/keypoints_coco_2014_minival/generalized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37732415/12_2017_baselines/e2e_keypoint_rcnn_X-101-64x4d-FPN_s1x.yaml.16_57_48.Spqtq3Sf/output/test/keypoints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Kps</td> <td align="left">1x</td> <td align="right">2</td> <td align="right">14.2</td> <td align="right">1.410</td> <td align="right">35.3</td> <td align="right">0.235 + 0.080</td> <td align="right">56.0</td> <td align="right">-</td> <td align="right">66.0</td> <td align="right">-</td> <td align="right">37792158</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37792158/12_2017_baselines/e2e_keypoint_rcnn_X-101-32x8d-FPN_1x.yaml.16_54_16.LgZeo40k/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37792158/12_2017_baselines/e2e_keypoint_rcnn_X-101-32x8d-FPN_1x.yaml.16_54_16.LgZeo40k/output/test/keypoints_coco_2014_minival/generalized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37792158/12_2017_baselines/e2e_keypoint_rcnn_X-101-32x8d-FPN_1x.yaml.16_54_16.LgZeo40k/output/test/keypoints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr> <tr> <td align="left">X-101-32x8d-FPN</td> <td align="left">Kps</td> <td align="left">s1x</td> <td align="right">2</td> <td align="right">14.2</td> <td align="right">1.408</td> <td align="right">50.8</td> <td align="right">0.236 + 0.075</td> <td align="right">56.9</td> <td align="right">-</td> <td align="right">67.0</td> <td align="right">-</td> <td align="right">37732318</td> <td align="left"><a href="https://dl.fbaipublicfiles.com/detectron/37732318/12_2017_baselines/e2e_keypoint_rcnn_X-101-32x8d-FPN_s1x.yaml.16_55_09.Lx8H5JVu/output/train/keypoints_coco_2014_train%3Akeypoints_coco_2014_valminusminival/generalized_rcnn/model_final.pkl">model</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37732318/12_2017_baselines/e2e_keypoint_rcnn_X-101-32x8d-FPN_s1x.yaml.16_55_09.Lx8H5JVu/output/test/keypoints_coco_2014_minival/generalized_rcnn/bbox_keypoints_coco_2014_minival_results.json">boxes</a> | <a href="https://dl.fbaipublicfiles.com/detectron/37732318/12_2017_baselines/e2e_keypoint_rcnn_X-101-32x8d-FPN_s1x.yaml.16_55_09.Lx8H5JVu/output/test/keypoints_coco_2014_minival/generalized_rcnn/keypoints_keypoints_coco_2014_minival_results.json">kps</a></td> </tr>  </tbody></table>

Notes:

Metrics are for the person category only.
For these models, RPN and the detector are trained jointly and end-to-end.
Inference time is fully image-to-detections, including proposal generation.