rowanz
diff --git a/‎downstream/vcr/data/colormap.py
+84 b/‎downstream/vcr/data/colormap.py
+84
diff --git a/‎downstream/vcr/data/draw_bbox.py
+112 b/‎downstream/vcr/data/draw_bbox.py
+112
diff --git a/‎downstream/vcr/data/draw_bbox.sh
+24 b/‎downstream/vcr/data/draw_bbox.sh
+24
diff --git a/‎downstream/vcr/data/draw_segms.py
+115 b/‎downstream/vcr/data/draw_segms.py
+115
diff --git a/‎downstream/vcr/data/draw_segms.sh
+24 b/‎downstream/vcr/data/draw_segms.sh
+24
@@ -0,0 +1,84 @@
+# Copyright (c) 2017-present, Facebook, Inc.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+##############################################################################
+
+"""An awesome colormap for really neat visualizations."""
+
+from __future__ import absolute_import
+from __future__ import division
+from __future__ import print_function
+from __future__ import unicode_literals
+
+import numpy as np
+
+color_list = np.array(
+    [
+        [255, 0, 0],
+        [0, 255, 0],
+        [236, 176, 31],
+        [0, 0, 255],
+        [255, 0, 255],
+        [170, 0, 255],
+        [255, 255, 0],
+        [170, 84, 0],
+        [84, 84, 0],
+        [255, 127, 0],
+        [76, 189, 237],
+        [170, 0, 127],
+        [125, 46, 141],
+        [190, 190, 0],
+        [161, 19, 46],
+        [0, 170, 127],
+        [255, 170, 127],
+        [0, 84, 127],
+        [255, 84, 127],
+        [170, 170, 255],
+        [170, 170, 127],
+        [84, 0, 0],
+        [0, 170, 0],
+        [0, 255, 255],
+        [255, 170, 255],
+        [84, 0, 127],
+        [255, 255, 127],
+        [170, 0, 0],
+        [84, 255, 127],
+        [0, 0, 127],
+        [170, 84, 127],
+        [170, 84, 255],
+        [170, 170, 0],
+        [216, 82, 24],
+        [0, 84, 0],
+        [84, 0, 255],
+        [255, 0, 127],
+        [127, 0, 0],
+        [170, 255, 127],
+        [170, 255, 255],
+        [0, 127, 0],
+        [0, 0, 170],
+        [84, 170, 127],
+        [0, 113, 188],
+        [118, 171, 47],
+        [84, 84, 127],
+        [0, 42, 0],
+        [84, 84, 255],
+        [84, 170, 0],
+        [84, 170, 255],
+        [170, 255, 0],
+        [0, 0, 212],
+        [0, 212, 0],
+        [0, 0, 84],
+        [0, 84, 255],
+        [145, 145, 145]
+    ]
+)
@@ -0,0 +1,112 @@
+import gc
+import json
+import argparse
+from tqdm import tqdm
+from downstream.vcr.data.colormap import color_list
+from PIL import Image
+import PIL.ImageDraw as ImageDraw
+
+TRANSPARENCY = .15
+OPACITY = int(255 * TRANSPARENCY)
+
+
+parser = argparse.ArgumentParser(description='SCRAPE!')
+parser.add_argument(
+    '-fold',
+    dest='fold',
+    default=0,
+    type=int,
+    help='which fold we are on'
+)
+parser.add_argument(
+    '-num_folds',
+    dest='num_folds',
+    default=1,
+    type=int,
+    help='Number of folds (corresponding to both the number of training files and the number of testing files)',
+)
+parser.add_argument(
+    '-split',
+    dest='split',
+    default='train',
+    type=str,
+)
+parser.add_argument(
+    '-mode',
+    dest='mode',
+    default='answer',
+    type=str,
+)
+args = parser.parse_args()
+
+
+split = args.split
+mode = args.mode
+save_dir = f'bbox/{split}/{mode}'
+
+VCR_DIRECTORY = ''
+items = [json.loads(s) for s in open(f'{VCR_DIRECTORY}/annotation/{split}.jsonl', 'r')]
+img_dir = f'{VCR_DIRECTORY}/vcr1images'
+
+counter = 0
+for i, item in enumerate(tqdm(items)):
+    if i % args.num_folds != args.fold:
+        continue
+    counter += 1
+
+    mentions = []
+    objects = []
+
+    for word in item["question"]:
+        if isinstance(word, list):
+            mentions.extend([w for w in word if item["objects"][w] == "person"])
+            objects.extend([w for w in word if item["objects"][w] != "person"])
+
+    for ans in item["answer_choices"]:
+        for word in ans:
+            if isinstance(word, list):
+                mentions.extend([w for w in word if item["objects"][w] == "person"])
+                objects.extend([w for w in word if item["objects"][w] != "person"])
+
+    if mode == 'rationale':
+        for rat in item["rationale_choices"]:
+            for word in rat:
+                if isinstance(word, list):
+                    mentions.extend([w for w in word if item["objects"][w] == "person"])
+                    objects.extend([w for w in word if item["objects"][w] != "person"])
+
+    mentions = list(set(mentions))
+    objects = list(set(objects))
+
+    image = Image.open(f'{img_dir}/{item["img_fn"]}').convert("RGBA")
+    meta = json.load(open(f'{img_dir}/{item["metadata_fn"]}', 'r'))
+    boxes = meta['boxes']
+
+    for i, box in enumerate(boxes):
+        if i in mentions:
+            color = color_list[:-1][i % (len(color_list) - 1)]
+        elif i in objects:
+            color = color_list[-1]
+        else:
+            continue
+
+        box = [int(x) for x in box[:4]]
+        x1, y1, x2, y2 = box
+        shape = [(x1, y1), (x2, y1), (x2, y2), (x1, y2), (x1, y1)]
+
+        overlay = Image.new('RGBA', image.size, tuple(color) + (0,))
+        draw = ImageDraw.Draw(overlay)
+        draw.polygon(shape, fill=tuple(color) + (OPACITY,))
+
+        draw = ImageDraw.Draw(image)
+        draw.line(shape, fill=tuple(color), width=7)
+
+        image = Image.alpha_composite(image, overlay)
+
+    image = image.convert("RGB")
+    image.save(f'{save_dir}/{item["annot_id"]}.jpg')
+
+    gc.collect()
+
+print(f'writing {counter} examples')
+
@@ -0,0 +1,24 @@
+#!/usr/bin/env bash
+
+export NUM_FOLDS=64
+
+mkdir -p bbox
+mkdir -p bbox/train
+mkdir -p bbox/train/answer
+mkdir -p bbox/train/rationale
+mkdir -p bbox/val
+mkdir -p bbox/val/answer
+mkdir -p bbox/val/rationale
+
+# Training
+mkdir -p bbox_logs
+mkdir -p bbox_logs/answer
+mkdir -p bbox_logs/rationale
+
+parallel -j $(nproc --all) --will-cite "python draw_bbox.py -fold {1} -num_folds ${NUM_FOLDS} -split train -mode answer > bbox_logs/answer/trainlog{1}.txt" ::: $(seq 0 $((${NUM_FOLDS}-1)))
+
+parallel -j $(nproc --all) --will-cite "python draw_bbox.py -fold {1} -num_folds ${NUM_FOLDS} -split train -mode rationale > bbox_logs/rationale/trainlog{1}.txt" ::: $(seq 0 $((${NUM_FOLDS}-1)))
+
+parallel -j $(nproc --all) --will-cite "python draw_bbox.py -fold {1} -num_folds ${NUM_FOLDS} -split val -mode answer > bbox_logs/answer/vallog{1}.txt" ::: $(seq 0 $((${NUM_FOLDS}-1)))
+
+parallel -j $(nproc --all) --will-cite "python draw_bbox.py -fold {1} -num_folds ${NUM_FOLDS} -split val -mode rationale > bbox_logs/rationale/vallog{1}.txt" ::: $(seq 0 $((${NUM_FOLDS}-1)))
@@ -0,0 +1,115 @@
+import gc
+import json
+import argparse
+from tqdm import tqdm
+from downstream.vcr.data.colormap import color_list
+from PIL import Image
+import PIL.ImageDraw as ImageDraw
+
+TRANSPARENCY = .15
+OPACITY = int(255 * TRANSPARENCY)
+
+
+parser = argparse.ArgumentParser(description='SCRAPE!')
+parser.add_argument(
+    '-fold',
+    dest='fold',
+    default=0,
+    type=int,
+    help='which fold we are on'
+)
+parser.add_argument(
+    '-num_folds',
+    dest='num_folds',
+    default=1,
+    type=int,
+    help='Number of folds (corresponding to both the number of training files and the number of testing files)',
+)
+parser.add_argument(
+    '-split',
+    dest='split',
+    default='train',
+    type=str,
+)
+parser.add_argument(
+    '-mode',
+    dest='mode',
+    default='answer',
+    type=str,
+)
+args = parser.parse_args()
+
+
+split = args.split
+mode = args.mode
+save_dir = f'segm/{split}/{mode}'
+
+VCR_DIRECTORY = ''
+items = [json.loads(s) for s in open(f'{VCR_DIRECTORY}/annotation/{split}.jsonl', 'r')]
+img_dir = f'{VCR_DIRECTORY}/vcr1images'
+
+counter = 0
+for i, item in enumerate(tqdm(items)):
+    if i % args.num_folds != args.fold:
+        continue
+    counter += 1
+
+    mentions = []
+    objects = []
+
+    for word in item["question"]:
+        if isinstance(word, list):
+            mentions.extend([w for w in word if item["objects"][w] == "person"])
+            objects.extend([w for w in word if item["objects"][w] != "person"])
+
+    for ans in item["answer_choices"]:
+        for word in ans:
+            if isinstance(word, list):
+                mentions.extend([w for w in word if item["objects"][w] == "person"])
+                objects.extend([w for w in word if item["objects"][w] != "person"])
+
+    if mode == 'rationale':
+        for rat in item["rationale_choices"]:
+            for word in rat:
+                if isinstance(word, list):
+                    mentions.extend([w for w in word if item["objects"][w] == "person"])
+                    objects.extend([w for w in word if item["objects"][w] != "person"])
+
+    mentions = list(set(mentions))
+    objects = list(set(objects))
+
+    image = Image.open(f'{img_dir}/{item["img_fn"]}').convert("RGBA")
+    meta = json.load(open(f'{img_dir}/{item["metadata_fn"]}', 'r'))
+    segms = meta['segms']
+
+    for i, segm in enumerate(segms):
+        if i in mentions:
+            color = color_list[:-1][i % (len(color_list) - 1)]
+        elif i in objects:
+            color = color_list[-1]
+        else:
+            continue
+
+        overlay = Image.new('RGBA', image.size, tuple(color) + (0,))
+        draw = ImageDraw.Draw(overlay)
+        for segm_part in segm:
+            if len(segm_part) < 2:
+                segm_part += tuple([segm_part[0]])
+
+            segm_part = tuple(tuple(x) for x in segm_part)
+            draw.polygon(segm_part, fill=tuple(color) + (OPACITY,))
+
+        draw = ImageDraw.Draw(image)
+        for segm_part in segm:
+            segm_part = tuple(tuple(x) for x in segm_part)
+            segm_part += tuple([segm_part[0]])
+            draw.line(segm_part, fill=tuple(color), width=7)
+        image = Image.alpha_composite(image, overlay)
+
+    image = image.convert("RGB")
+    image.save(f'{save_dir}/{item["annot_id"]}.jpg')
+
+    gc.collect()
+
+print(f'writing {counter} examples')
+
@@ -0,0 +1,24 @@
+#!/usr/bin/env bash
+
+export NUM_FOLDS=64
+
+mkdir -p segm
+mkdir -p segm/train
+mkdir -p segm/train/answer
+mkdir -p segm/train/rationale
+mkdir -p segm/val
+mkdir -p segm/val/answer
+mkdir -p segm/val/rationale
+
+# Training
+mkdir -p segm_logs
+mkdir -p segm_logs/answer
+mkdir -p segm_logs/rationale
+
+parallel -j $(nproc --all) --will-cite "python draw_segms.py -fold {1} -num_folds ${NUM_FOLDS} -split train -mode answer > segm_logs/answer/trainlog{1}.txt" ::: $(seq 0 $((${NUM_FOLDS}-1)))
+
+parallel -j $(nproc --all) --will-cite "python draw_segms.py -fold {1} -num_folds ${NUM_FOLDS} -split train -mode rationale > segm_logs/rationale/trainlog{1}.txt" ::: $(seq 0 $((${NUM_FOLDS}-1)))
+
+parallel -j $(nproc --all) --will-cite "python draw_segms.py -fold {1} -num_folds ${NUM_FOLDS} -split val -mode answer > segm_logs/answer/vallog{1}.txt" ::: $(seq 0 $((${NUM_FOLDS}-1)))
+
+parallel -j $(nproc --all) --will-cite "python draw_segms.py -fold {1} -num_folds ${NUM_FOLDS} -split val -mode rationale > segm_logs/rationale/vallog{1}.txt" ::: $(seq 0 $((${NUM_FOLDS}-1)))