Support different --max-positions and --tokens-per-sample

Summary: Pull Request resolved: facebookresearch#924 Differential Revision: D16548165 Pulled By: myleott fbshipit-source-id: 49569ece3e54fad7b4f0dfb201ac99123bfdd4f2
LLL-Orleans · Jul 29, 2019 · 33597e5 · 33597e5
1 parent 2fe45f0
commit 33597e5
Show file tree

Hide file tree

Showing 3 changed files with 6 additions and 2 deletions.
diff --git a/fairseq/models/roberta/hub_interface.py b/fairseq/models/roberta/hub_interface.py
@@ -43,6 +43,10 @@ def encode(self, sentence: str, *addl_sentences) -> torch.LongTensor:
     def extract_features(self, tokens: torch.LongTensor, return_all_hiddens=False) -> torch.Tensor:
         if tokens.dim() == 1:
             tokens = tokens.unsqueeze(0)
+        if tokens.size(-1) > self.model.max_positions():
+            raise ValueError('tokens exceeds maximum length: {} > {}'.format(
+                tokens.size(-1), self.model.max_positions()
+            ))
         features, extra = self.model(
             tokens.to(device=self.device),
             features_only=True,

diff --git a/fairseq/models/roberta/model.py b/fairseq/models/roberta/model.py
@@ -75,6 +75,8 @@ def add_args(parser):
                             help='dropout probability after activation in FFN')
         parser.add_argument('--pooler-dropout', type=float, metavar='D',
                             help='dropout probability in the masked_lm pooler layers')
+        parser.add_argument('--max-positions', type=int,
+                            help='number of positional embeddings to learn')
 
     @classmethod
     def build_model(cls, args, task):

diff --git a/fairseq/tasks/masked_lm.py b/fairseq/tasks/masked_lm.py
@@ -178,8 +178,6 @@ def is_beginning_of_word(i):
         )
 
     def build_dataset_for_inference(self, src_tokens, src_lengths, sort=True):
-        if self.args.also_lowercase_words:
-            raise NotImplementedError
         src_dataset = PadDataset(
             TokenBlockDataset(
                 src_tokens,