tests

karinazad · karinazad · commit 1b1e23727043 · 2025-03-21T11:34:34.000-04:00
diff --git a/notebooks/04-ume-multimodal-embeddings.ipynb b/notebooks/04-ume-multimodal-embeddings.ipynb
@@ -11,15 +11,51 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 1,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/Users/zadorozk/Desktop/code/lobster/.venv/lib/python3.12/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Supported modalities: ['SMILES', 'amino_acid', 'nucleotide', '3d_coordinates']\n",
+      "Vocab size: 1536\n"
+     ]
+    }
+   ],
    "source": [
     "from lobster.model import Ume\n",
     "\n",
-    "checkpoint = \"<your checkpoint>\"\n",
+    "ume = Ume()\n",
     "\n",
-    "ume = Ume(checkpoint, freeze=True)"
+    "print(f\"Supported modalities: {ume.modalities}\")\n",
+    "print(f\"Vocab size: {len(ume.get_vocab())}\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Load from checkpoint"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "checkpoint = \"ume-checkpoints/last.ckpt\" # Replace with the correct checkpoint path\n",
+    "\n",
+    "ume = Ume.load_from_checkpoint(checkpoint)"
    ]
   },
   {
@@ -208,8 +244,22 @@
   }
  ],
  "metadata": {
+  "kernelspec": {
+   "display_name": ".venv",
+   "language": "python",
+   "name": "python3"
+  },
   "language_info": {
-   "name": "python"
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.9"
   }
  },
  "nbformat": 4,
diff --git a/tests/lobster/model/test__ume.py b/tests/lobster/model/test__ume.py
@@ -24,56 +24,12 @@ def dna_examples():
 class TestUme:
     """Tests for the Universal Molecular Encoder (Ume) class"""
 
-    @patch("lobster.model._ume.FlexBERT.load_from_checkpoint")
-    def test_frozen_parameters(self, mock_load_checkpoint):
-        """Test that parameters are frozen when freeze=True"""
-        # Create mock model
-        mock_model = MagicMock()
-        mock_params = [torch.nn.Parameter(torch.randn(10, 10))]
-        mock_model.model.parameters.return_value = mock_params
-        mock_load_checkpoint.return_value = mock_model
-
-        # Create Ume with frozen parameters
-        ume = Ume("dummy_checkpoint.ckpt", freeze=True)
-
-        # Verify that load_from_checkpoint was called
-        mock_load_checkpoint.assert_called_once_with("dummy_checkpoint.ckpt")
-
-        # Verify that parameters were accessed
-        mock_model.model.parameters.assert_called()
-
-        # Verify freeze attribute is True
-        assert ume.freeze is True
-
-    @patch("lobster.model._ume.FlexBERT.load_from_checkpoint")
-    def test_unfrozen_parameters(self, mock_load_checkpoint):
-        """Test that parameters are not frozen when freeze=False"""
-        # Create mock model
-        mock_model = MagicMock()
-        mock_params = [torch.nn.Parameter(torch.randn(10, 10))]
-        mock_model.model.parameters.return_value = mock_params
-        mock_load_checkpoint.return_value = mock_model
-
-        # Create Ume without freezing parameters
-        ume = Ume("dummy_checkpoint.ckpt", freeze=False)
-
-        # Verify freeze attribute is False
-        assert ume.freeze is False
-
-        # Verify that parameters were not frozen
-        mock_model.model.parameters.assert_not_called()
-
-    @patch("lobster.model._ume.FlexBERT.load_from_checkpoint")
     @patch("lobster.model._ume.UmeSmilesTokenizerFast")
     @patch("lobster.model._ume.UmeAminoAcidTokenizerFast")
     @patch("lobster.model._ume.UmeNucleotideTokenizerFast")
     @patch("lobster.model._ume.UmeLatentGenerator3DCoordTokenizerFast")
-    def test_tokenizer_initialization(self, mock_coord, mock_nucleotide, mock_amino, mock_smiles, mock_load_checkpoint):
+    def test_tokenizer_initialization(self, mock_coord, mock_nucleotide, mock_amino, mock_smiles):
         """Test that tokenizers are initialized during __init__"""
-        # Set up model mock
-        mock_model = MagicMock()
-        mock_load_checkpoint.return_value = mock_model
-
         # Setup tokenizer mocks
         mock_smiles_instance = MagicMock()
         mock_amino_instance = MagicMock()
@@ -86,74 +42,44 @@ def test_tokenizer_initialization(self, mock_coord, mock_nucleotide, mock_amino,
         mock_coord.return_value = mock_coord_instance
 
         # Create Ume instance
-        ume = Ume("dummy_checkpoint.ckpt")
+        ume = Ume()
 
-        # Verify each tokenizer was instantiated exactly once
         mock_smiles.assert_called_once()
         mock_amino.assert_called_once()
         mock_nucleotide.assert_called_once()
         mock_coord.assert_called_once()
 
-        # Verify tokenizers were stored in the dictionary
         assert ume.tokenizers[Modality.SMILES] == mock_smiles_instance
         assert ume.tokenizers[Modality.AMINO_ACID] == mock_amino_instance
         assert ume.tokenizers[Modality.NUCLEOTIDE] == mock_nucleotide_instance
         assert ume.tokenizers[Modality.COORDINATES_3D] == mock_coord_instance
 
     @patch("lobster.model._ume.FlexBERT.load_from_checkpoint")
-    @patch("lobster.model._ume.UmeSmilesTokenizerFast")
-    @patch("lobster.model._ume.UmeAminoAcidTokenizerFast")
-    @patch("lobster.model._ume.UmeNucleotideTokenizerFast")
-    @patch("lobster.model._ume.UmeLatentGenerator3DCoordTokenizerFast")
-    def test_get_tokenizer(self, mock_coord, mock_nucleotide, mock_amino, mock_smiles, mock_load_checkpoint):
+    def test_get_tokenizer(self, mock_load_checkpoint):
         """Test getting tokenizers for different modalities"""
-        # Set up model mock
-        mock_model = MagicMock()
-        mock_load_checkpoint.return_value = mock_model
+        ume = Ume()
 
-        # Setup tokenizer mocks
-        mock_smiles_instance = MagicMock()
-        mock_amino_instance = MagicMock()
-        mock_nucleotide_instance = MagicMock()
-        mock_coord_instance = MagicMock()
+        mock_tokenizers = {}
+        for modality in Modality:
+            mock_tokenizers[modality] = MagicMock()
 
-        mock_smiles.return_value = mock_smiles_instance
-        mock_amino.return_value = mock_amino_instance
-        mock_nucleotide.return_value = mock_nucleotide_instance
-        mock_coord.return_value = mock_coord_instance
+        ume.tokenizers = mock_tokenizers
 
-        # Create Ume instance
-        ume = Ume("dummy_checkpoint.ckpt")
-
-        # Test each modality
         modality_map = {
-            "SMILES": mock_smiles_instance,
-            "amino_acid": mock_amino_instance,
-            "nucleotide": mock_nucleotide_instance,
-            "3d_coordinates": mock_coord_instance,
+            "SMILES": Modality.SMILES,
+            "amino_acid": Modality.AMINO_ACID,
+            "nucleotide": Modality.NUCLEOTIDE,
+            "3d_coordinates": Modality.COORDINATES_3D,
         }
 
-        for modality, mock_instance in modality_map.items():
-            # Get tokenizer - this should now return the pre-instantiated tokenizer
-            tokenizer = ume.get_tokenizer(["test"], modality)
+        for modality_str, modality_enum in modality_map.items():
+            tokenizer = ume.get_tokenizer(modality_str)
 
-            # Verify the returned tokenizer is our mock instance
-            assert tokenizer == mock_instance
-
-            # Verify that no new tokenizer is instantiated (count should remain at 1)
-            if modality == "SMILES":
-                assert mock_smiles.call_count == 1
-            elif modality == "amino_acid":
-                assert mock_amino.call_count == 1
-            elif modality == "nucleotide":
-                assert mock_nucleotide.call_count == 1
-            elif modality == "3d_coordinates":
-                assert mock_coord.call_count == 1
+            assert tokenizer == mock_tokenizers[modality_enum]
 
     @patch("lobster.model._ume.FlexBERT.load_from_checkpoint")
     def test_get_embeddings_basic(self, mock_load_checkpoint, smiles_examples, protein_examples, dna_examples):
         """Test basic embedding functionality for all modalities"""
-        # Mock model with controlled output
         mock_model = MagicMock()
         mock_model.max_length = 512
         mock_model.device = torch.device("cpu")
@@ -169,7 +95,7 @@ def mock_tokens_to_latents(**kwargs):
         mock_load_checkpoint.return_value = mock_model
 
         # Create Ume instance
-        ume = Ume("dummy_checkpoint.ckpt")
+        ume = Ume.load_from_checkpoint("dummy_checkpoint.ckpt")
 
         # Test for each modality
         modalities = ["SMILES", "amino_acid", "nucleotide"]
@@ -193,6 +119,15 @@ def mock_tokens_to_latents(**kwargs):
                 embeddings = ume.get_embeddings(test_inputs[modality], modality)
                 assert embeddings.shape == (batch_size, 768)
 
+                # Verify tokenizer was called with the correct inputs
+                mock_tokenizer.assert_called_with(
+                    test_inputs[modality],
+                    return_tensors="pt",
+                    padding="max_length",
+                    truncation=True,
+                    max_length=mock_model.max_length,
+                )
+
                 # Test token-level embeddings
                 token_embeddings = ume.get_embeddings(test_inputs[modality], modality, aggregate=False)
                 assert token_embeddings.shape == (batch_size, seq_len, 768)
diff --git a/tests/lobster/tokenization/test__ume_tokenizers.py b/tests/lobster/tokenization/test__ume_tokenizers.py
@@ -14,9 +14,8 @@ def test_add_reserved_tokens():
             "<eos>",
             "<unk>",
             "<pad>",
-            "<reserved_special_token_0>",
-            "<reserved_special_token_1>",
-            "<reserved_special_token_2>",
+            "<extra_special_token_0>",
+            "<extra_special_token_1>",
         ],
         "amino_acid_tokenizer": ["A"],  # 1 amino acid tokens
         "smiles_tokenizer": ["C", "O"],  # 2 SMILES tokens
@@ -31,20 +30,18 @@ def test_add_reserved_tokens():
         "<eos>",
         "<unk>",
         "<pad>",
-        "<reserved_special_token_0>",  # reserved from special tokens
-        "<reserved_special_token_1>",  # reserved from special tokens
-        "<reserved_special_token_2>",  # reserved from special tokens
+        "<extra_special_token_0>",  # reserved from special tokens
+        "<extra_special_token_1>",  # reserved from special tokens
         "A",
     ]
     assert result["smiles_tokenizer"] == [
         "<cls>",
         "<eos>",
         "<unk>",
         "<pad>",
-        "<reserved_special_token_0>",  # reserved from special tokens
-        "<reserved_special_token_1>",  # reserved from special tokens
-        "<reserved_special_token_2>",  # reserved from special tokens
-        "<reserved_special_token_3>",  # reserved for amino acids
+        "<extra_special_token_0>",  # reserved from special tokens
+        "<extra_special_token_1>",  # reserved from special tokens
+        "<reserved_for_amino_acids_special_token_2>",  # reserved for amino acids
         "C",
         "O",
     ]
@@ -53,12 +50,11 @@ def test_add_reserved_tokens():
         "<eos>",
         "<unk>",
         "<pad>",
-        "<reserved_special_token_0>",  # reserved from special tokens
-        "<reserved_special_token_1>",  # reserved from special tokens
-        "<reserved_special_token_2>",  # reserved from special tokens
-        "<reserved_special_token_3>",  # reserved for amino acids
-        "<reserved_special_token_4>",  # reserved for SMILES
-        "<reserved_special_token_5>",  # reserved for SMILES
+        "<extra_special_token_0>",  # reserved from special tokens
+        "<extra_special_token_1>",  # reserved from special tokens
+        "<reserved_for_amino_acids_special_token_2>",  # reserved from special tokens
+        "<reserved_for_smiles_special_token_3>",  # reserved for SMILES
+        "<reserved_for_smiles_special_token_4>",  # reserved for SMILES
         "A",
         "C",
         "G",
@@ -68,15 +64,14 @@ def test_add_reserved_tokens():
         "<eos>",
         "<unk>",
         "<pad>",
-        "<reserved_special_token_0>",  # reserved from special tokens
-        "<reserved_special_token_1>",  # reserved from special tokens
-        "<reserved_special_token_2>",  # reserved from special tokens
-        "<reserved_special_token_3>",  # reserved for amino acids
-        "<reserved_special_token_4>",  # reserved for SMILES
-        "<reserved_special_token_5>",  # reserved for SMILES
-        "<reserved_special_token_6>",  # reserved for nucleotides
-        "<reserved_special_token_7>",  # reserved for nucleotides
-        "<reserved_special_token_8>",  # reserved for nucleotides
+        "<extra_special_token_0>",  # reserved from special tokens
+        "<extra_special_token_1>",  # reserved from special tokens
+        "<reserved_for_amino_acids_special_token_2>",  # reserved from special tokens
+        "<reserved_for_smiles_special_token_3>",  # reserved for SMILES
+        "<reserved_for_smiles_special_token_4>",  # reserved for SMILES
+        "<reserved_for_nucleotides_special_token_5>",  # reserved for nucleotides
+        "<reserved_for_nucleotides_special_token_6>",  # reserved for nucleotides
+        "<reserved_for_nucleotides_special_token_7>",  # reserved for nucleotides
         "X1",
         "Y1",
         "Z1",
@@ -87,22 +82,22 @@ def test_add_reserved_tokens():
 def test_ume_aminio_acid_tokenizer():
     tokenizer = UmeAminoAcidTokenizerFast()
     assert tokenizer.tokenize("VYF") == ["V", "Y", "F"]
-    assert tokenizer.encode("VYF", padding="do_not_pad", add_special_tokens=True) == [0, 23, 35, 34, 2]
+    assert tokenizer.encode("VYF", padding="do_not_pad", add_special_tokens=True) == [0, 28, 40, 39, 2]
 
 
 def test_ume_smiles_tokenizer():
     tokenizer = UmeSmilesTokenizerFast()
     assert tokenizer.tokenize("CCO") == ["C", "C", "O"]
-    assert tokenizer.encode("CCO", padding="do_not_pad", add_special_tokens=True) == [0, 46, 46, 49, 2]
+    assert tokenizer.encode("CCO", padding="do_not_pad", add_special_tokens=True) == [0, 52, 52, 56, 2]
 
 
 def test_ume_nucleotide_tokenizer():
     tokenizer = UmeNucleotideTokenizerFast()
     assert tokenizer.tokenize("ACGT") == ["A", "C", "G", "T"]
-    assert tokenizer.encode("ACGT", padding="do_not_pad", add_special_tokens=True) == [0, 623, 624, 625, 626, 2]
+    assert tokenizer.encode("ACGT", padding="do_not_pad", add_special_tokens=True) == [0, 1272, 1273, 1274, 1275, 2]
 
 
 def test_ume_latent_generator_tokenizer():
     tokenizer = UmeLatentGenerator3DCoordTokenizerFast()
     assert tokenizer.tokenize("gd fh ds") == ["gd", "fh", "ds"]
-    assert tokenizer.encode("gd fh ds", padding="do_not_pad", add_special_tokens=True) == [0, 816, 794, 753, 2]
+    assert tokenizer.encode("gd fh ds", padding="do_not_pad", add_special_tokens=True) == [0, 1465, 1443, 1402, 2]