jmriego · judahrand · Feb 21, 2022 · Feb 21, 2022 · Feb 21, 2022 · Feb 21, 2022
diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
@@ -32,7 +32,7 @@ jobs:
 
       - name: Unit Tests
         run: make unit_test
-        
+
       - name: Approve
         run: echo For security reasons, all pull requests need to be approved first before running Integration tests.
 
@@ -71,3 +71,5 @@ jobs:
          GOOGLE_APPLICATION_CREDENTIALS: ${{ secrets.GOOGLE_APPLICATION_CREDENTIALS }}
          TARGET_BIGQUERY_PROJECT: ${{ secrets.TARGET_BIGQUERY_PROJECT }}
          TARGET_BIGQUERY_SCHEMA: ${{ secrets.TARGET_BIGQUERY_SCHEMA }}_MR${{ github.event.number }}_${{ matrix.python-version }}
+         TARGET_BIGQUERY_GCS_BUCKET: ${{ secrets.TARGET_BIGQUERY_GCS_BUCKET }}
+         TARGET_BIGQUERY_GCS_KEY_PREFIX: ${{ secrets.TARGET_BIGQUERY_GCS_KEY_PREFIX }}
diff --git a/README.md b/README.md
@@ -50,7 +50,9 @@ Full list of options in `config.json`:
 
 | Property                                | Type      | Required?    | Description                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
 | -------------------------------------   | --------- | ------------ | ---------------------------------------------------------------                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |
-| project_id                              | String    | Yes          | BigQuery project                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |
+| project_id                              | String    | Yes          | BigQuery project
+| gcs_bucket                              | String    | Yes          | Google Cloud Storage Bucket to use to stage files                                                             |
 try: 
     job.result() 
 finally: 
     blob.delete() 
 try: 
     job.result() 
 finally: 
     blob.delete() 
+| gcs_key_prefix                          | String    |              | Prefix to use for staged files in Google Cloud Storage                                                        |
 | location                                | String    |              | Region where BigQuery stores your dataset                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
 | default_target_schema                   | String    |              | Name of the schema where the tables will be created. If `schema_mapping` is not defined then every stream sent by the tap is loaded into this schema.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
 | default_target_schema_select_permission | String    |              | Grant USAGE privilege on newly created schemas and grant SELECT privilege on newly created                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |

diff --git a/setup.py b/setup.py
@@ -20,7 +20,7 @@
       install_requires=[
           'pipelinewise-singer-python>=1,<3',
           'google-cloud-bigquery>=2.20.0,<2.35.0',
-          'fastavro>=0.22.8,<=1.4.9'
+          'google-cloud-storage>=2.0.0,<3.0.0',
       ],
       extras_require={
           "test": [

diff --git a/target_bigquery/__init__.py b/target_bigquery/__init__.py
@@ -6,17 +6,14 @@
 import io
 import json
 import logging
-import os
 import sys
 from multiprocessing.pool import ThreadPool as Pool
 
-from tempfile import mkstemp
-from fastavro import writer, parse_schema
 from jsonschema import Draft7Validator, FormatChecker
 from singer import get_logger
 
 from target_bigquery import stream_utils
-from target_bigquery.db_sync import DbSync
+from target_bigquery.db_sync import DbSync, flatten_record
 from target_bigquery.exceptions import (
     RecordValidationException,
     InvalidValidationOperationException
@@ -121,7 +118,21 @@ def persist_lines(config, lines) -> None:
                             "or more) Try removing 'multipleOf' methods from JSON schema.")
                     raise RecordValidationException(f"Record does not pass schema validation. RECORD: {o['record']}")
 
-            primary_key_string = stream_to_sync[stream].record_primary_key_string(o['record'])
+            if config.get('add_metadata_columns') or hard_delete_mapping.get(stream, default_hard_delete):
+                record = stream_utils.add_metadata_values_to_record(o)
+            else:
+                record = stream_utils.remove_metadata_values_from_record(
+                    o, stream_to_sync[stream].stream_schema_message['schema']
+                )
+
+            # Flatten record
+            record = flatten_record(
+                record,
+                stream_to_sync[stream].stream_schema_message['schema'],
+                max_level=stream_to_sync[stream].data_flattening_max_level
+            )
+
+            primary_key_string = stream_to_sync[stream].record_primary_key_string(record)
             if not primary_key_string:
                 primary_key_string = 'RID-{}'.format(total_row_count[stream])
 
@@ -131,10 +142,7 @@ def persist_lines(config, lines) -> None:
                 total_row_count[stream] += 1
 
             # append record
-            if config.get('add_metadata_columns') or hard_delete_mapping.get(stream, default_hard_delete):
-                records_to_load[stream][primary_key_string] = stream_utils.add_metadata_values_to_record(o)
-            else:
-                records_to_load[stream][primary_key_string] = o['record']
+            records_to_load[stream][primary_key_string] = record
 
             flush = False
             if row_count[stream] >= batch_size_rows:
@@ -370,17 +378,8 @@ def load_stream_batch(stream, records_to_load, row_count, db_sync, delete_rows=F
 
 
 def flush_records(stream, records_to_load, row_count, db_sync):
-    parsed_schema = parse_schema(db_sync.avro_schema())
-    csv_fd, csv_file = mkstemp()
-    with open(csv_file, 'wb') as out:
-        writer(out, parsed_schema, db_sync.records_to_avro(records_to_load.values()))
-
     # Seek to the beginning of the file and load
-    with open(csv_file, 'r+b') as f:
-        db_sync.load_avro(f, row_count)
-
-    # Delete temp file
-    os.remove(csv_file)
+    db_sync.load_records(records_to_load.values(), row_count)
 
 
 def main():