Handle empty PDF files.

andrewferrier · Sep 6, 2020 · 49ad58d · 49ad58d
1 parent 5a805b7
commit 49ad58d
Showing 1 changed file with 10 additions and 3 deletions.
diff --git a/tests/BaseTestClasses.py b/tests/BaseTestClasses.py
@@ -367,9 +367,16 @@ def getMetadataField(self, pdf_filename, field_name):
                 return None
 
     def getPDFText(self, filename):
-        text = pdfminer.high_level.extract_text(filename)
-        text = text.replace("\t", " ")
-        return text
+        if os.path.exists(filename):
+            try:
+                text = pdfminer.high_level.extract_text(filename)
+            except pdfminer.pdfparser.PDFSyntaxError:
+                return None
+
+            text = text.replace("\t", " ")
+            return text
+        else:
+            return None
 
     def touch(self, fname):
         open(fname, 'w').close()