hlt-mt
diff --git a/‎config.json
+15-19 b/‎config.json
+15-19
diff --git a/‎data/sample_tok
-5 b/‎data/sample_tok
-5
diff --git a/‎filters/AlignedProportion/AlignedProportion.py
+31-12 b/‎filters/AlignedProportion/AlignedProportion.py
+31-12
diff --git a/‎filters/AlignedSequenceLength/AlignedSequenceLength.py
+29-12 b/‎filters/AlignedSequenceLength/AlignedSequenceLength.py
+29-12
diff --git a/‎filters/BigramAlignedProportion/BigramAlignedProportion.py
+29-12 b/‎filters/BigramAlignedProportion/BigramAlignedProportion.py
+29-12
diff --git a/‎filters/FirstUnalignedWord/FirstUnalignedWord.py
+29-12 b/‎filters/FirstUnalignedWord/FirstUnalignedWord.py
+29-12
diff --git a/‎filters/Lang_Identifier/Lang_Identifier.py
+3-1 b/‎filters/Lang_Identifier/Lang_Identifier.py
+3-1
@@ -1,26 +1,22 @@
 {
 	"options": {
-		"input file1":				"sample_en_it.csv",
-		"input file":				"en_it_1m_with_bgold",
+		"input file":				"sample_en_it.csv",
 
-		"align file1":				"sample_align",
-		"token file1":				"sample_token",
-		"align file":				"en_it_1m_with_bgold.align",
-		"token file":				"en_it_1m_with_bgold.tok",
+		"align file":				"sample_align",
+		"token file":				"sample_token",
 
 		"output folder":			"output",
 		"source language":			"en",
 		"target language":			"it",
 
 		"normalize scores":			"true",
-		"emit scores":				"true",
+		"emit scores":				"false",
 		"no out files":				"true",
-
-		"max decision":				"0"
+		"max decision":				0
 	},
 
 	"policies": [
-		["OneNo",					"on"],
+		["OneNo",					"off"],
 		["TwentyNo",				"off"],
 		["MajorityVoting",			"off"],
 		["SingleFilterPolicy",		"off"]
@@ -30,18 +26,18 @@
 		["SampleFilter",					"off"],
 		["LengthStats",						"off"],
 
-		["LengthRatio",						"on"],
-		["ReverseLengthRatio",				"of"],
-		["WordRatio",						"of"],
-		["ReverseWordRatio",				"of"],
-		["WordLength",						"of"],
-		["TagFinder",						"of"],
-		["RepeatedChars",					"of"],
-		["RepeatedWords",					"of"],
+		["LengthRatio",						"off"],
+		["ReverseLengthRatio",				"off"],
+		["WordRatio",						"off"],
+		["ReverseWordRatio",				"off"],
+		["WordLength",						"off"],
+		["TagFinder",						"off"],
+		["RepeatedChars",					"off"],
+		["RepeatedWords",					"off"],
 
 		["Lang_Identifier",					"off"],
 
-		["AlignedProportion",				"off"],
+		["AlignedProportion",				"on"],
 		["BigramAlignedProportion",			"off"],
 		["NumberOfUnalignedSequences",		"off"],
 		["LongestAlignedSequence",			"off"],
 
@@ -31,35 +31,52 @@ def __init__(self):
 		self.s_thresh = 0.0
 		self.t_thresh = 0.0
 
+		self.model_exist = False
+
 	#
 	def initialize(self, source_language, target_language, extra_args):
 		self.num_of_scans = 1
 		self.src_language = extra_args['source language']
 		self.trg_language = extra_args['target language']
 		self.normalize = extra_args['normalize scores']
-		self.model_filename = "models/" + extra_args['input filename'] + "__AlignedProportion.stats"
+		self.model_filename = "models/AlignedProportion.stats"
 		if self.normalize:
 			self.model_filename += "_n"
 
 		if os.path.isfile(self.model_filename):
-			self.num_of_scans = 0
-
+			lang_pair = self.src_language + self.trg_language
 			f = open(self.model_filename, 'r')
-			l = f.readline().strip().split("\t")
-			self.src_mean = float(l[1])
-			self.src_var = float(l[2])
 
-			l = f.readline().strip().split("\t")
-			self.trg_mean = float(l[1])
-			self.trg_var = float(l[2])
+			l = f.readline()
+			while l:
+				if lang_pair not in l:
+					l = f.readline()
+					continue
+
+				# found the statistics
+				self.model_exist = True
+				self.num_of_scans = 0
+
+				l = f.readline().strip().split("\t")
+				self.src_mean = float(l[1])
+				self.src_var = float(l[2])
+
+				l = f.readline().strip().split("\t")
+				self.trg_mean = float(l[1])
+				self.trg_var = float(l[2])
+
+				break
 
 			f.close()
-			print "Loaded stats from the model file."
+			if self.model_exist:
+				print "Loaded stats from the model file."
 
+		if extra_args['emit scores'] == True:
+			self.num_of_scans = 1
 		return
 
 	def finalize(self):
-		if self.num_of_scans == 0:
+		if self.model_exist:
 			return
 
 		if self.n <= 1:
@@ -76,7 +93,9 @@ def finalize(self):
 		print "source mean & deviation:", self.src_mean, "\t", self.src_var
 		print "target mean & deviation:", self.trg_mean, "\t", self.trg_var
 
-		f = open(self.model_filename, 'w')
+		f = open(self.model_filename, 'a')
+		lang_pair = self.src_language + self.trg_language
+		f.write("\n" + lang_pair + "\n")
 
 		f.write("source\t" + str(self.src_mean) + "\t" + str(self.src_var) + "\n")
 		f.write("target\t" + str(self.trg_mean) + "\t" + str(self.trg_var) + "\n")
 
@@ -38,29 +38,44 @@ def initialize(self, source_language, target_language, extra_args):
 		self.src_language = extra_args['source language']
 		self.trg_language = extra_args['target language']
 		self.normalize = extra_args['normalize scores']
-		self.model_filename = "models/" + extra_args['input filename'] + "__AlignedSequenceLength.stats"
+		self.model_filename = "models/AlignedSequenceLength.stats"
 		if self.normalize:
 			self.model_filename += "_n"
 
 		if os.path.isfile(self.model_filename):
-			self.num_of_scans = 0
-
+			lang_pair = self.src_language + self.trg_language
 			f = open(self.model_filename, 'r')
-			l = f.readline().strip().split("\t")
-			self.src_mean = float(l[1])
-			self.src_var = float(l[2])
 
-			l = f.readline().strip().split("\t")
-			self.trg_mean = float(l[1])
-			self.trg_var = float(l[2])
+			l = f.readline()
+			while l:
+				if lang_pair not in l:
+					l = f.readline()
+					continue
+
+				# found the statistics
+				self.model_exist = True
+				self.num_of_scans = 0
+
+				l = f.readline().strip().split("\t")
+				self.src_mean = float(l[1])
+				self.src_var = float(l[2])
+
+				l = f.readline().strip().split("\t")
+				self.trg_mean = float(l[1])
+				self.trg_var = float(l[2])
+
+				break
 
 			f.close()
-			print "Loaded stats from the model file."
+			if self.model_exist:
+				print "Loaded stats from the model file."
 
+		if extra_args['emit scores'] == True:
+			self.num_of_scans = 1
 		return
 
 	def finalize(self):
-		if self.num_of_scans == 0:
+		if self.model_exist:
 			return
 
 		if self.src_n <= 1:
@@ -75,7 +90,9 @@ def finalize(self):
 		self.trg_var = (self.trg_sum_sq - (self.trg_sum * self.trg_sum) / self.trg_n) / (self.trg_n - 1)
 		self.trg_var = math.sqrt(self.trg_var)
 
-		f = open(self.model_filename, 'w')
+		f = open(self.model_filename, 'a')
+		lang_pair = self.src_language + self.trg_language
+		f.write("\n" + lang_pair + "\n")
 
 		f.write("source\t" + str(self.src_mean) + "\t" + str(self.src_var) + "\n")
 		f.write("target\t" + str(self.trg_mean) + "\t" + str(self.trg_var) + "\n")
 
@@ -37,29 +37,44 @@ def initialize(self, source_language, target_language, extra_args):
 		self.src_language = extra_args['source language']
 		self.trg_language = extra_args['target language']
 		self.normalize = extra_args['normalize scores']
-		self.model_filename = "models/" + extra_args['input filename'] + "__BigramAlignedProportion.stats"
+		self.model_filename = "models/BigramAlignedProportion.stats"
 		if self.normalize:
 			self.model_filename += "_n"
 
 		if os.path.isfile(self.model_filename):
-			self.num_of_scans = 0
-
+			lang_pair = self.src_language + self.trg_language
 			f = open(self.model_filename, 'r')
-			l = f.readline().strip().split("\t")
-			self.src_mean = float(l[1])
-			self.src_var = float(l[2])
 
-			l = f.readline().strip().split("\t")
-			self.trg_mean = float(l[1])
-			self.trg_var = float(l[2])
+			l = f.readline()
+			while l:
+				if lang_pair not in l:
+					l = f.readline()
+					continue
+
+				# found the statistics
+				self.model_exist = True
+				self.num_of_scans = 0
+
+				l = f.readline().strip().split("\t")
+				self.src_mean = float(l[1])
+				self.src_var = float(l[2])
+
+				l = f.readline().strip().split("\t")
+				self.trg_mean = float(l[1])
+				self.trg_var = float(l[2])
+
+				break
 
 			f.close()
-			print "Loaded stats from the model file."
+			if self.model_exist:
+				print "Loaded stats from the model file."
 
+		if extra_args['emit scores'] == True:
+			self.num_of_scans = 1
 		return
 
 	def finalize(self):
-		if self.num_of_scans == 0:
+		if self.model_exist:
 			return
 
 		if self.n <= 1:
@@ -76,7 +91,9 @@ def finalize(self):
 		print "source mean & deviation:", self.src_mean, "\t", self.src_var
 		print "target mean & deviation:", self.trg_mean, "\t", self.trg_var
 
-		f = open(self.model_filename, 'w')
+		f = open(self.model_filename, 'a')
+		lang_pair = self.src_language + self.trg_language
+		f.write("\n" + lang_pair + "\n")
 
 		f.write("source\t" + str(self.src_mean) + "\t" + str(self.src_var) + "\n")
 		f.write("target\t" + str(self.trg_mean) + "\t" + str(self.trg_var) + "\n")
 
@@ -36,29 +36,44 @@ def initialize(self, source_language, target_language, extra_args):
 		self.src_language = extra_args['source language']
 		self.trg_language = extra_args['target language']
 		self.normalize = extra_args['normalize scores']
-		self.model_filename = "models/" + extra_args['input filename'] + "__FirstUnalignedWord.stats"
+		self.model_filename = "models/FirstUnalignedWord.stats"
 		if self.normalize:
 			self.model_filename += "_n"
 
 		if os.path.isfile(self.model_filename):
-			self.num_of_scans = 0
-
+			lang_pair = self.src_language + self.trg_language
 			f = open(self.model_filename, 'r')
-			l = f.readline().strip().split("\t")
-			self.src_mean = float(l[1])
-			self.src_var = float(l[2])
 
-			l = f.readline().strip().split("\t")
-			self.trg_mean = float(l[1])
-			self.trg_var = float(l[2])
+			l = f.readline()
+			while l:
+				if lang_pair not in l:
+					l = f.readline()
+					continue
+
+				# found the statistics
+				self.model_exist = True
+				self.num_of_scans = 0
+
+				l = f.readline().strip().split("\t")
+				self.src_mean = float(l[1])
+				self.src_var = float(l[2])
+
+				l = f.readline().strip().split("\t")
+				self.trg_mean = float(l[1])
+				self.trg_var = float(l[2])
+
+				break
 
 			f.close()
-			print "Loaded stats from the model file."
+			if self.model_exist:
+				print "Loaded stats from the model file."
 
+		if extra_args['emit scores'] == True:
+			self.num_of_scans = 1
 		return
 
 	def finalize(self):
-		if self.num_of_scans == 0:
+		if self.model_exist:
 			return
 
 		self.src_mean = self.src_sum / self.n
@@ -69,7 +84,9 @@ def finalize(self):
 		self.trg_var = (self.trg_sum_sq - (self.trg_sum * self.trg_sum) / self.n) / (self.n - 1)
 		self.trg_var = math.sqrt(self.trg_var)
 
-		f = open(self.model_filename, 'w')
+		f = open(self.model_filename, 'a')
+		lang_pair = self.src_language + self.trg_language
+		f.write("\n" + lang_pair + "\n")
 
 		f.write("source\t" + str(self.src_mean) + "\t" + str(self.src_var) + "\n")
 		f.write("target\t" + str(self.trg_mean) + "\t" + str(self.trg_var) + "\n")
 
@@ -10,11 +10,13 @@ def __init__(self):
 		self.trg_language = ""
 
 	def initialize(self, source_language, target_language, extra_args):
-		self.num_of_scans = 1
+		self.num_of_scans = 0
 		self.src_language = extra_args['source language']
 		self.trg_language = extra_args['target language']
 		self.normalize = extra_args['normalize scores']
 
+		if extra_args['emit scores'] == True:
+			self.num_of_scans = 1
 		langid.load_model()
 		return