RabbiTagging.py

# -*- coding: utf-8 -*-
import codecs
import util
import re
from collections import defaultdict
tonorabbis = ["אבא", "חייא", "אבדומי", "אבדימא", "אבדימס", "אבהו", "אפטוריקי", "אבון", "אבונא", "אבונה", "אבטולוס", "אבטילס", "בנימין", "אבין", "אבמכיס", "יוסי", "אבשלום", "אדא", "חנינא", "זירא", "אושעיא", "יהודה", "אחא", "אחי", "אחיא", "אחייה", "איבו", "יעקב", "אידי", "אייבו", "אייניא", "אליעזר", "אלכסנדרי", "אלעאי", "אלעזר", "לעזר", "אמי", "אנטיגנוס", "אנינייא", "אסא", "אסי", "אפס", "ארמניא", "אשיין", "בוסנא", "בורקי", "ביבי", "בינה",
                "ביסא", "בנאה", "בנאי", "ברייס", "ברכיה", "גמליאל", "אבינה", "ליאני", "איניונא", "דרוסא", "דרוסי", "דרוסתאי", "הונא", "הונדקס", "הורקנוס", "הושעיא", "הושעיה", "הלל", "וולס", "שמואל", "ווא", "וולוס", "זבידא", "זוהמאי", "זוטרא", "זיואי", "זילאי", "זינון", "זכאי", "זכיי", "אלכסנדריה", "זכריה", "זמינא", "זעירא", "חדקא", "חונא", "חוניה", "חונייה", "חוצפית", "חזקיה", "חידקא", "חייה", "חנניה", "חלבו", "חלפו",
                "חלפתא", "חלקיה", "חמא", "חנא", "חנן", "חנניא", "יהושע", "טבלא", "טבליי", "טובי", "טרפון", "יאשיה", "ינאי", "שמעון", "עקיבא", "יודה", "יוחנן", "יונה", "מני", "יונתן", "יוסה", "יוסף", "יוצדק", "יילי", "יצחק", "ירמיה", "ישמעאל", "כרוספדאי", "לוונטי", "לויטס", "ליא", "ליונטי", "לעיי", "מאיר", "מונא", "מיאשא", "מלאי", "מנא", "מנחם", "סימאי", "מנחמא", "מנשה", "מנשיא", "מרי", "מריון", "מרינוס", "מתון", "מתניא", "נהוראי", "נזירא",
                "נחום", "נחוניא", "נחמיה", "נחמן", "נסא", "נתן", "סידור", "סימון", "סימיי", "סיסיי", "סמיא", "עוזיאל", "עוקבא", "ענן", "ענני", "עקיבה", "פדת", "פטרוקי", "פילא", "פליפא", "פליפה", "פנחס", "פס", "פפייס", "פרוזדק", "פרטא", "פרידא", "פרירא", "פרנק", "צדוק", "קורייס", "קרוספאי", "קרוצפי", "קריספא", "קריספאי", "קריספדא", "קריצפי", "קרציפא", "ראובן", "רדיפה", "רומנוס", "שאול", "שיין", "שילא", "שמלאי", "שפטיה", "תדאי", "תחליפא", "תנחום", "תנחומא",
                "אבדומא", "אבדומה", "אבדימי", "אבודמא", "אושעיה", "אביה", "אביטול", "אביי", "אבימי", "אבינא", "אבמרי", "אדאי", "אדימי", "אהבה", "אוניא", "אורי", "אחאי", "אחווא", "אחווה", "אחייא", "אייבון", "אילא", "אילאי", "אילם", "אילעא", "איסי", "איתי", "אלאי", "אלוני", "אליהו", "אליהועיני", "אלכסא", "אלכסנדר", "אלכסנדרא", "אלכסנדריא", "אלעא", "אלעשא", "אנייני", "אריסטי", "אתי", "בדלה", "בוטא", "בולאטה", "בון", "בזירה", "ביבא", "ביבון", "ביבן", "ביזנא", "בייתוס",
                "ביסנא", "בירי", "בירייס", "עולא", "בניי", "בנייה", "בצלאל", "זביד", "ברוקא", "ברוקאי", "גוריון", "גידול", "איניוני", "גרשום", "דוסא", "דוסי", "דוסתאי", "דימי", "דרומי", "הוריינא", "המנונא", "זבדא", "זבדיה", "זבידי", "זיכיי", "זריקא", "זריקן", "חגאי", "חגי", "חונה", "חוני", "חוניא", "חונייא", "חזאל", "שבת", "חילפא", "חילפיי", "חיננא", "ינטה", "חכינאי", "חליפי", "חלפון", "יהושעיה", "חנה", "חנון", "חנילאי", "חנין", "בחיי", "חנינה", "חננא", "חננה", "איבי",
                "חסא", "חסידא", "חפני", "חצנא", "טבי", "טבלאי", "טבלי", "טוביה", "טיופה", "טייפה", "טרייא", "סיחון", "טומי", "יהושעיא", "שמאי", "יוד", "יודא", "יודן", "מתליא", "מתנה", "מתניתא", "יוחי", "יולימנא", "יוסא", "יוסטא", "יוסטאי", "יוסטי", "יוסטיני", "יוסנא", "יושוע", "יושיע", "יחזקיה", "ייבא", "ייסא", "יסא", "שבתי", "יקים", "ישבב", "ישעיה", "יתא", "כהנא", "כיריי", "לודה", "לולאני", "לוליאני", "לולייאני", "לולינא", "לוליני", "ליל", "אלם",
                "מוסיא", "מחסיא", "מיישא", "מישא", "מלוך", "מנחמן", "מנסיא", "מסיא", "חסדא", "משין", "נהילאי", "נחומי", "נחשון", "ניחא", "נסים", "נפתלי", "נתנאל", "סובייה", "סיסא", "עזרא", "אבטולס", "עזריה", "עילאי", "עילעאי", "ענניאל", "פדא", "פדיה", "פריט", "פלטיא", "פליפי", "פנדא", "פרורי", "פרחיה", "פריגורי", "קיסמא", "קיריס", "קצרה", "רחומאי", "רימון", "שבתאי", "שובתי", "שובתיי", "שילה", "שימי", "שלום", "שלמוני", "שמי", "שמן", "שמעיה", "ששא", "תחנא", "תימא",
                "תפדאי", "תפדיי", "בריה", "משרשיא", "מנימין", "אשי", "פפא", "איקא", "אבוה", "ספרא", "אבייא", "אויא", "אדומה", "אהילאי", "אהרון", "אוירא", "עוא", "עויא", "קטינה", "אחדבוי", "אחו", "אחיי", "אחלי", "אידאי", "אידית", "אליקים", "אמימר", "אשיאן", "אשייאן", "בודיא", "בוריא", "ברדלא", "ברונא", "גביהא", "גביהה", "גדא", "גדל", "גזא", "גידל", "גמדא", "דניאל", "קטינא", "הועיא", "פפי", "הינך", "זבדי", "זוטי", "זורא", "זוטראי", "חבוניה", "חביבא", "חגא",
                "חגיי", "מדיפתי", "חינא", "חננאל", "חסדאי", "חסדי", "טבות", "טביומי", "טבית", "קיסנא", "סלא", "יחונה", "יחזקאל", "יחיאל", "יימר", "כיני", "לילי", "מלכיא", "מלכיו", "מניומי", "מנשיה", "מרדכי", "מתיא", "נחומאי", "גוריא", "ניתאי", "סחורה", "סימא", "סימונא", "סמא", "סעורם", "עובדיה", "עוירא", "עילא", "עיליש", "עינא", "עמרם", "עקביה", "קרוספי", "עזא", "רבאי", "רחומי", "שבא", "שיזבי", "שייא", "שיננא", "שישא", "שלמון", "שלמן", "שעורים", "שפיר", "שרביה", "ששעה", "ששת", "הונא", "זוטרא", "יוחנא",  "נתן", "עוקבא", "קשישא", "שמואל", "עוקבן" ]


tonorabbis.sort(key=lambda x: x)
tonorabbis = [unicode(r, 'utf-8') for r in tonorabbis]

rabbif = codecs.open('data/1_cal_input/rabbis.csv',encoding='utf8')
lotsorabbis = [r.strip() for r in rabbif.read().split(u'\n')]


r_dict = defaultdict(list)
found = 0
for tr in tonorabbis:
    for lr in lotsorabbis:
        if re.search(ur'(\s|^){}(\s|$)'.format(tr),lr):
            r_dict[tr] += [lr]
            found += 1

print found

util.saveUTFStr(r_dict, 'tonorabbis.json')