diff --git a/.gitignore b/.gitignore new file mode 100644 index 0000000..e4e5f6c --- /dev/null +++ b/.gitignore @@ -0,0 +1 @@ +*~ \ No newline at end of file diff --git a/anomaly-detection.md b/anomaly-detection.md new file mode 100644 index 0000000..7ff8845 --- /dev/null +++ b/anomaly-detection.md @@ -0,0 +1,20 @@ +
+ +شناسایی حملات در شبکه‌های کامپیوتری از جنبهٔ اطّلاعات مورد استفاده در مرحلهٔ یادگیری، به دو دستهٔ تشخیص نفوذ و تشخیص ناهنجاری تقسیم می شود. + +در تشخیص ناهنجاری تنها اطّلاعات مربوط به ترافیک معمول شبکه مورد استفاده قرار می‌گیرند. برای تشخیص ناهنجاری رویکردها و روش‌های متنوّعی ارائه شده‌اند که در این پژوهش باید مروری اجمالی بر آن‌ها صورت پذیرد. هم‌چنین یکی از روش‌ها باید برای تشخیص ناهنجاری در شبکه پیاده‌سازی شود. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Kabiri, Peyman, and Ali A. Ghorbani. "Research on Intrusion Detection and Response: A Survey." IJ Network Security 1.2 (2005): 84-102. + +# پیوندهای مفید ++ [The NSL-KDD Data Set](http://nsl.cs.unb.ca/NSL-KDD) ++ [Machine Learning Course - Anomaly Detection](https://class.coursera.org/ml-003/lecture/preview) diff --git a/audio-fingerprinting.md b/audio-fingerprinting.md new file mode 100644 index 0000000..c83a39a --- /dev/null +++ b/audio-fingerprinting.md @@ -0,0 +1,17 @@ +
+ +پیدا کردن یک قطعه آهنگ با شنیدن بخشی از آن، نیاز به نمایه‌سازی مجموعه آهنگ‌ها دارد، درست مثل جستجوی واژه‌ها. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Wang, Avery. "An Industrial Strength Audio Search Algorithm." ISMIR. 2003. + +# پیوندهای مفید ++ [Audio Fingerprinting with Python and Numpy](http://willdrevo.com/fingerprinting-and-audio-recognition-with-python.html) diff --git a/author-detection.md b/author-detection.md new file mode 100644 index 0000000..a3f035d --- /dev/null +++ b/author-detection.md @@ -0,0 +1,19 @@ +
+ +نویسنده این متن کیست؟ پروژه تشخیص خودکار نویسنده به دنبال روش‌هایی می‌گردد که به این پرسش پاسخ دهد. + +در واقع این پروژه باید با استفاده از مجموعه کوچکی (کم‌تر از ۱۰ سند متنی) از یک نویسنده، به ازای هر سند متنی که نویسنده آن مجهول است، به این پرسش پاسخ دهد که آیا نویسنده سند مجهول نیز با سندهای قبل یکسان است یا خیر. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Efstathios Stamatatos. A Survey of Modern Authorship Attribution Methods. of the American Society for Information Science and Technology, Volume 60, Issue 3, pages 538-556, March 2009. +# پیوندهای مفید ++ [مسابقه تشخیص نویسنده در کنفرانس PAN-2014](http://www.uni-weimar.de/medien/webis/research/events/pan-14/pan14-web/author-identification.html) ++ [مسابقه تشخیص نویسنده در کنفرانس PAN-2013]( [مسابقه تشخیص نویسنده در کنفرانس PAN-2014](http://www.uni-weimar.de/medien/webis/research/events/pan-14/pan14-web/author-identification.html)) diff --git a/aya-clustering.md b/aya-clustering.md new file mode 100644 index 0000000..28ad7f2 --- /dev/null +++ b/aya-clustering.md @@ -0,0 +1,27 @@ +
+ +خوشه‌بندی به فرآیند تبدیل حجم عظیمی از داده‌ها به گروه‌های داده‌ای مشابه گفته می‌شود. به همین صورت خوشه‌بندی متون عبارت است از تبدیل حجم عظیمی از اسناد متنی به گروه‌هایی از متن‌های مشابه؛ که به هر کدام از این گروه‌ها یک خوشه گفته می‌شود. پس مسئله خوشه‌بندی آیات قرآن را نیز می‌توان به صورت گروه‌بندی آیات قرآن به صورت خودکار در گروه آیه‌های هم‌معنی معرفی نمود. برای درک این رابطه‌ی شباهت معنایی بین آیات می‌توان از روش‌های مختلفی از جمله شباهت‌یابی بر مبنای واژه‌های آیه، واژه‌های ترجمه، تفسیر آیه و ... استفاده نمود. + +در این پروژه شما باید آیات قرآن را با استفاده از **ظاهر آیات به همراه ترجمه و تفسیر آنها** خوشه‌بندی کنید. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Ebbesson, Magnus, and Christopher Issal. "Document Clustering." (2010). ++ Berry, Michael W., ed. Survey of Text Mining I: Clustering, Classification, and Retrieval. Vol. 1. Springer, 2004. ++ [م.ایمانی، خوشه‌بندی متون فارسی، پایان‌نامه کارشناسی، داشگاه علم و صنعت ایران، ۱۳۹۱](http://bayanbox.ir/id/8155819707974834975) + +# پیوندهای مفید ++ [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) ++ [خوشه‌بندی با scikit-learn](http://scikit-learn.org/stable/modules/clustering.html#clustering) ++ [یک نمونه کد از K-Means](http://scikit-learn.org/stable/auto_examples/document_clustering.html) ++ [راهنمایی برای استخراج ویژگی از متن زبان طبیعی](http://pyevolve.sourceforge.net/wordpress/?p=1589) ++ [نمونه‌ای از کشف آیات مشابه با استفاده از تفسیر ابن کثیر](http://textminingthequran.com/apps/similarity.php) ++ [پیکره قرآن تنزیل](http://tanzil.net/wiki/Resources) ++ [پیکره تفاسیر اهل سنت](http://www.textminingthequran.com/wiki/Tasir_corpus) diff --git a/captcha-breaking.md b/captcha-breaking.md index 5521784..7527d89 100644 --- a/captcha-breaking.md +++ b/captcha-breaking.md @@ -1,3 +1,41 @@
-# تشخیص کپچا +معمولا در برنامه‌های وب مثل سامانه‌های آموزش دانشگاه‌ها یا سامانه‌های اینترنت بانک برای جلوگیری از کارهای خرابکارانه توسط ربات‌ها، از کپچا استفاده می‌شود. + +یکی از معمول‌ترین شکل کپچا به صورت تصویر است. در این نوع کپچا معمولا حروف و اعدادی انگلیسی به شکلی کنار هم قرار می‌گیرند و از کاربر پرسیده می‌شود که بگوید که این حروف و اعداد چیست. معمولا مسئولین این سایت‌ها فکر می‌کنند که ربات‌ها یا برنامه‌های کامپیوتری نمی‌توانند پاسخ این سؤالات را بدهند. + +مواقع زیادی هم رخ می‌دهد که این کپچاها به غیر از اعصاب خوردی چیزی برای ما ندارد. + +![کپچای گلستان](http://bayanbox.ir/id/4595269189662952626?view) + +در این پروژه ما می‌خواهیم که یک افزونه برای مروگر بنویسیم که یک کپچا را بکشند و به صورت خودکار آن را حل نماید. + +برای مثال ساده‌تر می‌توانید از کپچای [سامانه آموزش دانشگاه شریف](http://edu.sharif.edu) استفاده کنید. + +![کپچای شریف](http://bayanbox.ir/id/7003945522720661269?view) + +مراحل یک سیستم برای اینکار می‌تواند بدین صورت باشد: + +1. جمع آوری یک پایگاه داده از کپچاها و تهیه پاسخ هر کدام از آن‌ها به صورت دستی +2. جداسازی هر حرف یا عدد از هم. (یعنی یک عکس را بگیرد و چند عکس کوچکتر دیگر درست بکند که هر کدام شامل یک حرف است). +3. استفاده از OCR یا آموزش یک دسته‌بند ساده که هر حرف را تشخصی بدهد. برای دسته بند هم می‌توان از شبکه‌های عصبی یا از SVM استفاده کرد. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع + +# پیوندهای مفید ++ [کتابخانه اپن‌سی‌وی](http://opencv.org) ++ [اپن‌سی‌وی در پایتون](http://docs.opencv.org/trunk/doc/py_tutorials/py_tutorials.html) ++ [بینایی کامپیوتری در جاوا اسکریپت](http://inspirit.github.io/jsfeat/) ++[شبکه‌های عصبی در جاوا اسکریپت](https://github.com/harthur/brain) ++ [شبکه‌های عصبی کانلوشنال در جاوا اسکریپت](https://github.com/karpathy/convnetjs) ++ [یک منبع خوب](http://stackoverflow.com/questions/9413216/simple-digit-recognition-ocr-in-opencv-python) ++ [پیاده‌سازی svm در جاوا اسکریپت](https://github.com/karpathy/svmjs) ++ [پایگاه داده نمونه](http://www.cs.cmu.edu/~guestrin/Class/10701/projects.html#image) diff --git a/car-detection.md b/car-detection.md index 65fd4c8..32f5a7e 100644 --- a/car-detection.md +++ b/car-detection.md @@ -1,3 +1,23 @@
-# تشخیص ماشین‌ها در تصویر +کنترل ترافیک و ثبت انواع تخلف توسط دوربین در سال های اخیر رشد چشم گیری در دنیا داشته است. هدف اصلی این سامانه‌ها ارتقاء سیستم‌های هوشمند ترافیکی در سطح جامعه می‌باشد، که به این منظور تصاویر ثبت شده از دوربین های سطح شهر در اختیار سیستم قرار خواهد گرفت، تا تصمیمات ترافیکی لازم را بگیرند و یا نوع تخلف انجام شده را تشخیص دهند. این سیستم‌ها در گام اول نیاز است که خودروهای موجود در تصاویر را شناسیایی کنند. +در این پژوهش از شما خواسته شده است که با دریافت تصویر ورودی، خودروهای موجود در آن را شناسایی کنید. + +![تصویر نمونه](http://bayanbox.ir/id/720668288629020534?view) + + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع + +# پیوندهای مفید ++ [کتابخانه اپن‌سی‌وی](http://opencv.org) ++ [اپن‌سی‌وی در پایتون](http://docs.opencv.org/trunk/doc/py_tutorials/py_tutorials.html) ++ [نصب اپن‌سی‌وی در ابونتو](https://help.ubuntu.com/community/OpenCV) ++ [شناسایی اجسام در تصاویر با اپن‌سی‌وی](http://achuwilson.wordpress.com/2011/07/01/create-your-own-haar-classifier-for-detecting-objects-in-opencv/) diff --git a/car-plate-reader.md b/car-plate-reader.md new file mode 100644 index 0000000..7d38b12 --- /dev/null +++ b/car-plate-reader.md @@ -0,0 +1,25 @@ +
+ +تشخیص خودکار پلاک خودرو، از مهمترین نیازهای سیستم‌‌های کنترل خودکار ترافیک است. روزانه صدها و شاید هزاران تخلف ترافیکی روی می‌دهد و توسط دوربینهای مخصوص، تصویر خودروی متخلف ضبط می‎شود. اگر قرار باشد تمام این تصاویر توسط انسان بررسی شده و شماره پلاک خودرو به صورت دستی وارد شود، زمان و نیروی انسانی زیادی تلف خواهد شد. لذا تشخیص خودکار موقعیت پلاک خودرو و شناسایی شماره پلاک توسط نرم افزار اهمیت می‌یابد. + +علاوه بر کنترل ترافیک، تشخیص خودکار پلاک، می‌تواند فرایند ورود و خروج خودروها در موسسات و سازمانها و پایانه‌ها را تسهیل کند. به این ترتیب کار نگهبانها آسانتر شده و هم سازمان و هم مراجعین، احساس رضایت بیشتری خواهند داشت. + +در این پروژه انتظار می‌رود شماره پلاک یک خودرو که تصویر آن در اختیار شما قرار دارد به درستی خوانده شود. + +![تصویر اول](http://bayanbox.ir/id/2233463496906090093?view) + +# مقدمه + +# کارهای مرتبط + +# مراجع + +# کارهای آینده + +# مراجع + +# پیوندهای مفید ++ [کتابخانه اپن‌سی‌وی](http://opencv.org) ++ [اپن‌سی‌وی در پایتون](http://docs.opencv.org/trunk/doc/py_tutorials/py_tutorials.html) ++ [نصب اپن‌سی‌وی در ابونتو](https://help.ubuntu.com/community/OpenCV) ++ [نمونه محصول](http://farsiocr.ir/%D8%B3%DB%8C%D8%B3%D8%AA%D9%85-%D8%AA%D8%B4%D8%AE%DB%8C%D8%B5-%D9%BE%D9%84%D8%A7%DA%A9-%D8%AE%D9%88%D8%AF%D8%B1%D9%88-%D8%A8%D8%A7-%D8%B3%D9%88%D8%B1%D8%B3-%DA%A9%D8%AF-cpp/) diff --git a/chunker.md b/chunker.md index 06f5bbf..20cae3b 100644 --- a/chunker.md +++ b/chunker.md @@ -1,3 +1,26 @@
-# تجزیه نحوی کم عمق متن +تجزیه کم‌عمق به فرآیند شناسایی و رده‌بندی بخش‌های سطحی (غیر درختی) و بدون هم‌پوشانی از یک جمله گفته می‌شود. این بخش‌ها به صورت عبارت‌های اسمی، عبارت‌های فعلی، عبارت‌های وصفی (صفت) و عبارت‌های حرف اضافه‌ای می‌توانند باشند. در واقع در تجزیه‌ی کم‌عمق ما به دنبال پیدا کردن بخش‌های اصلی نحوی در جمله هستیم، اما نمی‌خواهیم ساختار داخلی هر کدام از این بخش‌ها را نیز کشف کنیم. به این عملیات اصطلاحا Chunking یا Shallow Parsing گفته می‌شود. + +در این پژوهش روش‌های مختلف تجزیه‌ی کم‌عمق را بررسی نموده و یک نمونه عملیاتی برای آن پیاده‌سازی می‌شود. مثال: + +> [NP Jack and Jill ] [VP went ] [ADVP up ] [NP the hill ] [VP to fetch ] [NP a pail ] [PP of ] [NP water ] . + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Jurafsky, Dan, et al. Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Vol. 2. Upper Saddle River: Prentice Hall, 2000. Chapter 13 ++ Zhang, Tong, Fred Damerau, and David Johnson. "Text chunking based on a generalization of winnow." The Journal of Machine Learning Research 2 (2002): 615-637. ++ Bird, Steven, Ewan Klein, and Edward Loper. Natural language processing with Python. O'reilly, 2009. Chapter 7 + +# پیوندهای مفید ++ [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) ++ [Text Chunking Using NLTK](http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf) ++ [Illinois Chunker](http://cogcomp.cs.illinois.edu/page/software_view/13) ++ [English Chunking dataset](ftp://ftp.cis.upenn.edu/pub/chunker/) diff --git a/citation-resolution.md b/citation-resolution.md new file mode 100644 index 0000000..e9d1382 --- /dev/null +++ b/citation-resolution.md @@ -0,0 +1,22 @@ +
+ +یک مقاله در مجله‌های علمی به شکل‌های گوناگونی مورد ارجاع قرار می‌گیرد. اگرچه پیدا کردن ارجاع‌های یکسان در نگاه اول، پیچیده به نظر نمی‌رسد. انجام دقیق این کار هم چالش‌های مخصوص به خود را دارد. برای نمونه، دو ارجاع زیر مربوط به یک مقاله هستند که خطای نوشتاری موجود در ارجاع دوم (جدا نشدن نام نویسنده و عنوان با ویرگول) باعث سخت شدن مقایسه آنها شده است: + +> Minton, S(1993 b). Integrating heuristics for constraint satisfaction problems: A case study. In: Proceedings AAAI. +> +> S. Minton Integrating heuristics for constraint satisfaction problems: A case study. In AAAI Proceedings, 1993. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Poon, Hoifung, and Pedro Domingos. "Joint inference in information extraction." AAAI. Vol. 7. 2007. + +# پیوندهای مفید ++ [داده‌های آموزش و آزمون](http://alchemy.cs.washington.edu/papers/poon07) ++ [ابزار اجرای شبکه منطقی مارکوف](http://alchemy.cs.washington.edu) diff --git a/dependency-parser.md b/dependency-parser.md index 40dee75..82cfafa 100644 --- a/dependency-parser.md +++ b/dependency-parser.md @@ -1,31 +1,34 @@
-# تجزیه وابستگی متن یکی از پیش‌نیازهای اصلی برای حل بسیاری از مسائل موجود در حوزه پردازش زبان طبیعی، وجود تحلیل نحوی از جملات زبان است. برای رسیدن به این هدف دو رویکرد متفاوت وجود دارد: + * [دستور زایشی](http://fa.wikipedia.org/wiki/دستور_زایشی): ابتدا جمله را به دو بخش نهاد و گزاره تقسیم می‌شود و در ادامه به صورت بازگشتی کار تقسیم را تا رسیدن به واژه‌های جمله ادامه می‌دهد. -![alt generative parse tree](http://upload.wikimedia.org/wikipedia/commons/5/54/Parse_tree_1.jpg) -* [دستور وابستگی](http://fa.wikipedia.org/wiki/دستور_وابستگی):وظیفه تجزیه جمله را از فعل اصلی جمله آغاز می کند و در گام اول وابسته‌های مستقیم فعل و در ادامه به صورت بازگشتی وابسته‌های سطح بعدی را تا تحلیل کامل جمله ادامه می‌دهد. +![درخت تجزیه زایشی](http://upload.wikimedia.org/wikipedia/commons/5/54/Parse_tree_1.jpg) + +* [دستور وابستگی](http://fa.wikipedia.org/wiki/دستور_وابستگی): وظیفه تجزیه جمله را از فعل اصلی جمله آغاز می کند و در گام اول وابسته‌های مستقیم فعل و در ادامه به صورت بازگشتی وابسته‌های سطح بعدی را تا تحلیل کامل جمله ادامه می‌دهد. -![alt dependency parse tree](http://upload.wikimedia.org/wikipedia/commons/8/8c/Parse2.jpg) +![درخت تجزیه وابستگی](http://upload.wikimedia.org/wikipedia/commons/8/8c/Parse2.jpg) تجزیه وابستگی برای تحلیل زبان‌هایی مثل فارسی که ترتیب واژگان در آن‌ها ثابت نیستند بهتر است. یکی از الگوریتم‌های تجزیه وابستگی که بر روی زبان فارسی دقت بالایی دارد و در عین حال پیاده‌سازی آن ساده است الگوریتم [کاوینگتون](http://www.stanford.edu/~mjkay/covington.pdf) است. تلاش‌هایی برای بهبود این الگوریتم نیز صورت گرفته است مثل [+](http://acl.ldc.upenn.edu/eacl2006/main/papers/04_1_nivre_29.pdf) و [+](http://acl.ldc.upenn.edu/D/D07/D07-1125.pdf). در این پژوهش از شما خواسته شده است که الگوریتم کاوینگتون را پیاده‌سازی کرده و تلاش کنید دقت آن را بر روی زبان فارسی بهبود بخشید. -## مقدمه +# مقدمه + +# کارهای مرتبط -## کارهای مرتبط +# آزمایش‌ها -## آزمایش‌ها +# کارهای آینده -## مراجع -+ Kübler, S., McDonald, R., & Nivre, J. "Dependency parsing", Synthesis Lectures on Human Language Technologies, Vol. 1, pp. 1–127, 2009. -+ [م. خلاش، "بررسی روش‌های تجزيه در دستور وابستگی"، سمينار کارشناسی ارشد ، دانشگاه علم و صعت ايران، 1390.](http://nlp.iust.ac.ir/downloads/articles/A%20Survey%20on%20Dependency%20Parsing.pdf) -+ [م. خلاش، "ساز و کاری برای کشف تأثير ويژگی‌های مختلف ساخت‌واژی و صرفی بر روی تجزية وابستگی زبان فارسی"، پایان‌نامه کارشناسی اشد، دانشکده مهندسی کامپيوتر، دانشگاه علم و صنعت، 1391.](http://nlp.iust.ac.ir/downloads/articles/Dependency%20Parsing.pdf) +# مراجع ++ [م. خلاش، "بررسی روش‌های تجزیه در دستور وابستگی"، سمینار کارشناسی ارشد ، دانشگاه علم و صعت ایران، 1390.](http://nlp.iust.ac.ir/downloads/articles/A%20Survey%20on%20Dependency%20Parsing.pdf) ++ [م. خلاش، "ساز و کاری برای کشف تأثیر ویژگی‌های مختلف ساخت‌واژی و صرفی بر روی تجزیة وابستگی زبان فارسی"، پایان‌نامه کارشناسی اشد، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت، 1391.](http://nlp.iust.ac.ir/downloads/articles/Dependency%20Parsing.pdf) ++ Kubler, S., McDonald, R., & Nivre, J. "Dependency parsing", Synthesis Lectures on Human Language Technologies, Vol. 1, pp. 1–127, 2009. + [Khallash, M., Hadian, A., & Minaei-Bidgoli, B. "An Empirical Study on the Effect of Morphological and Lexical Features in Persian Dependency Parsing". In Proceedings of the Fourth Workshop on Statistical Parsing of Morphologically Rich Languages, pp. 97–107, 2013.](http://www.aclweb.org/anthology/W/W13/W13-4912.pd) -## لینک‌های مفید +# پیوندهای مفید + [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) + [پیکره درختی وابستگی فارسی اوپسالا](http://dadegan.ir/catalog/updt) + [پیکره وابستگی نحوی زبان فارسی (دادگان)](http://dadegan.ir/catalog/perdt) diff --git a/digit-recognizer.md b/digit-recognizer.md deleted file mode 100644 index 0de5b07..0000000 --- a/digit-recognizer.md +++ /dev/null @@ -1,6 +0,0 @@ -
- -# تشخیص اعداد - -## لینک‌های مفید -+ [Kaggle Competition](https://www.kaggle.com/c/digit-recognizer) diff --git a/document-classification.md b/document-classification.md index e79827e..bfdeef2 100644 --- a/document-classification.md +++ b/document-classification.md @@ -1,3 +1,22 @@
-# دسته‌بندی متون +در رده‌بندی متون هدف این است که سندهایی را که در اختیار داریم بتوانیم برچسب‌گذاری موضوعی کنیم. در واقع این موضوع صرفا یک مسئله با ناظر است، یعنی مجموعه‌ای از اسناد متنی که گروه‌بندی موضوعی شده‌اند به عنوان داده‌ی آموزشی در اختیار سامانه قرار می‌گیرد تا بتواند با یادگیری از این مجموعه، اسناد جدید ورودی را به یکی از این گروه‌های موضوعی ملحق نماید. + +در این پژوهش روش‌های مختلف رده‌بندی اسناد متنی مورد بررسی قرار گرفته و برای زبان فارسی پیاده‌سازی می‌شوند. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# مراجع ++ Berry, Michael W., ed. Survey of Text Mining I: Clustering, Classification, and Retrieval. Vol. 1. Springer, 2004. + +# پیوندهای مفید ++ [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) ++ [پیکره فارسی همشهری](http://ece.ut.ac.ir/dbrg/hamshahri/fadownload.html) ++ [دسته‌بندی متون با استفاده از یادگیری ماشین، محسن رحیمی، پروژه هوش مصنوعی، سال ۹۱](http://bayanbox.ir/id/4963720756402634418?download) ++ [راهنمایی برای استخراج ویژگی از متن زبان طبیعی](http://pyevolve.sourceforge.net/wordpress/?p=1589) ++ [رده‌بندی متون با استفاده از کتابخانه Scikit-learn](http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html) ++ [Natual Language Processing Course - Text Classification](https://class.coursera.org/nlp/lecture/preview) diff --git a/document-clustering.md b/document-clustering.md index 0a547eb..f012a8a 100644 --- a/document-clustering.md +++ b/document-clustering.md @@ -1,21 +1,23 @@
-# خوشه‌بندی متون فارسی خوشه‌بندی به فرآیند تبدیل حجم عظیمی از داده‌ها به گروه‌های داده‌ای مشابه گفته می‌شود. به همین صورت خوشه‌بندی متون عبارت است از تبدیل حجم عظیمی از اسناد متنی به گروه‌هایی از متن‌های مشابه؛ که به هر کدام از این گروه‌ها یک خوشه گفته می‌شود. پس مسئله خوشه‌بندی اسناد متنی را می‌توان به صورت ساده‌تر، مسئله پیدا کردن اسناد مشابه و قرار دادن آن‌ها کنار هم تعریف کرد. + برای خوشه‌بندی اسناد متنی روش‌های متنوعی وجود دارد که در این پژوهش انتظار می‌رود روش‌های متداول برای خوشه‌بندی معرفی شده و یکی از آن‌ها برای خوشه‌بندی متون فارسی پیاده‌سازی شود. -## مقدمه +# مقدمه + +# کارهای مرتبط -## کارهای مرتبط +# آزمایش‌ها -## آزمایش‌ها +# کارهای آینده -## مراجع +# مراجع + Ebbesson, Magnus, and Christopher Issal. "Document Clustering." (2010). + Berry, Michael W., ed. Survey of Text Mining I: Clustering, Classification, and Retrieval. Vol. 1. Springer, 2004. + [م.ایمانی، خوشه‌بندی متون فارسی، پایان‌نامه کارشناسی، داشگاه علم و صنعت ایران، ۱۳۹۱](http://bayanbox.ir/id/8155819707974834975) -## لینک‌های مفید +# پیوندهای مفید + [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) + [پیکره فارسی همشهری](http://ece.ut.ac.ir/dbrg/hamshahri/fadownload.html) + [خوشه‌بندی با scikit-learn](http://scikit-learn.org/stable/modules/clustering.html#clustering) diff --git a/face-detection.md b/face-detection.md index d60cf24..dd36a28 100644 --- a/face-detection.md +++ b/face-detection.md @@ -1,3 +1,32 @@
-# پیدا کردن چهره انسان‌ها در تصویر +یکی از مسائل مطرح در حوزه پردازش تصویر، تشخیص چهره انسان‌هاست. ایجاد یک سیستم تشخیص چهره قدرتمند می‌تواند در پروژه‌های مرتبط با تجستجوگر تصاویر، تعامل انسان و کامپیوتر، دوربین‌های عکاسی و بسیاری از موارد دیگر به کار برده شود. مسئله تشخیص چهره یکی از قدیمی‌ترین مسائل بینایی کامپیوتری بوده است که اکنون یکی از مسائل حل شده در بینایی کامپیوتری به حساب می‌آید. محصولات تجاری مختلفی مثل دوربین‌های عکاسی، نرم‌افزارهای مدیریت عکس و شبکه‌های اجتماعی وجود دارند که از این سیستم استفاده می‌کنند. + +در تشخیص چهره شما عکسی را دریافت می‌کنید و در این عکس باید محدوده‌ی چهره‌های انسان که می‌بینید را توسط یک مستطیل مشخص کنید (مانند شکل). + +در این پروژه از شما خواسته می‌شود که چالش‌های موجود در این زمینه را بررسی کنید. همچنین راه حل‌ها و روش‌های مختلف برای این مسئله را بررسی کنید و یکی را پیاده سازی کنید. + +![تصویر نمونه](http://upload.wikimedia.org/wikipedia/commons/e/ef/Face_detection.jpg) +![تصویر نمونه](http://cdn.itproportal.com/photos/Face-Detection-7_original.jpg) + + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع + +# پیوندهای مفید ++ [کتابخانه اپن‌سی‌وی](http://opencv.org) ++ [تشخیص چهره انسان در اپن‌سی‌وی](http://docs.opencv.org/trunk/doc/py_tutorials/py_objdetect/py_face_detection/py_face_detection.html) ++ [اپن‌سی‌وی در پایتون](http://docs.opencv.org/trunk/doc/py_tutorials/py_tutorials.html) ++ [نصب اپن‌سی‌وی در ابونتو](https://help.ubuntu.com/community/OpenCV) ++ [شناسایی اجسام در تصاویر با اپن‌سی‌وی](http://note.sonots.com/SciSoftware/haartraining.html) ++ [مهم‌ترین مقاله در این زمینه](https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf) ++ [بینایی کامپیوتری در جاوااسکریپت](http://inspirit.github.io/jsfeat/) ++ [تشخیص چهره در جاوااسکریپت ۱](http://inspirit.github.io/jsfeat/#haar) ++ [تشخیص چهره در جاوااسکریپت ۲](http://inspirit.github.io/jsfeat/#bbf) diff --git a/face-recognition.md b/face-recognition.md index d3c464a..3d116df 100644 --- a/face-recognition.md +++ b/face-recognition.md @@ -1,3 +1,36 @@
-# تشخیص چهره انسان در تصویر +در «بازشناسی چهره انسان» شما با دیدن تصویر یک فرد باید بگویید که این تصویر مربوط به کدام یک از افرادی است که قبلا دیده‌اید. + +این مسئله دو بخش دارد: + +* بخش آموزش: در این بخش شما افرادی را که می‌خواهید سیستم بشناسد با تصویر به اون می‌دهید. +* بخش آزمایش: در این بخش اگر تصویری از یکی از افرادی که می‌شناسد را به سیستم بدهیم، سیستم باید او را به درستی به یاد بیاورد. + +![تصویر اول](http://paperjammed.com/wp-content/uploads/2009/02/20090224-iphoto-faces.gif) + +این مسئله کاربردهای زیادی دارد. برای مثال اگر تعداد افرادی که آموزش می‌دهیم یک فرد باشد، می‌توان از این سیستم به عنوان جایگزین رمز عبور برای رایانه استفاده کرد. + +![تصویر دوم](http://zedomax.com/blog/wp-content/uploads/2009/12/asus-smartlogon.jpg) + +اگر برای مثال تصویر چهره مجرم‌ها را به سامانه آموزش دهیم، می‌توان از دوربین‌های سطح شهر برای پیدا کردن مجرم‌ها استفاده کرد. + +![تصویر سوم](http://bayanbox.ir/id/586377225323932446?view) + +در این پروژه از شما خواسته شده است که به بررسی چالش‌های موجود در این رابطه بپردازید و برخی از راه‌حل‌های اصلی را بررسی کنید و یکی را پیاده سازی نمایید. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع + +## پیوندهای مفید ++ [کتابخانه اپن‌سی‌وی](http://opencv.org) ++ [اپن‌سی‌وی در پایتون](http://docs.opencv.org/trunk/doc/py_tutorials/py_tutorials.html) ++ [نصب اپن‌سی‌وی در ابونتو](https://help.ubuntu.com/community/OpenCV) ++ [بازشناسی چهره در اپن‌سی‌وی](http://docs.opencv.org/trunk/modules/contrib/doc/facerec/facerec_tutorial.html) diff --git a/hadith-processing.md b/hadith-processing.md new file mode 100644 index 0000000..c5b7d52 --- /dev/null +++ b/hadith-processing.md @@ -0,0 +1,25 @@ +
+ +احادیث شیعه، یک منبع متنی عظیم و غنی از علوم و معارف اسلامی می‌باشد که در سال‌های اخیر تلاش‌های فراوانی در جهت دیجیتال‌سازی این منبع بزرگ متنی صورت گرفته است. + +اما هر جا که منبع بزرگی از متن خام داشته باشیم، می‌توان به مسائل و کاربردهای هوش مصنوعی و به ویژه شاخه پردازش زبان طبیعی در این منبع متنی، از قبیل خوشه‌بندی، رده‌بندی و نمایه‌زنی خودکار، استخراج برچسب، استخراج کلمات کلیدی، پیدا کردن خودکار روایات مشابه و ... اندیشید. + +یکی از بزرگ‌ترین و اصلی‌ترین منابع روایی شیعه کتاب «وسائل الشیعه» می‌باشد. + +در این پروژه مجموعه‌ای از متن روایات کتاب وسائل الشیعه که به صورت دستی نمایه‌ و برچسب زده شده‌اند را به عنوان مجموعه‌ی آموزشی در اختیار داشته و با استفاده از این مجموعه و به کارگیری تکنیک‌های یادگیری ماشین در پردازش زبان طبیعی به تحلیل خودکار محتوای روایات خواهیم پرداخت. + +مثال: + +| متن روایت | ترجمه روایت | نمایه | برچسب‌ها| +|:----------------|:-------------|:-----------:|:----------:| +| قَالَ رَسُولُ اللَّهِ السَّلَامُ تَطَوُّعٌ وَ الرَّدُّ فَرِیضَةٌ| رسول الله ص فرمودند: سلام کردن مستحب و پاسخش واجب است‏| وجوب پاسخ دادن سلام| وجوب+سلام| + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع \ No newline at end of file diff --git a/handwritten-digit-classification.md b/handwritten-digit-classification.md new file mode 100644 index 0000000..da58b66 --- /dev/null +++ b/handwritten-digit-classification.md @@ -0,0 +1,18 @@ +
+ +هدف این پروژه طبقه‌بندی ارقام دستنویس به منظور تشخیص رقم مربوطه است. برای این منظور می‌توان از هریک از روش‌های طبقه‌بندی استفاده کرد. در این پروژه انتظار می‌رود چند روش برای طبقه‌بندی ارقام که به نظر مناسب‌تر هستند بررسی و مقایسه شوند. برای این منظور می‌توان از مجموعه دادگان فارسی و یا انگلیسی استفاده کنید که لینک آن در قسمت لینک‌های مفید موجود است. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# مراجع + +# پیوندهای مفید ++ [صفحه رسمی مجموعه دادگان هدی ](http://farsiocr.ir/مجموعه-داده/مجموعه-ارقام-دستنویس-هدی/) ++ [مقاله در مورد مجموعه دادگان فارسی هدی](http://farsiocr.ir/Archive/dataset_PRL.pdf) ++ [Kaggle Competition](https://www.kaggle.com/c/digit-recognizer) ++ [Semeion Handwritten Digit Data Set](http://archive.ics.uci.edu/ml/datasets/Semeion+Handwritten+Digit) ++ [MNIST Handwritten Digits](http://yann.lecun.com/exdb/mnist/) diff --git a/heart-disease-recognition.md b/heart-disease-recognition.md new file mode 100644 index 0000000..6fe61ef --- /dev/null +++ b/heart-disease-recognition.md @@ -0,0 +1,22 @@ +
+ +شاید بتوان تشخیص بیماری‌ها با استفاده از الگوریتم‌های هوش مصنوعی را مفیدترین و صلح‌آمیزترین کاربرد هوش مصنوعی تاکنون دانست. یکی از شایعترین بیماری‌ها و علل مرگ و میر در دنیای امروز بیماری‌های قلبی است. +در تشخیص این نوع بیماری‌ها معمولا عواملی چون سن، جنسیت، فشار خون، میزان کلسترول و ... مدنظر قرار می‌گیرند و در نهایت میزان ریسک بیمار در مقابل بیماری‌های قلبی تعیین می‌شود. +در این پژوهش انتظار می‌رود با استفاده از هریک از روش‌های یادگیری ماشین (مثلا دسته‌بندی) به تشخیص این بیماری پرداخته شود. +برای این منظور می‌توان از داده‌های دانشگاه ایرواین که لینک آن در قسمت لینک‌های مفید قرار دارد استفاده کنید. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ [Detrano, R., Janosi, A., Steinbrunn, W., Pfisterer, M., Schmid, J., Sandhu, S., Guppy, K., Lee, S., & Froelicher, V. (1989). International application of a new probability algorithm for the diagnosis of coronary artery disease. American Journal of Cardiology, 64,304--310. ](http://rexa.info/paper/b884ce2f4aff7ed95ce7bfa7adabaef46b88c60c) ++ [David W. Aha & Dennis Kibler. "Instance-based prediction of heart-disease presence with the Cleveland database." ](http://rexa.info/paper/0519d1408b992b21964af4bfe97675987c0caefc) ++ [Gennari, J.H., Langley, P, & Fisher, D. (1989). Models of incremental concept formation. Artificial Intelligence, 40, 11--61. ](http://rexa.info/paper/faecfadbd4a49f6705e0d3904d6770171b05041f) + +# پیوندهای مفید ++ [Heart Disease Data Set ](http://archive.ics.uci.edu/ml/datasets/Heart+Disease) diff --git a/intrusion-detection.md b/intrusion-detection.md new file mode 100644 index 0000000..b785df8 --- /dev/null +++ b/intrusion-detection.md @@ -0,0 +1,19 @@ +
+ +شناسایی حملات در شبکه‌های کامپیوتری از جنبهٔ اطّلاعات مورد استفاده در مرحلهٔ یادگیری، به دو دستهٔ تشخیص نفوذ و تشخیص ناهنجاری تقسیم می شود. + +در تشخیص نفوذ، هم از ترافیک معمول و هم از ترافیک حمله استفاده می‌شود. برای انجام این مهم، روش‌های متنوّعی مورد استفاده قرار گرفته‌اند که در این پژوهش باید به اختصار مرور شده و در نهایت یکی از این روش‌ها برای تشخیص حملات مورد استفاده قرار گیرند. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Kabiri, Peyman, and Ali A. Ghorbani. "Research on Intrusion Detection and Response: A Survey." IJ Network Security 1.2 (2005): 84-102. + +# پیوندهای مفید ++ [The NSL-KDD Data Set](http://nsl.cs.unb.ca/NSL-KDD) diff --git a/keyword-extraction.md b/keyword-extraction.md index 4473053..77d9fc2 100644 --- a/keyword-extraction.md +++ b/keyword-extraction.md @@ -1,22 +1,21 @@
-# استخراج کلمات کلیدی از متن استخراج کلمات کلیدی به معنای استخراج مجموعه‌ای از کلمات از متن یک سند می‌باشد که بتواند شاخصی برای محتوای سند مربوطه باشد. در واقع وقتی شما در یک موتور جستجو به دنبال یک صفحه خاص و یا متن خاصی در اینترنت می‌گردید. استخراج کلمات کلیدی را برای استفاده در موتور جستجو به صورت دستی انجام می‌دهید. هدف از این پژوهش انجام این کار به صورت خودکار می‌باشد. از کاربردهای استخراج خودکار کلمات کلیدی از متن می‌تواند به بازیابی اطلاعات، کشف تقلب، پیشنهاد برچسب و کلمه کلیدی برای مقالات، موتورهای جستجو و رده‌بندی متن اشاره نمود. در این پژوهش روش‌های مختلف استخراج خودکار کلمات کلیدی از متن معرفی شده و یکی از آن‌ها پیاده‌سازی و ارزیابی می‌شود. -## مقدمه +# مقدمه -## کارهای مرتبط +# کارهای مرتبط -## آزمایش‌ها +# آزمایش‌ها -## کارهای آینده +# کارهای آینده -## مراجع +# مراجع + Kim, Su Nam, et al. "Automatic keyphrase extraction from scientific articles." Language Resources and Evaluation: 1-20. -## لینک‌های مفید +# پیوندهای مفید + [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) + [پیکره فارسی همشهری](http://ece.ut.ac.ir/dbrg/hamshahri/fadownload.html) + [استخراج کلمات کلیدی، میلاد بشیری و بهناز دشتکی، پروژه درس هوش مصنوعی، دانشگاه علم و صنعت ایران، ۱۳۸۸](http://bayanbox.ir/id/468650572679207601?download) diff --git a/lemmatizer.md b/lemmatizer.md index f3225bf..73347da 100644 --- a/lemmatizer.md +++ b/lemmatizer.md @@ -1,3 +1,28 @@
-# ریشه‌یابی واژه‌ها +در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، این شکل ظاهری متفاوت از جهتی نشان‌دهنده معنای متفاوت این واژه‌هاست، اما با توجه به این که تمامی آن‌ها از یک ریشه مشتق شده‌اند، از نظر معنا قرابت نسبتا زیادی خواهند داشت. ازهمین رو در بسیاری از کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات، نیاز داریم تا همه مشتقات یک واژه را به ریشه‌ی آن، که همان شکل ساده واژه می‌باشد، تبدیل نماییم. سامانه‌ای که این تبدیل را انجام دهد اصطلاحا ریشه‌یاب واژه و یا Lemmatizer می‌نامیم. + +برای ریشه‌یابی واژه روش‌های متفاوتی از قبیل روش‌های مبتنی بر قاعده، روش‌های مبتنی بر واژه‌نامه یا وردنت، روش‌های مبتنی بر یادگیری و ... وجود دارد که در این پژوهش این روش‌ها بررسی و پیاده‌سازی می‌شوند. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +## مراجع ++ Manning, Christopher D, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. New York: Cambridge University Press, 2008. Print. ++ Loponen, Aki, and Kalervo Järvelin. "A dictionary-and corpus-independent statistical lemmatizer for information retrieval in low resource languages." Multilingual and Multimodal Information Access Evaluation. Springer Berlin Heidelberg, 2010. 3-14. ++ Sarabi, Zahra, Hooman Mahyar, and Mojgan Farhoodi. "ParsiPardaz: Persian Language Processing Toolkit." Computer and Knowledge Engineering (ICCKE), 2013 3th International eConference on. IEEE, 2013. + +# پیوندهای مفید ++ [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm/) ++ [پیکره وابستگی نحوی زبان فارسی](http://dadegan.ir/catalog/perdt) ++ [فارس‌نت (وردنت فارسی)](http://nlp.sbu.ac.ir:8080/farsnet/) ++ [یک نمونه برای زبان فارسی](http://step1.nlplab.sbu.ac.ir/stemmer/) ++ [یادگیری ماشین در پایتون](http://www.scikit-learn.org) ++ [رابط توسعه ویراستیار](http://virastyar.ir/development) ++ [Difference Between Stemming and Lemmatization](http://www.ideaeng.com/stemming-lemmatization-0601) ++ [Miltilingual open-source lemmatizer](http://lemmatise.ijs.si/Software) diff --git a/named-entity-recognition.md b/named-entity-recognition.md index 1d25f56..4b41cf5 100644 --- a/named-entity-recognition.md +++ b/named-entity-recognition.md @@ -1,6 +1,5 @@
-# تشخیص موجودیت‌های نامدار در متن موجودیت‌های نام‌دار در زبان به مجموعه‌ای از اسامی مانند نام افراد، سازمان‌ها، مکان‌ها، و... می‌باشد. شناسایی موجودیت‌های نام‌دار در متن مسئله پیدا کردن این موجودیت‌ها از متن خام و همچنین شناسایی نوع موجودیت است. برای مثال: @@ -40,23 +39,25 @@ در این پژوهش روش‌های تضحیص خودکار موجودیت‌های نام‌دار در متن معرفی شده و یکی از آن‌ها برای زبان فارسی پیاده‌سازی و آزمایش خواهد شد. -## مقدمه +# مقدمه -## کارهای مرتبط +# کارهای مرتبط -## آزمایش‌ها +# آزمایش‌ها -## مراجع +# کارهای آینده + +# مراجع + Jurafsky, Daniel, and James H. Martin. 2009. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd edition. Prentice-Hall. + Nadeau, David, and Satoshi Sekine. "A survey of named entity recognition and classification." Lingvisticae Investigationes 30.1 (2007): 3-26. + M. Asgari Bidhendi, et al., "Extracting person names from ancient Islamic Arabic texts", in Proceedings of LREC-Rel, pp. 1-6, 2012. -+ پونه سادات مرتضوي، مهرنوش شمس فرد، "شناسايي موجوديت هاي نام دار در متون فارسي"، پانزدهمين كنفرانس بين المللي سالانه انجمن كامپيوتر ايران، 1388 ++ پونه سادات مرتضوی، مهرنوش شمس فرد، "شناسایی موجودیت های نام دار در متون فارسی"، پانزدهمین کنفرانس بین المللی سالانه انجمن کامپیوتر ایران، 1388 -##لینک‌های مفید -+ [Stanford Named Entity Recognizer(NER)](http://nlp.stanford.edu/software/CRF-NER.shtml) +# پیوندهای مفید + [تشخیص موجودیت‌های نام‌دار، پروژه درس هوش مصنوعی نیمسال دوم ۸۹-۸۸ دانشگاه علم و صنعت](http://bayanbox.ir/id/6189680504542343855?download) + [تشخیص موجودیت‌های اسمی در متن، پروژه درس هوش مصنوعی نیمسال اول ۹۲-۹۱ دانشگاه علم و صنعت](http://bayanbox.ir/id/1685090304266467232?download) -+ [سیستم شناسایی و طبقه بندی اسامی در متون فارسی](http://www.sid.ir/FA/ViewPaper.asp?ID=185593&varStr=3.14159265358979;%D8%A7%D8%B5%D9%81%D9%87%D8%A7%D9%86%D9%8A%20%D8%B3%D9%8A%D8%AF%D8%B9%D8%A8%D8%AF%D8%A7%D9%84%D8%AD%D9%85%D9%8A%D8%AF,%D8%B1%D8%A7%D8%AD%D8%AA%D9%8A%20%D9%82%D9%88%DA%86%D8%A7%D9%86%D9%8A%20%D8%B3%D8%B9%D9%8A%D8%AF,%D8%AC%D9%87%D8%A7%D9%86%DA%AF%D9%8A%D8%B1%D9%8A%20%D9%86%D8%A7%D8%AF%D8%B1;%D9%BE%D8%B1%D8%AF%D8%A7%D8%B2%D8%B4%20%D8%B9%D9%84%D8%A7%D9%8A%D9%85%20%D9%88%20%D8%AF%D8%A7%D8%AF%D9%87%20%D9%87%D8%A7;1389;-;1%20%28%D9%BE%D9%8A%D8%A7%D9%BE%D9%8A%2013%29;77;888) ++ [سیستم شناسایی و طبقه بندی اسامی در متون فارسی](http://www.sid.ir/FA/VEWSSID/J_pdf/35213891306.pdf) + [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) -+ [Named Entity Recognition with NLTK](http://nltk.org/book/ch07.html#named_entity_recognition_index_term) + [کتابخانه ابزار یادگیری ماشین برای پایتون](http://scikit-learn.org/stable/) ++ [Named Entity Recognition with NLTK](http://nltk.org/book/ch07.html#named_entity_recognition_index_term) ++ [Stanford Named Entity Recognizer(NER)](http://nlp.stanford.edu/software/CRF-NER.shtml) diff --git a/plan-optimization.md b/plan-optimization.md index 89cc632..39ca866 100644 --- a/plan-optimization.md +++ b/plan-optimization.md @@ -1,13 +1,14 @@
-# بهینه‌سازی نقشه ساختمان در این پروژه شما با استفاده از خانواده الگوریتم‌های ژنتیک سعی می‌کنید، نقشه‌ای بهینه برای ساختمان طراحی کنید. در واقع محصول شما باید از مساحت زمین مشخص‌شده به عنوان ورودی، بهترین استفاده را برای قرار دادن اتاق‌ها بکند. تعریف دقیق مساله بر عهده خود شماست و می‌توانید دیگر معیارهای یک نقشه خوب، مثل میزان نورگیری فضاها را هم مدل‌سازی کنید. -## مقدمه +# مقدمه -## کارهای مرتبط +# کارهای مرتبط -## آزمایش‌ها +# آزمایش‌ها -## مراجع +# کارهای آینده + +# مراجع + علیرضا نوریان، "طراحی نقشه ساختمان با استفاده از محاسبات تکاملی"، پایان‌نامه کارشناسی، دانشگاه علم و صنعت ایران، ۱۳۹۰. [لینک](https://dl.dropboxusercontent.com/u/90405495/undergrad-report.pdf) diff --git a/plate-position-recognition.md b/plate-position-recognition.md new file mode 100644 index 0000000..70848c0 --- /dev/null +++ b/plate-position-recognition.md @@ -0,0 +1,23 @@ +
+ +تشخیص خودکار پلاک خودرو، از مهمترین نیازهای سیستم‌‌های کنترل خودکار ترافیک است. روزانه صدها و شاید هزاران تخلف ترافیکی روی می‌دهد و توسط دوربینهای مخصوص، تصویر خودروی متخلف ضبط می‎شود. اگر قرار باشد تمام این تصاویر توسط انسان بررسی شده و شماره پلاک خودرو به صورت دستی وارد شود، زمان و نیروی انسانی زیادی تلف خواهد شد. لذا تشخیص خودکار موقعیت پلاک خودرو و شناسایی شماره پلاک توسط نرم افزار اهمیت می‌یابد. + +علاوه بر کنترل ترافیک، تشخیص خودکار پلاک، می‌تواند فرایند ورود و خروج خودروها در موسسات و سازمانها و پایانه‌ها را تسهیل کند. به این ترتیب کار نگهبانها آسانتر شده و هم سازمان و هم مراجعین، احساس رضایت بیشتری خواهند داشت. + +در این پروژه انتظار می‌رود در یک تصویر که شامل یک یا چند خودرو می‌باشد محل پلاک هر خودرو تشخیص داده شود. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع + +# پیوندهای مفید ++ [کتابخانه اپن‌سی‌وی](http://opencv.org) ++ [اپن‌سی‌وی در پایتون](http://docs.opencv.org/trunk/doc/py_tutorials/py_tutorials.html) ++ [نصب اپن‌سی‌وی در ابونتو](https://help.ubuntu.com/community/OpenCV) ++ [شناسایی اجسام در تصاویر با اپن‌سی‌وی](http://achuwilson.wordpress.com/2011/07/01/create-your-own-haar-classifier-for-detecting-objects-in-opencv/) diff --git a/pos-tagger.md b/pos-tagger.md index 7170116..0ba66b5 100644 --- a/pos-tagger.md +++ b/pos-tagger.md @@ -1,23 +1,24 @@
-# مشخص کردن برچسب اجزای سخن یکی از خصوصیاتی که به عنوان ورودی در اکثر وظایف پردازش زبان طبیعی استفاده می‌شود، برچسب اجزای سخن است. برای این منظور یک مجموعه تگ (tagset) مانند شکل زیر انتخاب می‌شود و به هر واژه در متن یک برچسب اختصاص داده خواهد شد. ![alt sample tagset](http://fumblog.um.ac.ir/gallery/249/Taggset.jpg) -## مقدمه +# مقدمه -## کارهای مرتبط +# کارهای مرتبط -## آزمایش‌ها +# آزمایش‌ها -## مراجع +# کارهای آینده + +# مراجع + [Seraji, Mojgan. "A statistical part-of-speech tagger for Persian." Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011. 2011.](http://uu.diva-portal.org/smash/get/diva2:421097/FULLTEXT02) ([دریافت مدل](http://stp.lingfil.uu.se/~mojgan/tagper.html)) + [Mohseni, Mahdi, and Behrouz Minaei-Bidgoli. "A Persian Part-Of-Speech Tagger Based on Morphological Analysis." LREC. 2010.](http://www.lrec-conf.org/proceedings/lrec2010/pdf/107_Paper.pdf) + [Shamsfard, Mehrnoush, and Hakimeh Fadaei. "A Hybrid Morphology-Based POS Tagger for Persian." LREC. 2008.](http://www.lrec-conf.org/proceedings/lrec2008/pdf/875_paper.pdf) + [Azimizadeh, Ali, Mohammad Mehdi Arab, and Saeid Rahati Quchani. "Persian part of speech tagger based on Hidden Markov Model." 9th International Conference on the Statistical Analysis of Textual Data. 2008.](http://lexicometrica.univ-paris3.fr/jadt/jadt2008/pdf/azimizadeh-arab-quchani.pdf) -## لینک‌های مفید +# پیوندهای مفید + [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) + [برچسب‌گذاری خودکار اجزای واژگانی کلام، پروژه درس هوش مصنوعی، دانشگاه علم و صنعت، 1388](http://bayanbox.ir/id/7261204785026299944?download) + [برچسب‌گذاری بر اساس مقوله دستوری، پروژه درس هوش مصنوعی، دانشگاه علم و صنعت، 1388](http://bayanbox.ir/id/7069998416872188020?download) diff --git a/prosody.md b/prosody.md new file mode 100644 index 0000000..e1d681d --- /dev/null +++ b/prosody.md @@ -0,0 +1,34 @@ +
+ +> دلا در بوته آتش درآ مردانه بنشین خوش [مفاعیلن مفاعیلن مفاعیلن مفاعیلن] +> +> که از تاثیر این آتش چنان آیینه شد آهن [مفاعیلن مفاعیلن مفاعیلن مفاعیلن] + +وزن شعر، همان چیزی است که ما از حضور آهنگین واژه‌ها متناسب با مفهوم شعر در مصرع‌ها دریافت می‌کنیم. در واقع زیبایی و آهنگین بودن شعر و همچنین تمایز آن با کلام عادی، در همین وجود وزن عروضی آن نهفته است. مهمترین عاملی که در وزن اشعار مؤثر است تساوی هجاهای هر مصراع است. وزن همواره مورد توجه شاعران بوده است و تقریبا غیر از قالب شعر نو که معاصر است، در میان شاعران بزرگ کمتر شاعری را میتوان یافت که سرودن شعر بدون وزن را مبنای کار خویش قرار داده باشد.زبانشناسان با استفاده از وزن عروضی به راحتی در مورد اشعار شعرا، مقتضیات زمانی شاعر، زندگی شاعر و ... نظر میدهند. + +در این پژوهش مسئله تشخیص وزن عروضی اشعار به صورت یک مسئله باناظر تعریف شده است و قصد داریم با روش‌های یادگیری ماشین، وزن عروضی را از روی مجموعه داده آموزشی یاد گرفته و سپس برای هر بیت آن را به صورت خودکار تشخیص دهیم. + +نمونه‌ای از داده آموزشی: + +![تصویر نمونه](http://dadegan.ir/sites/default/files/uploads/dadegan/samples/D3911108c_Sample.jpg) + +در نتیجه در این پژوهش سامانه‌ای برای تشخیص خودکار وزن عروضی در اشعار پیاده‌سازی خواهد شد. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ محمدمهدی مجیری، و بهروز مینایی بیدگلی. (۱۳۸۷). تشخیص وزن عروضی اشعار فارسی: کاربرد جدیدی از متن کاوی. ارائه شده در دومین کنفرانس داده کاوی ایران، تهران ++ محمد کاظم کاظمی، "روزنه؛ مجموعه آموزشی شعر"، انتشارات ضریح آفتاب، 1377. + +# پیوندهای مفید ++ [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) ++ [مجموعه داده عروض](http://dadegan.ir/catalog/D3911108c) ++ [یک نمونه](http://www.prosody.ir/index.php?option=com_wrapper&view=wrapper&Itemid=29) ++ [سامانه تشخیص خودکار وزن عروضی اشعار فارسی، پروژه درس هوش مصنوعی، دانشگاه علم و صنعت، ۱۳۸۸](http://bayanbox.ir/id/9133545052522047323?download) ++ [یادگیری ماشین در پایتون](http://scikit-learn.org) diff --git a/quran-detection.md b/quran-detection.md new file mode 100644 index 0000000..07adf18 --- /dev/null +++ b/quran-detection.md @@ -0,0 +1 @@ +
diff --git a/quran-topic-modeling.md b/quran-topic-modeling.md new file mode 100644 index 0000000..ae1b4a4 --- /dev/null +++ b/quran-topic-modeling.md @@ -0,0 +1,22 @@ +
+ +در مدل‌سازی موضوعی، فرض می‌کنیم که مجموعه متون ورودی از روی چند موضوع نامعلوم ساخته شده‌اند و باید این موضوعات را پیدا کنیم. هر موضوع یک توزیع احتمال نامعلوم روی واژه‌ها است و هر متن توزیع احتمالی روی موضوع‌ها. + +در این پروژه شما باید بعد از *فهمیدن* فرایند مدل‌سازی موضوعی، تلاش کنید موضوعات بیان‌شده را برای آیات قرآن پیدا کنید. داده‌های ورودی شما **ظاهر آیات به همراه ترجمه و تفسیر آنها** هستند. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Blei, David M. "Probabilistic topic models." Communications of the ACM 55.4 (2012): 77-84. + +# پیوندهای مفید ++ [ابزار مدل‌سازی موضوعی در پایتون](https://github.com/piskvorky/gensim) ++ [ابزار پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) ++ [پیکره قرآن تنزیل](http://tanzil.net/wiki/Resources) ++ [پیکره تفاسیر اهل سنت](http://www.textminingthequran.com/wiki/Tasir_corpus) diff --git a/recommendation-system.md b/recommendation-system.md index a99b25e..f7f29f6 100644 --- a/recommendation-system.md +++ b/recommendation-system.md @@ -1,15 +1,17 @@
-# سامانه توصیه‌گر +پیشنهاد دادن آنچه مخاطب از آن استقبال خواهد کرد، برعهده سامانه‌های توصیه‌گر است. این سامانه‌ها که امروز ما کاربر بسیاری از آنها هستیم، سعی می‌کنند از روی علاقه‌مندی‌های ما و دیگران، مثلا اینکه ما چه کتاب‌هایی را خوانده‌ایم و دیگران که علایقی مشابه ما داشته‌اند، مثلا چه کتاب‌هایی را خوانده‌اند، پیشنهاد مناسبی به ما بدهند. -## مقدمه +# مقدمه -## کارهای مرتبط +# کارهای مرتبط -## آزمایش‌ها +# آزمایش‌ها -## مراجع +# کارهای آینده -## لینک‌های مفید -+ [Machine Learning Video Lectures - Recommender Systems (Week 9)](https://class.coursera.org/ml-2012-002/lecture) +# مراجع + +# پیوندهای مفید + [داده های ارزیابی نمونه](http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data) ++ [Machine Learning Course - Recommender Systems](https://class.coursera.org/ml-003/lecture/preview) diff --git a/reinforcement-learning-the-cake-problem.md b/reinforcement-learning-the-cake-problem.md index b93411d..9ae17af 100644 --- a/reinforcement-learning-the-cake-problem.md +++ b/reinforcement-learning-the-cake-problem.md @@ -1,26 +1,26 @@
-# درست کردن کیک با استفاده از یادگیری تقویتی -يادگيري تقويتي روشي است که در آن عامل با در نظر گرفتن حالت محيط، از بين همه اعمال ممکن يکي را انتخاب مي کند و محيط در ازاي انجام آن عمل، يک سيگنال عددي به نام پاداش به عامل باز مي گرداند. -هدف عامل اين است که از طريق سعي و خطا سياستي را بيابد که با دنبال کردن آن به بيشترين پاداش ممکن برسد. -در اين پروژه سعي داريم به يک عامل ياد بدهيم چگونه مواد مورد نياز براي درست کردن يک کيک را با استفاده از يادگيري تقويتي جمع آوري کند. -محيط به صورت يک ماز است که يک هيولا در آن وجود دارد و در يک سري از خانه ها چاله وجود دارد که مانع عامل ما هستند. -عامل بايد سه ماده آرد، شکر و تخم مرغ را در کوتاهترين زمان جمع آوري کند بدون آنکه هيولا او را بگيرد. +یادگیری تقویتی روشی است که در آن عامل با در نظر گرفتن حالت محیط، از بین همه اعمال ممکن یکی را انتخاب می کند و محیط در ازای انجام آن عمل، یک سیگنال عددی به نام پاداش به عامل باز می گرداند. +هدف عامل این است که از طریق سعی و خطا سیاستی را بیابد که با دنبال کردن آن به بیشترین پاداش ممکن برسد. +در این پروژه سعی داریم به یک عامل یاد بدهیم چگونه مواد مورد نیاز برای درست کردن یک کیک را با استفاده از یادگیری تقویتی جمع آوری کند. +محیط به صورت یک ماز است که یک هیولا در آن وجود دارد و در یک سری از خانه ها چاله وجود دارد که مانع عامل ما هستند. +عامل باید سه ماده آرد، شکر و تخم مرغ را در کوتاهترین زمان جمع آوری کند بدون آنکه هیولا او را بگیرد. -![تصویر محیط](https://www.dropbox.com/s/h26izmljoijtpzu/Cake_problem.PNG) +![تصویر محیط](http://bayanbox.ir/id/8971829688117353036?view) -## مقدمه +# مقدمه -## کارهای مرتبط +# کارهای مرتبط -## آزمایش‌ها +# آزمایش‌ها -## مراجع -+ R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, -+ United States of America: MIT Press, 1998. +# کارهای آینده -## لینک‌های مفید -+ [](http://en.wikipedia.org/wiki/Reinforcement_learning) -+ [](https://www.dropbox.com/s/6c5q3lbppa8qaag/Value_Iteration.pdf) -+ [](https://www.dropbox.com/s/zi1p2jkgohjhv5b/TD_Sarsa.pdf) -+ [](https://www.dropbox.com/s/2elzbgh9qnym476/Performance%20Improvement%20of%20a%202D%20Soccer%20Simulation%20agent%20using%20Rainforcement%20Learning.pdf) +# مراجع ++ محمد غضنفری، "بهبود عملکرد عامل شبیه‌سازی فوتبال دوبعدی با استفاده از یادگیری تقویتی "، پایان‌نامه کارشناسی، دانشگاه علم و صنعت ایران، ۱۳۹2. [لینک](https://www.dropbox.com/s/2elzbgh9qnym476/Performance%20Improvement%20of%20a%202D%20Soccer%20Simulation%20agent%20using%20Rainforcement%20Learning.pdf) ++ R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, United States of America: MIT Press, 1998. + +# پیوندهای مفید ++ [یک نمونه استفاده از این مسئله برای پیاده‌سازی روش سارسا و یادگیری کیو](https://www.dropbox.com/s/zi1p2jkgohjhv5b/TD_Sarsa.pdf) ++ [یک نمونه استفاده از این مسئله برای پیاده‌سازی روش value iteration و policy iteration ](https://www.dropbox.com/s/6c5q3lbppa8qaag/Value_Iteration.pdf) ++ [Reinforcement learning](http://en.wikipedia.org/wiki/Reinforcement_learning) diff --git a/sentiment-analysis.md b/sentiment-analysis.md index 04e226a..29d242f 100644 --- a/sentiment-analysis.md +++ b/sentiment-analysis.md @@ -1,3 +1,22 @@
-# تشخیص لحن نظرات +وقتی برای یک محصول هزاران نظر توسط استفاده کننده‌ها قرار داده می‌شود، با چالش تحلیل این نظرات مواجهیم و اینکه بلاخره مخاطب چقدر از محصول ما راضی است. این مشکل وقتی شدیدتر می‌شود که مخاطب بی‌حوصله، نظرش را در چندین حرف *توییت* می‌کند و حالا ما باید بفهمیم که منظور مخاطب از این واژه‌های اختصاری و شکلک‌های خندان یا عصبانی چیست. بگذریم از مواقعی که برای خود انسان هم فهمیدن لحن نظر، چندان آسان نیست، مثل این یکی: + +> کتاب خوبی بود، ولی فصل آخرش رو یه‌کم سخته که تنهایی بخونی! + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Pang, Bo, Lillian Lee, and Shivakumar Vaithyanathan. "Thumbs up? Sentiment Classification using Machine Learning Techniques." ++ Liu, Bing, and Lei Zhang. "A survey of opinion mining and sentiment analysis." Mining Text Data. Springer US, 2012. 415-463. + +# پیوندهای مفید ++ [استفاده از یادگیری عمیق برای تشخیص لحن نظرات](http://nlp.stanford.edu/sentiment) ++ [Natual Language Processing Course - Sentiment Analysis](https://class.coursera.org/nlp/lecture/preview) + diff --git a/skill-learning-soccer-simulation.md b/skill-learning-soccer-simulation.md new file mode 100644 index 0000000..75f57ad --- /dev/null +++ b/skill-learning-soccer-simulation.md @@ -0,0 +1,35 @@ +
+ +فوتبال یک بازی چندعامله است که شاید در ظاهر ساده به نظر برسد ولی در عمل از پیچیدگی‌های زیادی برخوردار است. یادگیری مهارت‌های بازی فوتبال برای عامل‌های هوشمند مانند روبات‌ها از جمله زمینه‌های پرطرفدار در حوزه هوش مصنوعی است. + +در این پروژه انتظار می‌رود یکی از مهارتهای فوتبال مانند شوت به دروازه، دریبل، توپ‌ربایی، یارگیری و ... با استفاده از روش‌های یادگیری ماشین به عامل آموخته شود. + +برای این منظور می‌توانید از محیط شبیه‌سازی فوتبال دوبعدی که مناسب برای اینگونه پژوهش‌ها می‌باشد استفاده کنید. برای انجام این پروژه ترجیحا باید با محیط شبیه‌سازی فوتبال دوبعدی آشنا باشید. البته در صورت عدم آشنایی مشکلی پیش نخواهد آمد و فقط باید کمی وقت بیشتری بگذارید. + +این شبیه‌سازی از دو تیم متشکل از 11 برنامه کامپیوتری خودمختار (عامل ) که هر یک در یک زمین فوتبال مجازی دوبعدی به بازی فوتبال می‌پردازند، تشکیل شده است. این زمین مجازی توسط یک سرور ساخته می‌شود. این سرور همه چیز را درباره بازی می‌داند مثل محل کنونی توپ و همه بازیکنان، فیزیک بازی و غیره. بازی بیشتر متکی بر ارتباط بین سرور و هر عامل می‌باشد. از یک طرف هر عامل با استفاده از حسگرهای مجازی خود (بینایی، شنوایی و فیزیکی) ورودی دارای خطا دریافت می‌کند و از طرف دیگر می‌تواند یک دستور پایه‌ای (مثل ضربه به توپ ، حرکت کردن یا چرخیدن ) انجام دهد تا بر محیط تأثیر بگذارد. + +از جمله روش‌های پیشنهادی برای یادگیری در اینگونه محیط‌ها یادگیری تقویتی است. + +# مقدمه + +# کارهای مرتبط + +# مراجع + +# کارهای آینده + +# مراجع ++ R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, United States of America: MIT Press, 1998. ++ محمد غضنفری، "بهبود عملکرد عامل شبیه‌سازی فوتبال دوبعدی با استفاده از یادگیری تقویتی "، پایان‌نامه کارشناسی، دانشگاه علم و صنعت ایران، ۱۳۹2. [[لینک]](https://www.dropbox.com/s/2elzbgh9qnym476/Performance%20Improvement%20of%20a%202D%20Soccer%20Simulation%20agent%20using%20Rainforcement%20Learning.pdf) ++ M. Ghazanfari et al., Axiom2013 Team Description Paper, RoboCup 2013, Eindhoven, Netherlands. + [[link]](https://www.dropbox.com/s/ueqzw1ikukm5uxb/Axiom2013_TDP.pdf) ++ M. Ghazanfari et al., Axiom2012 Team Description Paper, RoboCup 2012, Mexico City, Mexico. + [[link]](https://www.dropbox.com/s/sk9l0t084s4d9kt/Axiom2012_TDP.pdf) ++ P. Stone, (2006) "Half Field Offense in RoboCup Soccer: A Multi-agent Reinforcement Learning Case Study" in .RoboCup 2006, Bremen, Germany +[[link]](https://www.dropbox.com/s/6av9e1435da8wdq/Half%20Field%20O%EF%AC%80ense%20in%20RoboCup%20Soccer%20A%20Multiagent%20Reinforcement%20Learning%20Case%20Study.pdf) + + +# پیوندهای مفید ++ [RoboCup 2D Soccer Simulation League](http://en.wikipedia.org/wiki/RoboCup_2D_Soccer_Simulation_League) ++ [Reinforcement learning](http://en.wikipedia.org/wiki/Reinforcement_learning) ++ [The RoboCup Soccer Simulator in Source Forge ](http://sourceforge.net/projects/sserver/files/) diff --git a/spam-detection.md b/spam-detection.md new file mode 100644 index 0000000..167fea6 --- /dev/null +++ b/spam-detection.md @@ -0,0 +1,25 @@ +
+ +هرزنامه که معمولا تبلیغاتی هستند، ویژگی‌های مشابهی دارند. مثلا آنهایی که محصولی را تبلیغ می‌کنند از *قیمت آن* حرف می‌زنند و یا می‌گویند که *فرصت‌تان چقدر استثنایی* است. حتی رنگارنگ بودن بخش‌های نوشته می‌تواند نشان از بی‌ارزش بودن آن باشد. از آنجایی که این نشانه‌های قطعی نیستند و ما هم در ایمیل‌هایی که برای هم می‌فرستیم ممکن است مثلا از قیمت حرف بزنیم، نمی‌توانیم با چند قانون ساده هرزنامه‌ها را جدا کنیم. این‌جور مواقع سعی می‌کنیم از روی مجموعه هرزنامه‌های موجود یاد بگیریم که هرزنامه‌ها چه ویژگی‌هایی دارند. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Liu, Bing, and Lei Zhang. "A survey of opinion mining and sentiment analysis." Mining Text Data. Springer US, 2012. 415-463. ++ Blanzieri, Enrico, and Anton Bryl. "A survey of learning-based techniques of email spam filtering." Artificial Intelligence Review 29.1 (2008): 63-92. + +# پیوندهای مفید ++ [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) ++ [یادگیری ماشین در پایتون](http://scikit-learn.org) ++ [راهنمایی برای استخراج ویژگی از متن زبان طبیعی](http://pyevolve.sourceforge.net/wordpress/?p=1589) ++ [رده‌بندی متون با استفاده از کتابخانه Scikit-learn](http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html) ++ [UCI Spambase Data Set ](https://archive.ics.uci.edu/ml/datasets/Spambase) ++ [WEBSPAM-UK2007 dataset](http://chato.cl/webspam/datasets/uk2007/) ++ [Natual Language Processing Course - Text Classification](https://class.coursera.org/nlp/lecture/preview) ++ [NLTK](http://nltk.org) diff --git a/spelling-correction.md b/spelling-correction.md index 7614b05..4c0776a 100644 --- a/spelling-correction.md +++ b/spelling-correction.md @@ -1,14 +1,19 @@
-# خطایابی املایی +# مقدمه -## مقدمه +# کارهای مرتبط -## کارهای مرتبط +# آزمایش‌ها -## آزمایش‌ها +# کارهای آینده -## مراجع +# مراجع -## لینک‌های مفید -+ [How to write a spelling corrector](http://norvig.com/spell-correct.html) +# پیوندهای مفید ++ [تمرین خطایابی املایی درس پردازش زبان طبیعی به همراه داده‌های یادگیری](http://www.cs.indiana.edu/~alexr/nlpclass_2012/hw3.html) ++ [‫روشی جدید در خطایابی املایی در زبان فارسی‬](http://www.cs.columbia.edu/~rasooli/papers/AnewapproachforPersianspellchecking.pdf) ++ [خطایابی املایی در پروژه ویراستیار](http://www.virastyar.ir/content/خطایابی-املایی) ++ [اصول و مبانی خطایابی املایی، پروژه درس هوش مصنوعی، دانشگاه علم و صنعت، ۱۳۸۸](http://bayanbox.ir/id/4167494434444049956?download) ++ [Natual Language Processing Course - Spelling Correction](https://class.coursera.org/nlp/lecture/preview) ++ [How to write a spelling corrector](http://norvig.com/spell-correct.html) \ No newline at end of file diff --git a/sudoku-solver.md b/sudoku-solver.md index f279df4..7b4974e 100644 --- a/sudoku-solver.md +++ b/sudoku-solver.md @@ -1,22 +1,27 @@
-# حل تصویری جدول سودوکو -نوع متداول سودوکو یک جدول 9x9 است که کل جدول هم به 9 جدول کوچکتر 3x3 تقسیم شده است. در این جدول چند عدد به طور پیش فرض قرار داده شده که باید باقی اعداد را با رعایت سه قانون زیر یافت : -* قانون اول: در هر سطر جدول اعداد 1 تا 9 بدون تکرار قرار گیرد. -* قانون دوم: در هر ستون جدول اعداد 1 تا 9 بدون تکرار قرار گیرد. -* قانون سوم: در هر ناحیه 3x3 جدول اعداد 1 تا 9 بدون تکرار قرار گیرد. +نوع متداول سودوکو یک جدول 9x9 است که کل جدول هم به 9 جدول کوچکتر 3x3 تقسیم شده است. در این جدول چند عدد به طور پیش فرض قرار داده شده که باید باقی اعداد را با رعایت سه قانون زیر یافت: + ++ قانون اول: در هر سطر جدول اعداد 1 تا 9 بدون تکرار قرار گیرد. ++ قانون دوم: در هر ستون جدول اعداد 1 تا 9 بدون تکرار قرار گیرد. ++ قانون سوم: در هر ناحیه 3x3 جدول اعداد 1 تا 9 بدون تکرار قرار گیرد. در این پژوهش از شما خواسته شده است تا با دریافت عکس جدول ورودی، حل آن را در همان عکس نمایش دهید. -![](http://bayanbox.ir/id/7175801468149608955?view) -![](http://bayanbox.ir/id/8059289155252202266?view) +![تصویر اول](http://bayanbox.ir/id/7175801468149608955?view) +![تصویر دوم](http://bayanbox.ir/id/8059289155252202266?view) + +# مقدمه -## مقدمه +# کارهای مرتبط -## کارهای مرتبط +# آزمایش‌ها -## آزمایش‌ها +# کارهای آینده -## مراجع +# مراجع -## لینک‌های مفید +# پیوندهای مفید ++ [کتابخانه اپن‌سی‌وی](http://opencv.org) ++ [اپن‌سی‌وی در پایتون](http://docs.opencv.org/trunk/doc/py_tutorials/py_tutorials.html) + \ No newline at end of file diff --git a/summerization.md b/summerization.md index 67454b3..cdcd8f2 100644 --- a/summerization.md +++ b/summerization.md @@ -1,24 +1,23 @@
-# خلاصه‌سازی متون -به فرآیندی که طی آن یک متن نسبتا بزرگ به یک متن کوچکتر تبدیل می‌شود و کلیه اطلاعات مهم و با اهمیت متن اصلی در متن کوچکتر نیز باقی می‌ماند خلاصه سازی می‌گویند.نکته مهم در خلاصه سازی این است که جملات و عبارات بی اهمیت متن اصلی در متن خلاصه بیان نشودوهمچنین کاربر با خواندن متن خلاصه مفهموم متن اصلی را دریافت کرده باشد. +به فرآیندی که طی آن یک متن نسبتا بزرگ به یک متن کوچکتر تبدیل می‌شود و کلیه اطلاعات مهم و با اهمیت متن اصلی در متن کوچکتر نیز باقی می‌ماند خلاصه سازی می‌گویند.نکته مهم در خلاصه سازی این است که جملات و عبارات بی اهمیت متن اصلی در متن خلاصه بیان نشودوهمچنین کاربر با خواندن متن خلاصه مفهموم متن اصلی را دریافت کرده باشد. حال مسئله این است که فرآیند خلاصه سازی توسط ماشین به چه شکل انجام می‌شود؟ در این پژوهش روش‌های مختلف خلاصه‌سازی خودکار معرفی شده و یکی از آن‌ها روی زبان فارسی پیاده‌سازی می‌شود. -## مقدمه +# مقدمه -## کارهای مرتبط +# کارهای مرتبط -## آزمایش‌ها +# آزمایش‌ها -## کارهای آینده +# کارهای آینده -## مراجع +# مراجع + Hovy, Eduard, and Chin-Yew Lin. "Automated text summarization and the SUMMARIST system." Proceedings of a workshop on held at Baltimore, Maryland: October 13-15, 1998. Association for Computational Linguistics, 1998. + Das, Dipanjan, and André FT Martins. "A survey on automatic text summarization." Literature Survey for the Language and Statistics II course at CMU 4 (2007): 192-195. -+ [م.عبدوس، بررسی روش‌های خلاصه‌سازی خودکار متون و پیاده‌سازی یک نمونه عملی برای زبان فارسی، پایان‌نامه کارشناسی، دانشگاه علم و صنعت ایران، ۱۳۹۲](http://bayanbox.ir/id/4450824027451101101?download) ++ [م.عبدوس، بررسی روش‌های خلاصه‌سازی خودکار متون و پیاده‌سازی یک نمونه عملی برای زبان فارسی، پایان‌نامه کارشناسی، دانشگاه علم و صنعت ایران، ۱۳۹۲](http://bayanbox.ir/id/4450824027451101101?download) -## لینک‌های مفید +# پیوندهای مفید + [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) + [online Text Summarization](http://www.tools4noobs.com/summarize/) + [Text Summarization handbook](http://www.isi.edu/natural-language/people/hovy/papers/05Handbook-Summ-hovy.pdf) diff --git a/tashkeel.md b/tashkeel.md new file mode 100644 index 0000000..d96d29e --- /dev/null +++ b/tashkeel.md @@ -0,0 +1,26 @@ +
+ +در متن‌های به زبان عربی، حرکت‌های کلمات در تعیین نقش معنایی و نحوی کلمه بسیار موثرتر از زبان فارسی هستند. + +در بسیاری از متون عربی، حرکت‌های کلمات حذف می‌شوند که این مسئله برای کاربر انسانی مسلط به زبان عربی غالبا مشکلی ایجاد نخواهد کرد. اما در مورد کاربرانی که به تازگی عربی را فرا گرفته‌اند و یا بر آن مسلط نیستند این مسئله بسیار ابهام‌زا خواهد بود. همچنین برای پردازش متن زبان عربی توسط کامپیوتر، در برخی موارد نیاز به این حرکت‌گذاری وجود خواهد داشت. همین چالش موجب ایجاد مسئله‌ای به نام «حرکت‌گذاری خودکار متن عربی» شد. + +در واقع در این پروژه قرار است متن بدون حرکت به عنوان ورودی به سامانه داده شود و این سامانه بتواند با دقت بالا متن را حرکت‌گذاری نماید. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Alghamdi, Mansour, Zeeshan Muzaffar, and Hazim Alhakami. "Automatic restoration of arabic diacritics: a simple, purely statistical approach." Arabian Journal for Science and Engineering 35.2 (2010): 125. ++ Hifny, Yasser. "Smoothing Techniques for Arabic Diacritics Restoration." submitted to ESOLE (2012). ++ Rashwan, Mohsen AA, et al. "A stochastic arabic diacritizer based on a hybrid of factorized and unfactorized textual features." Audio, Speech, and Language Processing, IEEE Transactions on 19.1 (2011): 166-175. + +# پیوندهای مفید ++ [یک نمونه از سامانه حرکت‌گذار خودکار](http://textmining.noorsoft.org/FA/Diacritization.html) ++ [پیکره قرآن دانشگاه لیدز](http://corpus.quran.com/) ++ [پیکره قرآن تنزیل](http://tanzil.net/wiki/Resources) ++ [یادگیری ماشین در پایتون](http://scikit-learn.org/stable/) diff --git a/texture-classification.md b/texture-classification.md index 3e88437..f2e1a55 100644 --- a/texture-classification.md +++ b/texture-classification.md @@ -1,22 +1,21 @@
-# تشخیص نوع سنگ‌های زینتی با استفاده از ویژگی‌های بافتی یکی از کاربردی ترین مسائل در حوزه ماشین بینایی، تشخیص نوع و دسته بندی تصاویر است. ویژگی های بافتی تصویر از جمله مهمترین ویژگی های قابل استفاده در تحلیل تصاویر، به شمار می آیند. در این پروژه، نمونه های ورودی، تصاویر سطح سنگ های تزئینی از چهار معدن سنگ مختلف هستند. هدف از انجام پروژه، تعیین معدن سنگ برای نمونه های جدید است. در این پروژه نمونه هایی از 4 نوع سنگ متعلق به معادن مختلف مورد بررسی قرار می‌گیرند. + +# مقدمه -## مقدمه +# کارهای مرتبط -## کارهای مرتبط +# آزمایش‌ها -## آزمایش‌ها +#کارهای آینده -##کارهای آینده - -## مراجع +# مراجع + The Handbook of Pattern Recognition and Computer Vision (2nd Edition), by C. H. Chen, L. F. Pau,P. S. P. Wang (eds.), pp. 207-248, World Scientific Publishing Co., 1998. + ROBERT M, “Textural Features for Image Classification”, IEEE TRNSACTIONS ON SYSTEMS, MAN AND CYBERNETICS, VOL. SMC-3,NOVEMBER 1973 + Suresh, “Pattern Based Classification of Stone Textures on a Cubical Mask”, International Journal of Universal Computer Sciences, 2010 -## لینک‌های مفید +# پیوندهای مفید + [کتابخانه یادگیری ماشین در پایتون](http://scikit-learn.org/stable/) diff --git a/transliteration.md b/transliteration.md index b098234..c1fffa2 100644 --- a/transliteration.md +++ b/transliteration.md @@ -1,17 +1,19 @@
-# نویسه‌گردانی از انگلیسی به فارسی -نویسه‌گردانی یعنی تبدیل خودکار صورت یک کلمه از زبان مبدا به زبان مقصد، به طوری که تلفظ کلمه حفظ گردد. برای مثال هدف از نویسه گردانی تبدیل "salam" به "سلام" میباشد. +نویسه‌گردانی یعنی تبدیل خودکار صورت یک کلمه از زبان مبدا به زبان مقصد، به طوری که تلفظ کلمه حفظ گردد. برای مثال هدف از نویسه گردانی تبدیل "salam" به "سلام" می‌باشد. -## مقدمه +# مقدمه -## کارهای مرتبط +# کارهای مرتبط -## آزمایش‌ها +# آزمایش‌ها -## مراجع +# کارهای آینده + +# مراجع + Karimi, Sarvnaz, Falk Scholer, and Andrew Turpin. "Machine transliteration survey." ACM Computing Surveys (CSUR) 43.3 (2011): 17. -## لینک‌های مفید +# پیوندهای مفید + [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm) + [پیکره فارسی همشهری](http://ece.ut.ac.ir/dbrg/hamshahri/fadownload.html) ++ [نویسه‌گردان گوگل](http://www.google.com/intl/fa/inputtools/try/) diff --git a/universal-function-approximation.md b/universal-function-approximation.md index 42452d4..923af55 100644 --- a/universal-function-approximation.md +++ b/universal-function-approximation.md @@ -1,15 +1,16 @@
-# تقریب توابع هدف این پروژه این است که با داشتن یک سری نقاط، تابعی را پیدا کنیم که به بهترین نحو بتواند نقاط را تخمین بزند. -## مقدمه +# مقدمه -## کارهای مرتبط +# کارهای مرتبط -## آزمایش‌ها +# آزمایش‌ها -## مراجع +# کارهای آینده -## لینک‌های مفید +# مراجع + +# پیوندهای مفید + [برازش منحنی](http://en.wikipedia.org/wiki/Curve_fitting) diff --git a/word-alignment.md b/word-alignment.md index 48dc81e..4596f39 100644 --- a/word-alignment.md +++ b/word-alignment.md @@ -1,3 +1,22 @@
-# ایجاد واژه‌نامه از روی پیکره دو زبانه +ایجاد واژه‌نامه از روی پیکره دوزبانه یکی از گام‌های اصلی برای رسیدن به یک سامانه مترجم ماشینی است. ترجمه ماشینی یعنی تبدیل خودکار متن زبان مبدا به متن معادل آن در زبان مقصد. عمده روش‌های ترجمه ماشینی بر مبنای مدل‌های آماری و یادگیری ماشین بنا شده است که از یک پیکره دوزبانه، مجموعه‌ی عظیمی از متن که به هر دو زبان مبدا و مقصد وجود داشته و در سطح جمله هم‌تراز شده‌اند، برای یادگیری معادل‌ها به صورت آماری استفاده می‌کنند. + +پیکره دوزبانه غالبا در سطح جمله هم‌تراز می‌‌شود. حال مسئله اصلی این خواهد بود که چطور می‌شود این جمله‌ها را در سطح کلمه هم‌تراز نموده و واژه‌نامه‌ای به صورت خودکار از کلمات معادل، از روی پیکره دو زبانه استخراج نمود. + +# مقدمه + +# کارهای مرتبط + +# آزمایش‌ها + +# کارهای آینده + +# مراجع ++ Tiedemann, Jorg. "Bitext alignment." Synthesis Lectures on Human Language Technologies 4.2 (2011): 1-165. ++ Och, F.J. and Tillmann, C. and Ney, H. and others 1999, Improved alignment models for statistical machine translation, Proc. of the Joint SIGDAT Conf. on Empirical Methods in Natural Language Processing and Very Large Corpora + +# پیوندهای مفید ++ [پیکره انگلیسی - فارسی میزان](http://www.dadegan.ir/catalog/mizan) ++ [GIZA++: Training of statistical translation models](http://www.statmt.org/moses/giza/GIZA++.html) ++ [Sentence Alignment and Word Alignment: Projects, Papers, Evaluation, etc.](http://www.cse.unt.edu/~rada/wa/)