Skip to content

Commit

Permalink
Merge branch 'master' of github.com:nournia/ai-proposals
Browse files Browse the repository at this point in the history
  • Loading branch information
nournia committed Feb 19, 2014
2 parents eed21ac + 4554521 commit c42ba7c
Show file tree
Hide file tree
Showing 2 changed files with 51 additions and 0 deletions.
30 changes: 30 additions & 0 deletions dependency-parser.md
Original file line number Diff line number Diff line change
@@ -1,3 +1,33 @@
<div dir=rtl>

# تجزیه وابستگی متن
یکی از پیش‌نیازهای اصلی برای حل بسیاری از مسائل موجود در حوزه پردازش زبان طبیعی، وجود تحلیل نحوی از جملات زبان است. برای رسیدن به این هدف دو رویکرد متفاوت وجود دارد:
* [دستور زایشی](http://fa.wikipedia.org/wiki/دستور_زایشی): ابتدا جمله را به دو بخش نهاد و گزاره تقسیم می‌شود و در ادامه به صورت بازگشتی کار تقسیم را تا رسیدن به واژه‌های جمله ادامه می‌دهد.

![alt generative parse tree](http://upload.wikimedia.org/wikipedia/commons/5/54/Parse_tree_1.jpg)
* [دستور وابستگی](http://fa.wikipedia.org/wiki/دستور_وابستگی):وظیفه تجزیه جمله را از فعل اصلی جمله آغاز می کند و در گام اول وابسته‌های مستقیم فعل و در ادامه به صورت بازگشتی وابسته‌های سطح بعدی را تا تحلیل کامل جمله ادامه می‌دهد.

![alt dependency parse tree](http://upload.wikimedia.org/wikipedia/commons/8/8c/Parse2.jpg)

تجزیه وابستگی برای تحلیل زبان‌هایی مثل فارسی که ترتیب واژگان در آن‌ها ثابت نیستند بهتر است. یکی از الگوریتم‌های تجزیه وابستگی که بر روی زبان فارسی دقت بالایی دارد و در عین حال پیاده‌سازی آن ساده است الگوریتم [کاوینگتون](http://www.stanford.edu/~mjkay/covington.pdf) است. تلاش‌هایی برای بهبود این الگوریتم نیز صورت گرفته است مثل [+](http://acl.ldc.upenn.edu/eacl2006/main/papers/04_1_nivre_29.pdf) و [+](http://acl.ldc.upenn.edu/D/D07/D07-1125.pdf).

در این پژوهش از شما خواسته شده است که الگوریتم کاوینگتون را پیاده‌سازی کرده و تلاش کنید دقت آن را بر روی زبان فارسی بهبود بخشید.

## مقدمه

## کارهای مرتبط

## آزمایش‌ها

## مراجع
+ Kübler, S., McDonald, R., & Nivre, J. "Dependency parsing", Synthesis Lectures on Human Language Technologies, Vol. 1, pp. 1–127, 2009.
+ [م. خلاش، "بررسی روش‌های تجزيه در دستور وابستگی"، سمينار کارشناسی ارشد ، دانشگاه علم و صعت ايران، 1390.](http://nlp.iust.ac.ir/downloads/articles/A%20Survey%20on%20Dependency%20Parsing.pdf)
+ [م. خلاش، "ساز و کاری برای کشف تأثير ويژگی‌های مختلف ساخت‌واژی و صرفی بر روی تجزية وابستگی زبان فارسی"، پایان‌نامه کارشناسی اشد، دانشکده مهندسی کامپيوتر، دانشگاه علم و صنعت، 1391.](http://nlp.iust.ac.ir/downloads/articles/Dependency%20Parsing.pdf)
+ [Khallash, M., Hadian, A., & Minaei-Bidgoli, B. "An Empirical Study on the Effect of Morphological and Lexical Features in Persian Dependency Parsing". In Proceedings of the Fourth Workshop on Statistical Parsing of Morphologically Rich Languages, pp. 97–107, 2013.](http://www.aclweb.org/anthology/W/W13/W13-4912.pd)

## لینک‌های مفید
+ [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm)
+ [پیکره درختی وابستگی فارسی اوپسالا](http://dadegan.ir/catalog/updt)
+ [پیکره وابستگی نحوی زبان فارسی (دادگان)](http://dadegan.ir/catalog/perdt)
+ [سامانه جستجو در دادگان](http://search.dadegan.ir)
+ [پیاده‌سازی الگوریتم کاوینگتون](http://www.ai.uga.edu/mc/pronto/)
21 changes: 21 additions & 0 deletions pos-tagger.md
Original file line number Diff line number Diff line change
@@ -1,3 +1,24 @@
<div dir=rtl>

# مشخص کردن برچسب اجزای سخن
یکی از خصوصیاتی که به عنوان ورودی در اکثر وظایف پردازش زبان طبیعی استفاده می‌شود، برچسب اجزای سخن است. برای این منظور یک مجموعه تگ (tagset) مانند شکل زیر انتخاب می‌شود و به هر واژه در متن یک برچسب اختصاص داده خواهد شد.

![alt sample tagset](http://fumblog.um.ac.ir/gallery/249/Taggset.jpg)

## مقدمه

## کارهای مرتبط

## آزمایش‌ها

## مراجع
+ [Seraji, Mojgan. "A statistical part-of-speech tagger for Persian." Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011. 2011.](http://uu.diva-portal.org/smash/get/diva2:421097/FULLTEXT02) ([دریافت مدل](http://stp.lingfil.uu.se/~mojgan/tagper.html))
+ [Mohseni, Mahdi, and Behrouz Minaei-Bidgoli. "A Persian Part-Of-Speech Tagger Based on Morphological Analysis." LREC. 2010.](http://www.lrec-conf.org/proceedings/lrec2010/pdf/107_Paper.pdf)
+ [Shamsfard, Mehrnoush, and Hakimeh Fadaei. "A Hybrid Morphology-Based POS Tagger for Persian." LREC. 2008.](http://www.lrec-conf.org/proceedings/lrec2008/pdf/875_paper.pdf)
+ [Azimizadeh, Ali, Mohammad Mehdi Arab, and Saeid Rahati Quchani. "Persian part of speech tagger based on Hidden Markov Model." 9th International Conference on the Statistical Analysis of Textual Data. 2008.](http://lexicometrica.univ-paris3.fr/jadt/jadt2008/pdf/azimizadeh-arab-quchani.pdf)

## لینک‌های مفید
+ [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm)
+ [برچسب‌گذاری خودکار اجزای واژگانی کلام، پروژه درس هوش مصنوعی، دانشگاه علم و صنعت، 1388](http://bayanbox.ir/id/7261204785026299944?download)
+ [برچسب‌گذاری بر اساس مقوله دستوری، پروژه درس هوش مصنوعی، دانشگاه علم و صنعت، 1388](http://bayanbox.ir/id/7069998416872188020?download)
+ [پیکره بی‌جن‌خان](http://ece.ut.ac.ir/dbrg/bijankhan/)

0 comments on commit c42ba7c

Please sign in to comment.