Skip to content

Commit

Permalink
refine projects
Browse files Browse the repository at this point in the history
  • Loading branch information
nournia committed Feb 19, 2014
1 parent c42ba7c commit 32acc6f
Show file tree
Hide file tree
Showing 42 changed files with 755 additions and 135 deletions.
1 change: 1 addition & 0 deletions .gitignore
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
*~
20 changes: 20 additions & 0 deletions anomaly-detection.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
<div dir=rtl>

شناسایی حملات در شبکه‌های کامپیوتری از جنبهٔ اطّلاعات مورد استفاده در مرحلهٔ یادگیری، به دو دستهٔ تشخیص نفوذ و تشخیص ناهنجاری تقسیم می شود.

در تشخیص ناهنجاری تنها اطّلاعات مربوط به ترافیک معمول شبکه مورد استفاده قرار می‌گیرند. برای تشخیص ناهنجاری رویکردها و روش‌های متنوّعی ارائه شده‌اند که در این پژوهش باید مروری اجمالی بر آن‌ها صورت پذیرد. هم‌چنین یکی از روش‌ها باید برای تشخیص ناهنجاری در شبکه پیاده‌سازی شود.

# مقدمه

# کارهای مرتبط

# آزمایش‌ها

# کارهای آینده

# مراجع
+ Kabiri, Peyman, and Ali A. Ghorbani. "Research on Intrusion Detection and Response: A Survey." IJ Network Security 1.2 (2005): 84-102.

# پیوندهای مفید
+ [The NSL-KDD Data Set](http://nsl.cs.unb.ca/NSL-KDD)
+ [Machine Learning Course - Anomaly Detection](https://class.coursera.org/ml-003/lecture/preview)
17 changes: 17 additions & 0 deletions audio-fingerprinting.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,17 @@
<div dir=rtl>

پیدا کردن یک قطعه آهنگ با شنیدن بخشی از آن، نیاز به نمایه‌سازی مجموعه آهنگ‌ها دارد، درست مثل جستجوی واژه‌ها.

# مقدمه

# کارهای مرتبط

# آزمایش‌ها

# کارهای آینده

# مراجع
+ Wang, Avery. "An Industrial Strength Audio Search Algorithm." ISMIR. 2003.

# پیوندهای مفید
+ [Audio Fingerprinting with Python and Numpy](http://willdrevo.com/fingerprinting-and-audio-recognition-with-python.html)
19 changes: 19 additions & 0 deletions author-detection.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,19 @@
<div dir=rtl>

نویسنده این متن کیست؟ پروژه تشخیص خودکار نویسنده به دنبال روش‌هایی می‌گردد که به این پرسش پاسخ دهد.

در واقع این پروژه باید با استفاده از مجموعه کوچکی (کم‌تر از ۱۰ سند متنی) از یک نویسنده، به ازای هر سند متنی که نویسنده آن مجهول است، به این پرسش پاسخ دهد که آیا نویسنده سند مجهول نیز با سندهای قبل یکسان است یا خیر.

# مقدمه

# کارهای مرتبط

# آزمایش‌ها

# کارهای آینده

# مراجع
+ Efstathios Stamatatos. A Survey of Modern Authorship Attribution Methods. of the American Society for Information Science and Technology, Volume 60, Issue 3, pages 538-556, March 2009.
# پیوندهای مفید
+ [مسابقه تشخیص نویسنده در کنفرانس PAN-2014](http://www.uni-weimar.de/medien/webis/research/events/pan-14/pan14-web/author-identification.html)
+ [مسابقه تشخیص نویسنده در کنفرانس PAN-2013]( [مسابقه تشخیص نویسنده در کنفرانس PAN-2014](http://www.uni-weimar.de/medien/webis/research/events/pan-14/pan14-web/author-identification.html))
27 changes: 27 additions & 0 deletions aya-clustering.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,27 @@
<div dir=rtl>

خوشه‌بندی به فرآیند تبدیل حجم عظیمی از داده‌ها به گروه‌های داده‌ای مشابه گفته می‌شود. به همین صورت خوشه‌بندی متون عبارت است از تبدیل حجم عظیمی از اسناد متنی به گروه‌هایی از متن‌های مشابه؛ که به هر کدام از این گروه‌ها یک خوشه گفته می‌شود. پس مسئله خوشه‌بندی آیات قرآن را نیز می‌توان به صورت گروه‌بندی آیات قرآن به صورت خودکار در گروه آیه‌های هم‌معنی معرفی نمود. برای درک این رابطه‌ی شباهت معنایی بین آیات می‌توان از روش‌های مختلفی از جمله شباهت‌یابی بر مبنای واژه‌های آیه، واژه‌های ترجمه، تفسیر آیه و ... استفاده نمود.

در این پروژه شما باید آیات قرآن را با استفاده از **ظاهر آیات به همراه ترجمه و تفسیر آنها** خوشه‌بندی کنید.

# مقدمه

# کارهای مرتبط

# آزمایش‌ها

# کارهای آینده

# مراجع
+ Ebbesson, Magnus, and Christopher Issal. "Document Clustering." (2010).
+ Berry, Michael W., ed. Survey of Text Mining I: Clustering, Classification, and Retrieval. Vol. 1. Springer, 2004.
+ [م.ایمانی، خوشه‌بندی متون فارسی، پایان‌نامه کارشناسی، داشگاه علم و صنعت ایران، ۱۳۹۱](http://bayanbox.ir/id/8155819707974834975)

# پیوندهای مفید
+ [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm)
+ [خوشه‌بندی با scikit-learn](http://scikit-learn.org/stable/modules/clustering.html#clustering)
+ [یک نمونه کد از K-Means](http://scikit-learn.org/stable/auto_examples/document_clustering.html)
+ [راهنمایی برای استخراج ویژگی از متن زبان طبیعی](http://pyevolve.sourceforge.net/wordpress/?p=1589)
+ [نمونه‌ای از کشف آیات مشابه با استفاده از تفسیر ابن کثیر](http://textminingthequran.com/apps/similarity.php)
+ [پیکره قرآن تنزیل](http://tanzil.net/wiki/Resources)
+ [پیکره تفاسیر اهل سنت](http://www.textminingthequran.com/wiki/Tasir_corpus)
40 changes: 39 additions & 1 deletion captcha-breaking.md
Original file line number Diff line number Diff line change
@@ -1,3 +1,41 @@
<div dir=rtl>

# تشخیص کپچا
معمولا در برنامه‌های وب مثل سامانه‌های آموزش دانشگاه‌ها یا سامانه‌های اینترنت بانک برای جلوگیری از کارهای خرابکارانه توسط ربات‌ها، از کپچا استفاده می‌شود.

یکی از معمول‌ترین شکل کپچا به صورت تصویر است. در این نوع کپچا معمولا حروف و اعدادی انگلیسی به شکلی کنار هم قرار می‌گیرند و از کاربر پرسیده می‌شود که بگوید که این حروف و اعداد چیست. معمولا مسئولین این سایت‌ها فکر می‌کنند که ربات‌ها یا برنامه‌های کامپیوتری نمی‌توانند پاسخ این سؤالات را بدهند.

مواقع زیادی هم رخ می‌دهد که این کپچاها به غیر از اعصاب خوردی چیزی برای ما ندارد.

![کپچای گلستان](http://bayanbox.ir/id/4595269189662952626?view)

در این پروژه ما می‌خواهیم که یک افزونه برای مروگر بنویسیم که یک کپچا را بکشند و به صورت خودکار آن را حل نماید.

برای مثال ساده‌تر می‌توانید از کپچای [سامانه آموزش دانشگاه شریف](http://edu.sharif.edu) استفاده کنید.

![کپچای شریف](http://bayanbox.ir/id/7003945522720661269?view)

مراحل یک سیستم برای اینکار می‌تواند بدین صورت باشد:

1. جمع آوری یک پایگاه داده از کپچاها و تهیه پاسخ هر کدام از آن‌ها به صورت دستی
2. جداسازی هر حرف یا عدد از هم. (یعنی یک عکس را بگیرد و چند عکس کوچکتر دیگر درست بکند که هر کدام شامل یک حرف است).
3. استفاده از OCR یا آموزش یک دسته‌بند ساده که هر حرف را تشخصی بدهد. برای دسته بند هم می‌توان از شبکه‌های عصبی یا از SVM استفاده کرد.

# مقدمه

# کارهای مرتبط

# آزمایش‌ها

# کارهای آینده

# مراجع

# پیوندهای مفید
+ [کتابخانه اپن‌سی‌وی](http://opencv.org)
+ [اپن‌سی‌وی در پایتون](http://docs.opencv.org/trunk/doc/py_tutorials/py_tutorials.html)
+ [بینایی کامپیوتری در جاوا اسکریپت](http://inspirit.github.io/jsfeat/)
+[شبکه‌های عصبی در جاوا اسکریپت](https://github.com/harthur/brain)
+ [شبکه‌های عصبی کانلوشنال در جاوا اسکریپت](https://github.com/karpathy/convnetjs)
+ [یک منبع خوب](http://stackoverflow.com/questions/9413216/simple-digit-recognition-ocr-in-opencv-python)
+ [پیاده‌سازی svm در جاوا اسکریپت](https://github.com/karpathy/svmjs)
+ [پایگاه داده نمونه](http://www.cs.cmu.edu/~guestrin/Class/10701/projects.html#image)
22 changes: 21 additions & 1 deletion car-detection.md
Original file line number Diff line number Diff line change
@@ -1,3 +1,23 @@
<div dir=rtl>

# تشخیص ماشین‌ها در تصویر
کنترل ترافیک و ثبت انواع تخلف توسط دوربین در سال های اخیر رشد چشم گیری در دنیا داشته است. هدف اصلی این سامانه‌ها ارتقاء سیستم‌های هوشمند ترافیکی در سطح جامعه می‌باشد، که به این منظور تصاویر ثبت شده از دوربین های سطح شهر در اختیار سیستم قرار خواهد گرفت، تا تصمیمات ترافیکی لازم را بگیرند و یا نوع تخلف انجام شده را تشخیص دهند. این سیستم‌ها در گام اول نیاز است که خودروهای موجود در تصاویر را شناسیایی کنند.
در این پژوهش از شما خواسته شده است که با دریافت تصویر ورودی، خودروهای موجود در آن را شناسایی کنید.

![تصویر نمونه](http://bayanbox.ir/id/720668288629020534?view)


# مقدمه

# کارهای مرتبط

# آزمایش‌ها

# کارهای آینده

# مراجع

# پیوندهای مفید
+ [کتابخانه اپن‌سی‌وی](http://opencv.org)
+ [اپن‌سی‌وی در پایتون](http://docs.opencv.org/trunk/doc/py_tutorials/py_tutorials.html)
+ [نصب اپن‌سی‌وی در ابونتو](https://help.ubuntu.com/community/OpenCV)
+ [شناسایی اجسام در تصاویر با اپن‌سی‌وی](http://achuwilson.wordpress.com/2011/07/01/create-your-own-haar-classifier-for-detecting-objects-in-opencv/)
25 changes: 25 additions & 0 deletions car-plate-reader.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
<div dir=rtl>

تشخیص خودکار پلاک خودرو، از مهمترین نیازهای سیستم‌‌های کنترل خودکار ترافیک است. روزانه صدها و شاید هزاران تخلف ترافیکی روی می‌دهد و توسط دوربینهای مخصوص، تصویر خودروی متخلف ضبط می‎شود. اگر قرار باشد تمام این تصاویر توسط انسان بررسی شده و شماره پلاک خودرو به صورت دستی وارد شود، زمان و نیروی انسانی زیادی تلف خواهد شد. لذا تشخیص خودکار موقعیت پلاک خودرو و شناسایی شماره پلاک توسط نرم افزار اهمیت می‌یابد.

علاوه بر کنترل ترافیک، تشخیص خودکار پلاک، می‌تواند فرایند ورود و خروج خودروها در موسسات و سازمانها و پایانه‌ها را تسهیل کند. به این ترتیب کار نگهبانها آسانتر شده و هم سازمان و هم مراجعین، احساس رضایت بیشتری خواهند داشت.

در این پروژه انتظار می‌رود شماره پلاک یک خودرو که تصویر آن در اختیار شما قرار دارد به درستی خوانده شود.

![تصویر اول](http://bayanbox.ir/id/2233463496906090093?view)

# مقدمه

# کارهای مرتبط

# مراجع

# کارهای آینده

# مراجع

# پیوندهای مفید
+ [کتابخانه اپن‌سی‌وی](http://opencv.org)
+ [اپن‌سی‌وی در پایتون](http://docs.opencv.org/trunk/doc/py_tutorials/py_tutorials.html)
+ [نصب اپن‌سی‌وی در ابونتو](https://help.ubuntu.com/community/OpenCV)
+ [نمونه محصول](http://farsiocr.ir/%D8%B3%DB%8C%D8%B3%D8%AA%D9%85-%D8%AA%D8%B4%D8%AE%DB%8C%D8%B5-%D9%BE%D9%84%D8%A7%DA%A9-%D8%AE%D9%88%D8%AF%D8%B1%D9%88-%D8%A8%D8%A7-%D8%B3%D9%88%D8%B1%D8%B3-%DA%A9%D8%AF-cpp/)
25 changes: 24 additions & 1 deletion chunker.md
Original file line number Diff line number Diff line change
@@ -1,3 +1,26 @@
<div dir=rtl>

# تجزیه نحوی کم عمق متن
تجزیه کم‌عمق به فرآیند شناسایی و رده‌بندی بخش‌های سطحی (غیر درختی) و بدون هم‌پوشانی از یک جمله گفته می‌شود. این بخش‌ها به صورت عبارت‌های اسمی، عبارت‌های فعلی، عبارت‌های وصفی (صفت) و عبارت‌های حرف اضافه‌ای می‌توانند باشند. در واقع در تجزیه‌ی کم‌عمق ما به دنبال پیدا کردن بخش‌های اصلی نحوی در جمله هستیم، اما نمی‌خواهیم ساختار داخلی هر کدام از این بخش‌ها را نیز کشف کنیم. به این عملیات اصطلاحا Chunking یا Shallow Parsing گفته می‌شود.

در این پژوهش روش‌های مختلف تجزیه‌ی کم‌عمق را بررسی نموده و یک نمونه عملیاتی برای آن پیاده‌سازی می‌شود. مثال:

> [NP Jack and Jill ] [VP went ] [ADVP up ] [NP the hill ] [VP to fetch ] [NP a pail ] [PP of ] [NP water ] .
# مقدمه

# کارهای مرتبط

# آزمایش‌ها

# کارهای آینده

# مراجع
+ Jurafsky, Dan, et al. Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Vol. 2. Upper Saddle River: Prentice Hall, 2000. Chapter 13
+ Zhang, Tong, Fred Damerau, and David Johnson. "Text chunking based on a generalization of winnow." The Journal of Machine Learning Research 2 (2002): 615-637.
+ Bird, Steven, Ewan Klein, and Edward Loper. Natural language processing with Python. O'reilly, 2009. Chapter 7

# پیوندهای مفید
+ [پردازش زبان فارسی در پایتون](http://www.sobhe.ir/hazm)
+ [Text Chunking Using NLTK](http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf)
+ [Illinois Chunker](http://cogcomp.cs.illinois.edu/page/software_view/13)
+ [English Chunking dataset](ftp://ftp.cis.upenn.edu/pub/chunker/)
22 changes: 22 additions & 0 deletions citation-resolution.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,22 @@
<div dir=rtl>

یک مقاله در مجله‌های علمی به شکل‌های گوناگونی مورد ارجاع قرار می‌گیرد. اگرچه پیدا کردن ارجاع‌های یکسان در نگاه اول، پیچیده به نظر نمی‌رسد. انجام دقیق این کار هم چالش‌های مخصوص به خود را دارد. برای نمونه، دو ارجاع زیر مربوط به یک مقاله هستند که خطای نوشتاری موجود در ارجاع دوم (جدا نشدن نام نویسنده و عنوان با ویرگول) باعث سخت شدن مقایسه آنها شده است:

> Minton, S(1993 b). Integrating heuristics for constraint satisfaction problems: A case study. In: Proceedings AAAI.
>
> S. Minton Integrating heuristics for constraint satisfaction problems: A case study. In AAAI Proceedings, 1993.
# مقدمه

# کارهای مرتبط

# آزمایش‌ها

# کارهای آینده

# مراجع
+ Poon, Hoifung, and Pedro Domingos. "Joint inference in information extraction." AAAI. Vol. 7. 2007.

# پیوندهای مفید
+ [داده‌های آموزش و آزمون](http://alchemy.cs.washington.edu/papers/poon07)
+ [ابزار اجرای شبکه منطقی مارکوف](http://alchemy.cs.washington.edu)
Loading

0 comments on commit 32acc6f

Please sign in to comment.