Đề tài: Xây dựng hệ thống trả lời câu hỏi tự động bằng phương pháp truy hồi thông tin
Đây là một phần nội dung của đồ án cuối kỳ môn "Nhập môn xử lý ngôn ngữ tự nhiên"
Đồ án bao gồm các phần:
- Đọc dữ liệu các hỏi đáp: Dữ liệu các cặp câu hỏi-đáp được thu thập từ các bạn trong lớp. Những dữ liệu này đều được chia theo từng chủ đề.
- Trích xuất đặc trưng dữ liệu văn bản: Sử dụng kỹ thuật TF-IDF để trích xuất đặc trưng
- Huấn luyện và dự đoán chủ đề của câu hỏi
- Tìm câu trả lời từ câu hỏi nhập vào
- Câu hỏi nhập vào sẽ được đưa vào mô hình để dự đoán chủ đề
- Sử dụng độ tương tự cosin (Cosine Similarity) để tìm kiếm câu hỏi tương tự có cùng chủ đề trong tập dữ liệu hỏi-đáp có sẵn.
- Đưa ra câu trả lời của câu hỏi có độ tương đồng cao nhất từ tập dữ liệu.
Phiên bản sử dụng của một số thư viện
Library | Version |
---|---|
numpy | 1.19.5 |
scipy | 1.5.4 |
keras_preprocessing | 1.1.2 |
sklearn | 0.19.0 |
- File retrieval_based_qa.ipynb: file Jupyter Notebook của dự án
- Folder chatbot: các file text chứa dữ liệu các cặp câu hỏi-đáp theo chủ đề
Tham khảo mục 'Information Retrieval based chatbots (IR-based)' tại: Tìm hiểu và xây dựng hệ thống chatbot trong thực tế
Dự án cuối kỳ được thực hiện bởi nhóm gồm 3 thành viên: