Hãy biến mô hình ngôn ngữ thành chatbot
vj-intro-x4.mp4
THAM GIA THẢO LUẬN TẠI https://discord.gg/NuYwhH6Kbb
-
alpaca_vi.txt
: dịch từ stanford_alpaca bởi Iambestfeed -
daily_dialog_vi.txt
: dịch từ daily_dialog bởi Iambestfeed -
vi_gpt4all_reduced_*.jsonl
: ~173k lược bớt và dịch từ gpt4all và dịch bởi Tuộc và binhvq -
vi_alpaca_reduced.jsonl
: ~51k chỉ dẫn lược bớt và dịch từ AlpacaDataCleaned bởi Tuộc và binhvq
Để tạo một file huấn luyện chung dùng lệnh:
cat vi*.jsonl > vi_merged.jsonl
python3 chatbot.py
TRẢI NGHIỆM VỚI CHATBOT TẠI https://discord.gg/fQ9ja2jBR9
cat data/vi*.jsonl > data/vi_merged.jsonl
python3 finetune.py --data_path 'data/vi_merged.jsonl' --base_model 'VietAI/gpt-j-6B-vietnamese-news' \
--batch_size=128 --micro_batch_size 2 --cutoff_len 512 --num_epochs 1 --output_dir 'chat-gpt-j-6B-1e'
Ví dụ trên huấn luyện chỉ dẫn VietAI/gpt-j-6B-vietnamese-news
với 224 nghìn câu trên GPU 3060 12G vram hoàn tất 1 epoch trong khoảng hơn 21h.
Chạy với google colab với model nhỏ hơn tại https://colab.research.google.com/drive/11XSZkOfoPbFIIGAs9gRgMuLVQ9mJBPIi