66B là một mô hình ngôn ngữ quy mô lớn được thiết kế để hiểu và sinh văn bản tự nhiên. Với khoảng 66 tỷ tham số, nó nhắm tới nhiều tác vụ ngôn ngữ như trả lời câu hỏi, tóm tắt văn bản và sáng tác nội dung.
Mô hình dựa trên kiến trúc transformer, với các lớp multi-head attention và feed-forward có kích thước lớn. Nó học từ đại dương dữ liệu ngôn ngữ và có khả năng điều chỉnh bằng instruction tuning để tuân theo yêu cầu của người dùng.
Đào tạo của 66B được thực hiện trên khối lượng dữ liệu văn bản đa dạng từ web, sách và tài liệu kỹ thuật. Việc huấn luyện đòi hỏi nguồn lực tính toán lớn và quản lý chất lượng dữ liệu nghiêm ngặt để giảm thiểu sai lệch và thiên vị.
66B có thể hỗ trợ viết nội dung, sinh văn bản sáng tạo, dịch ngôn ngữ và hỗ trợ ra quyết định. Tuy vậy, nó có thể sinh thông tin sai hoặc mang thiên lệch, và cần giám sát con người cùng các biện pháp an toàn để giảm thiểu rủi ro.
Với kỹ thuật fine-tuning, instruction-tuning và RLHF, 66B có thể trở nên linh động hơn và hợp tác tốt với hệ thống khác. Triển khai trên nhiều nền tảng và tối ưu hóa chi phí sẽ là hướng đi chính để mở rộng sử dụng trong doanh nghiệp và nghiên cứu.
