Công nghệ đột phá được gọi là Mô hình hóa ngôn ngữ thích ứng tự tin (CALM) có thể cải thiện tốc độ mô hình ngôn ngữ lớn lên đến ba lần.
Google đã công bố một công nghệ đột phá có tên CALM giúp tăng tốc các mô hình ngôn ngữ lớn (như GPT-3 và LaMDA) mà không ảnh hưởng đến mức hiệu suất.
1. Dữ liệu đào tạo lớn hơn sẽ tốt hơn nhưng đi kèm với chi phí
Mô hình ngôn ngữ lớn (LLM) đào tạo trên lượng lớn dữ liệu.
Việc đào tạo các mô hình ngôn ngữ trên lượng dữ liệu lớn hơn dẫn đến mô hình học các khả năng mới không phải lúc nào cũng được lên kế hoạch.
>> Tham khảo: Chiến lược giữ chân khách hàng mà các công ty thương mại điện tử nên áp dụng vào năm 2023.
Ví dụ: việc thêm nhiều dữ liệu đào tạo hơn vào một mô hình ngôn ngữ có thể bất ngờ dẫn đến việc nó có được khả năng dịch giữa các ngôn ngữ khác nhau, mặc dù nó không được đào tạo để làm điều đó.
Những khả năng mới này được gọi là khả năng mới nổi, những khả năng không nhất thiết phải được lên kế hoạch.
Một bài báo nghiên cứu khác (PDF) về các trạng thái khả năng mới nổi:
“Mặc dù có hàng chục ví dụ về các khả năng mới xuất hiện, nhưng hiện tại có rất ít lời giải thích thuyết phục về lý do tại sao những khả năng đó lại xuất hiện theo cách chúng làm.”
Họ không thể giải thích tại sao những khả năng khác nhau được học.
Nhưng ai cũng biết rằng việc nhân rộng lượng dữ liệu để huấn luyện máy cho phép nó đạt được nhiều khả năng hơn.
Nhược điểm của việc nhân rộng dữ liệu đào tạo là cần nhiều sức mạnh tính toán hơn để tạo ra đầu ra, điều này khiến AI chậm hơn tại thời điểm nó tạo đầu ra văn bản (thời điểm được gọi là “thời gian suy luận”).
>> Tham khảo: Việc chia nhỏ một bài viết dài có thể dẫn đến nội dung mỏng.
Vì vậy, sự đánh đổi với việc làm cho AI thông minh hơn với nhiều dữ liệu hơn là AI cũng trở nên chậm hơn tại thời điểm suy luận.
Tài liệu nghiên cứu mới của Google (PDF Mô hình ngôn ngữ thích ứng tự tin) mô tả vấn đề như sau:
“Những tiến bộ gần đây trong các mô hình ngôn ngữ lớn (LLM) dựa trên Transformer đã dẫn đến những cải tiến đáng kể về hiệu suất trên nhiều tác vụ.
Những lợi ích này đi kèm với sự gia tăng mạnh mẽ về kích thước của các mô hình, có khả năng dẫn đến việc sử dụng chậm và tốn kém tại thời điểm suy luận.”
2. Mô hình ngôn ngữ thích ứng tự tin (CALM)
Các nhà nghiên cứu tại Google đã đưa ra một giải pháp thú vị để tăng tốc các mô hình ngôn ngữ đồng thời duy trì hiệu suất cao.
Giải pháp, để tạo ra một phép loại suy, phần nào giống như sự khác biệt giữa việc trả lời một câu hỏi dễ và giải một câu hỏi khó hơn.
Một câu hỏi dễ, chẳng hạn như bầu trời màu gì, có thể được trả lời mà không cần suy nghĩ nhiều.
Nhưng một câu trả lời khó đòi hỏi người ta phải dừng lại và suy nghĩ thêm một chút để tìm ra câu trả lời.
Về mặt tính toán, các mô hình ngôn ngữ lớn không tạo ra sự khác biệt giữa phần khó của tác vụ tạo văn bản và phần dễ.
Họ tạo văn bản cho cả phần dễ và phần khó bằng cách sử dụng toàn bộ sức mạnh tính toán của mình tại thời điểm suy luận.
Giải pháp của Google được gọi là Mô hình ngôn ngữ thích ứng tự tin (CALM).
Những gì khung mới này làm là dành ít tài nguyên hơn cho các phần tầm thường của tác vụ tạo văn bản và dành toàn bộ sức mạnh cho các phần khó hơn.
Bài báo nghiên cứu về CALM nêu rõ vấn đề và giải pháp như sau:
“Những tiến bộ gần đây trong các mô hình ngôn ngữ lớn (LLM) dựa trên Transformer đã dẫn đến những cải tiến đáng kể về hiệu suất trên nhiều tác vụ.
Những lợi ích này đi kèm với sự gia tăng mạnh mẽ về kích thước của mô hình, có khả năng dẫn đến việc sử dụng chậm và tốn kém tại thời điểm suy luận.
>> Tham khảo: Meta tập trung vào an toàn và bảo mật.
Tuy nhiên, trên thực tế, chuỗi thế hệ do LLM tạo ra bao gồm các mức độ khó khác nhau.
Mặc dù một số dự đoán nhất định thực sự được hưởng lợi từ toàn bộ công suất của mô hình, nhưng các phần tiếp theo khác lại tầm thường hơn và có thể được giải quyết bằng cách tính toán giảm bớt.
…Mặc dù các mô hình lớn nói chung hoạt động tốt hơn, nhưng có thể không cần cùng một lượng tính toán cho mọi đầu vào để đạt được hiệu suất tương tự (ví dụ: tùy thuộc vào việc đầu vào dễ hay khó).”
3. Google CALM là gì và nó có hoạt động không?
CALM hoạt động bằng cách phân bổ động các tài nguyên tùy thuộc vào độ phức tạp của từng phần riêng lẻ của nhiệm vụ, sử dụng một thuật toán để dự đoán liệu thứ gì đó cần toàn bộ hay một phần tài nguyên.
Bài báo nghiên cứu chia sẻ rằng họ đã thử nghiệm hệ thống mới cho các tác vụ xử lý ngôn ngữ tự nhiên khác nhau (“tóm tắt văn bản, dịch máy và trả lời câu hỏi”) và phát hiện ra rằng họ có thể tăng tốc độ suy luận lên khoảng ba lần (300%) .
Hình minh họa sau đây cho thấy hệ thống CALM hoạt động tốt như thế nào.
Một vài khu vực màu đỏ cho biết nơi máy phải sử dụng hết công suất cho phần nhiệm vụ đó.
Những khu vực có màu xanh lá cây là nơi máy chỉ sử dụng dưới một nửa công suất.
“CALM tăng tốc quá trình tạo bằng cách thoát sớm khi có thể và chỉ sử dụng có chọn lọc khả năng của bộ giải mã đầy đủ cho một số mã thông báo, được minh họa ở đây trên ví dụ CNN/DM với thước đo độ tin cậy dựa trên softmax. Y (1) sớm và Y (2) sớm sử dụng các ngưỡng tin cậy khác nhau để thoát sớm.
Dưới đây (sic) văn bản, chúng tôi báo cáo tính nhất quán về rủi ro và văn bản được đo lường của từng kết quả đầu ra, cùng với mức tăng hiệu quả.
Các màu đại diện cho số lượng lớp giải mã được sử dụng cho mỗi mã thông báo—màu xanh lục nhạt biểu thị ít hơn một nửa tổng số lớp.
Chỉ một số mã thông báo được chọn sử dụng hết công suất của mô hình (được tô màu đỏ), trong khi đối với hầu hết các mã thông báo, mô hình thoát ra sau một hoặc một vài lớp giải mã (được tô màu xanh lá cây).
Các nhà nghiên cứu đã kết luận bài báo bằng cách lưu ý rằng việc triển khai CALM chỉ yêu cầu những sửa đổi tối thiểu để điều chỉnh một mô hình ngôn ngữ lớn trở nên nhanh hơn.
Nghiên cứu này rất quan trọng vì nó mở ra cơ hội tạo ra các mô hình AI phức tạp hơn được đào tạo trên các tập dữ liệu lớn hơn đáng kể mà không gặp phải tốc độ chậm hơn trong khi vẫn duy trì mức hiệu suất cao.
>> Tham khảo: Từ khóa không có thương hiệu cho lưu lượng truy cập tự nhiên.
Tuy nhiên, có thể phương pháp này cũng có thể mang lại lợi ích cho các mô hình ngôn ngữ lớn được đào tạo trên ít dữ liệu hơn.
Ví dụ: các mô hình InstructGPT, trong đó ChatGPT là mô hình anh em, được đào tạo trên khoảng 1,3 tỷ tham số nhưng vẫn có thể hoạt động tốt hơn các mô hình được đào tạo trên nhiều tham số hơn đáng kể.
Các nhà nghiên cứu lưu ý trong phần kết luận:
“Nhìn chung, khung tính toán thích ứng hoàn chỉnh của chúng tôi dành cho LM yêu cầu sửa đổi tối thiểu đối với mô hình cơ bản và cho phép tăng hiệu quả trong khi đáp ứng các đảm bảo chất lượng nghiêm ngặt cho đầu ra.”
Thông tin về bài nghiên cứu này vừa được đăng trên blog AI của Google vào ngày 16 tháng 12 năm 2022. Bản thân bài nghiên cứu này được đề ngày 25 tháng 10 năm 2022.
Sẽ rất thú vị để xem liệu công nghệ này có thể đưa nó vào các mô hình ngôn ngữ lớn trong tương lai gần hay không.