Công nghá» Äá»t phá Äược gá»i là Mô hình hóa ngôn ngữ thÃch ứng tá»± tin (CALM) có thá» cải thiá»n tá»c Äá» mô hình ngôn ngữ lá»n lên Äến ba lần.
Google Äã công bá» má»t công nghá» Äá»t phá có tên CALM giúp tÄng tá»c các mô hình ngôn ngữ lá»n (nhÆ° GPT-3 và LaMDA) mà không ảnh hÆ°á»ng Äến mức hiá»u suất.
1. Dữ liá»u Äà o tạo lá»n hÆ¡n sẽ tá»t hÆ¡n nhÆ°ng Äi kèm vá»i chi phÃ
Mô hình ngôn ngữ lá»n (LLM) Äà o tạo trên lượng lá»n dữ liá»u.
Viá»c Äà o tạo các mô hình ngôn ngữ trên lượng dữ liá»u lá»n hÆ¡n dẫn Äến mô hình há»c các khả nÄng má»i không phải lúc nà o cÅ©ng Äược lên kế hoạch.
>> Tham khảo: Chiến lược giữ chân khách hà ng mà các công ty thÆ°Æ¡ng mại Äiá»n tá» nên áp dụng và o nÄm 2023.
Và dụ: viá»c thêm nhiá»u dữ liá»u Äà o tạo hÆ¡n và o má»t mô hình ngôn ngữ có thá» bất ngá» dẫn Äến viá»c nó có Äược khả nÄng dá»ch giữa các ngôn ngữ khác nhau, mặc dù nó không Äược Äà o tạo Äá» là m Äiá»u Äó.
Những khả nÄng má»i nà y Äược gá»i là khả nÄng má»i ná»i, những khả nÄng không nhất thiết phải Äược lên kế hoạch.
Má»t bà i báo nghiên cứu khác (PDF) vá» các trạng thái khả nÄng má»i ná»i:
âMặc dù có hà ng chục và dụ vá» các khả nÄng má»i xuất hiá»n, nhÆ°ng hiá»n tại có rất Ãt lá»i giải thÃch thuyết phục vá» lý do tại sao những khả nÄng Äó lại xuất hiá»n theo cách chúng là m.â
Há» không thá» giải thÃch tại sao những khả nÄng khác nhau Äược há»c.
NhÆ°ng ai cÅ©ng biết rằng viá»c nhân rá»ng lượng dữ liá»u Äá» huấn luyá»n máy cho phép nó Äạt Äược nhiá»u khả nÄng hÆ¡n.
Nhược Äiá»m của viá»c nhân rá»ng dữ liá»u Äà o tạo là cần nhiá»u sức mạnh tÃnh toán hÆ¡n Äá» tạo ra Äầu ra, Äiá»u nà y khiến AI cháºm hÆ¡n tại thá»i Äiá»m nó tạo Äầu ra vÄn bản (thá»i Äiá»m Äược gá»i là âthá»i gian suy luáºnâ).
>> Tham khảo: Viá»c chia nhá» má»t bà i viết dà i có thá» dẫn Äến ná»i dung má»ng.
Vì váºy, sá»± Äánh Äá»i vá»i viá»c là m cho AI thông minh hÆ¡n vá»i nhiá»u dữ liá»u hÆ¡n là AI cÅ©ng trá» nên cháºm hÆ¡n tại thá»i Äiá»m suy luáºn.
Tà i liá»u nghiên cứu má»i của Google (PDF Mô hình ngôn ngữ thÃch ứng tá»± tin) mô tả vấn Äá» nhÆ° sau:
âNhững tiến bá» gần Äây trong các mô hình ngôn ngữ lá»n (LLM) dá»±a trên Transformer Äã dẫn Äến những cải tiến Äáng ká» vá» hiá»u suất trên nhiá»u tác vụ.
Những lợi Ãch nà y Äi kèm vá»i sá»± gia tÄng mạnh mẽ vá» kÃch thÆ°á»c của các mô hình, có khả nÄng dẫn Äến viá»c sá» dụng cháºm và tá»n kém tại thá»i Äiá»m suy luáºn.â
2. Mô hình ngôn ngữ thÃch ứng tá»± tin (CALM)
Các nhà nghiên cứu tại Google Äã ÄÆ°a ra má»t giải pháp thú vá» Äá» tÄng tá»c các mô hình ngôn ngữ Äá»ng thá»i duy trì hiá»u suất cao.
Giải pháp, Äá» tạo ra má»t phép loại suy, phần nà o giá»ng nhÆ° sá»± khác biá»t giữa viá»c trả lá»i má»t câu há»i dá» và giải má»t câu há»i khó hÆ¡n.
Má»t câu há»i dá» , chẳng hạn nhÆ° bầu trá»i mà u gì, có thá» Äược trả lá»i mà không cần suy nghÄ© nhiá»u.
NhÆ°ng má»t câu trả lá»i khó Äòi há»i ngÆ°á»i ta phải dừng lại và suy nghÄ© thêm má»t chút Äá» tìm ra câu trả lá»i.
Vá» mặt tÃnh toán, các mô hình ngôn ngữ lá»n không tạo ra sá»± khác biá»t giữa phần khó của tác vụ tạo vÄn bản và phần dá» .
Há» tạo vÄn bản cho cả phần dá» và phần khó bằng cách sá» dụng toà n bá» sức mạnh tÃnh toán của mình tại thá»i Äiá»m suy luáºn.
Giải pháp của Google Äược gá»i là Mô hình ngôn ngữ thÃch ứng tá»± tin (CALM).
Những gì khung má»i nà y là m là dà nh Ãt tà i nguyên hÆ¡n cho các phần tầm thÆ°á»ng của tác vụ tạo vÄn bản và dà nh toà n bá» sức mạnh cho các phần khó hÆ¡n.
Bà i báo nghiên cứu vá» CALM nêu rõ vấn Äá» và giải pháp nhÆ° sau:
âNhững tiến bá» gần Äây trong các mô hình ngôn ngữ lá»n (LLM) dá»±a trên Transformer Äã dẫn Äến những cải tiến Äáng ká» vá» hiá»u suất trên nhiá»u tác vụ.
Những lợi Ãch nà y Äi kèm vá»i sá»± gia tÄng mạnh mẽ vá» kÃch thÆ°á»c của mô hình, có khả nÄng dẫn Äến viá»c sá» dụng cháºm và tá»n kém tại thá»i Äiá»m suy luáºn.
>> Tham khảo: Meta táºp trung và o an toà n và bảo máºt.
Tuy nhiên, trên thá»±c tế, chuá»i thế há» do LLM tạo ra bao gá»m các mức Äá» khó khác nhau.
Mặc dù má»t sá» dá»± Äoán nhất Äá»nh thá»±c sá»± Äược hÆ°á»ng lợi từ toà n bá» công suất của mô hình, nhÆ°ng các phần tiếp theo khác lại tầm thÆ°á»ng hÆ¡n và có thá» Äược giải quyết bằng cách tÃnh toán giảm bá»t.
â¦Mặc dù các mô hình lá»n nói chung hoạt Äá»ng tá»t hÆ¡n, nhÆ°ng có thá» không cần cùng má»t lượng tÃnh toán cho má»i Äầu và o Äá» Äạt Äược hiá»u suất tÆ°Æ¡ng tá»± (và dụ: tùy thuá»c và o viá»c Äầu và o dá» hay khó).â
3. Google CALM là gì và nó có hoạt Äá»ng không?
CALM hoạt Äá»ng bằng cách phân bá» Äá»ng các tà i nguyên tùy thuá»c và o Äá» phức tạp của từng phần riêng lẻ của nhiá»m vụ, sá» dụng má»t thuáºt toán Äá» dá»± Äoán liá»u thứ gì Äó cần toà n bá» hay má»t phần tà i nguyên.
Bà i báo nghiên cứu chia sẻ rằng há» Äã thá» nghiá»m há» thá»ng má»i cho các tác vụ xá» lý ngôn ngữ tá»± nhiên khác nhau (âtóm tắt vÄn bản, dá»ch máy và trả lá»i câu há»iâ) và phát hiá»n ra rằng há» có thá» tÄng tá»c Äá» suy luáºn lên khoảng ba lần (300%) .
Hình minh há»a sau Äây cho thấy há» thá»ng CALM hoạt Äá»ng tá»t nhÆ° thế nà o.
Má»t và i khu vá»±c mà u Äá» cho biết nÆ¡i máy phải sá» dụng hết công suất cho phần nhiá»m vụ Äó.
Những khu vá»±c có mà u xanh lá cây là nÆ¡i máy chá» sá» dụng dÆ°á»i má»t ná»a công suất.
âCALM tÄng tá»c quá trình tạo bằng cách thoát sá»m khi có thá» và chá» sá» dụng có chá»n lá»c khả nÄng của bá» giải mã Äầy Äủ cho má»t sá» mã thông báo, Äược minh há»a á» Äây trên và dụ CNN/DM vá»i thÆ°á»c Äo Äá» tin cáºy dá»±a trên softmax. Y (1) sá»m và Y (2) sá»m sá» dụng các ngưỡng tin cáºy khác nhau Äá» thoát sá»m.
DÆ°á»i Äây (sic) vÄn bản, chúng tôi báo cáo tÃnh nhất quán vá» rủi ro và vÄn bản Äược Äo lÆ°á»ng của từng kết quả Äầu ra, cùng vá»i mức tÄng hiá»u quả.
Các mà u Äại diá»n cho sá» lượng lá»p giải mã Äược sá» dụng cho má»i mã thông báoâmà u xanh lục nhạt biá»u thá» Ãt hÆ¡n má»t ná»a tá»ng sá» lá»p.
Chá» má»t sá» mã thông báo Äược chá»n sá» dụng hết công suất của mô hình (Äược tô mà u Äá»), trong khi Äá»i vá»i hầu hết các mã thông báo, mô hình thoát ra sau má»t hoặc má»t và i lá»p giải mã (Äược tô mà u xanh lá cây).
Các nhà nghiên cứu Äã kết luáºn bà i báo bằng cách lÆ°u ý rằng viá»c triá»n khai CALM chá» yêu cầu những sá»a Äá»i tá»i thiá»u Äá» Äiá»u chá»nh má»t mô hình ngôn ngữ lá»n trá» nên nhanh hÆ¡n.
Nghiên cứu nà y rất quan trá»ng vì nó má» ra cÆ¡ há»i tạo ra các mô hình AI phức tạp hÆ¡n Äược Äà o tạo trên các táºp dữ liá»u lá»n hÆ¡n Äáng ká» mà không gặp phải tá»c Äá» cháºm hÆ¡n trong khi vẫn duy trì mức hiá»u suất cao.
>> Tham khảo: Từ khóa không có thÆ°Æ¡ng hiá»u cho lÆ°u lượng truy cáºp tá»± nhiên.
Tuy nhiên, có thá» phÆ°Æ¡ng pháp nà y cÅ©ng có thá» mang lại lợi Ãch cho các mô hình ngôn ngữ lá»n Äược Äà o tạo trên Ãt dữ liá»u hÆ¡n.
Và dụ: các mô hình InstructGPT, trong Äó ChatGPT là mô hình anh em, Äược Äà o tạo trên khoảng 1,3 tá»· tham sá» nhÆ°ng vẫn có thá» hoạt Äá»ng tá»t hÆ¡n các mô hình Äược Äà o tạo trên nhiá»u tham sá» hÆ¡n Äáng ká».
Các nhà nghiên cứu lÆ°u ý trong phần kết luáºn:
âNhìn chung, khung tÃnh toán thÃch ứng hoà n chá»nh của chúng tôi dà nh cho LM yêu cầu sá»a Äá»i tá»i thiá»u Äá»i vá»i mô hình cÆ¡ bản và cho phép tÄng hiá»u quả trong khi Äáp ứng các Äảm bảo chất lượng nghiêm ngặt cho Äầu ra.â
Thông tin vá» bà i nghiên cứu nà y vừa Äược ÄÄng trên blog AI của Google và o ngà y 16 tháng 12 nÄm 2022. Bản thân bà i nghiên cứu nà y Äược Äá» ngà y 25 tháng 10 nÄm 2022.
Sẽ rất thú vá» Äá» xem liá»u công nghá» nà y có thá» ÄÆ°a nó và o các mô hình ngôn ngữ lá»n trong tÆ°Æ¡ng lai gần hay không.