Google LIMoE – Hướng tới mục tiêu một AI duy nhất

Google đã công bố một bước đột phá mà họ gọi là một bước để đạt được mục tiêu về một mô hình AI duy nhất có thể xử lý nhiều tác vụ.

Google đã công bố một công nghệ mới được gọi là LIMoE mà theo họ, nó thể hiện một bước tiến tới việc đạt được mục tiêu của Google về kiến ​​trúc AI được gọi là Pathways.

Pathways là một kiến ​​trúc AI của Google là một mô hình duy nhất có thể học cách thực hiện nhiều nhiệm vụ hiện đang được thực hiện bằng cách sử dụng nhiều thuật toán.

LIMoE là từ viết tắt của Học nhiều phương thức với một mô hình hỗn hợp thưa thớt chuyên gia. Đó là một mô hình xử lý tầm nhìn và văn bản cùng nhau.

Mặc dù có những kiến ​​trúc khác để làm những việc tương tự, nhưng bước đột phá nằm ở cách mô hình mới hoàn thành những nhiệm vụ này, bằng cách sử dụng kỹ thuật mạng nơ-ron gọi là Mô hình thưa thớt.

>> Tham khảo: Google cập nhật thuật toán lõi vào tháng 5/2022.

Mô hình thưa thớt được mô tả trong một bài báo nghiên cứu năm 2017 đã giới thiệu phương pháp tiếp cận lớp Hỗn hợp của các chuyên gia (MoE), trong một bài báo nghiên cứu có tiêu đề, Mạng thần kinh lớn vượt trội: Lớp hỗn hợp của các chuyên gia.

Vào năm 2021, Google đã công bố mô hình MoE có tên GLaM: Hiệu quả mở rộng mô hình ngôn ngữ với hỗn hợp chuyên gia được đào tạo chỉ trên văn bản.

Sự khác biệt với LIMoE là nó hoạt động trên văn bản và hình ảnh đồng thời.

Mô hình thưa thớt khác với các mô hình “dày đặc” ở chỗ thay vì dành mọi phần của mô hình để hoàn thành nhiệm vụ, mô hình thưa thớt giao nhiệm vụ cho nhiều “chuyên gia” chuyên về một phần nhiệm vụ.

Điều này làm được là để giảm chi phí tính toán, làm cho mô hình hiệu quả hơn.

Vì vậy, tương tự như cách bộ não nhìn thấy một con chó và biết đó là một con chó, rằng đó là một con chó pug và con chó pug có bộ lông màu nâu vàng bạc, mô hình này cũng có thể xem một hình ảnh và hoàn thành nhiệm vụ theo cách tương tự, bằng cách gán tính toán nhiệm vụ cho các chuyên gia khác nhau chuyên về nhiệm vụ nhận dạng một con chó, giống chó, màu sắc của nó, v.v.

Mô hình LIMoE định tuyến vấn đề cho các “chuyên gia” chuyên về một nhiệm vụ cụ thể, đạt được kết quả tương tự hoặc tốt hơn so với các phương pháp giải quyết vấn đề hiện tại.

Một tính năng thú vị của mô hình là cách một số chuyên gia chủ yếu chuyên xử lý hình ảnh, những người khác chủ yếu chuyên xử lý văn bản và một số chuyên gia chuyên làm cả hai.

Mô tả của Google về cách hoạt động của LIMoE cho thấy cách thức có một chuyên gia về mắt, một chuyên gia khác về bánh xe, một chuyên gia về họa tiết sọc, họa tiết rắn, từ ngữ, tay nắm cửa, thực phẩm và trái cây, biển và bầu trời và một chuyên gia về hình ảnh thực vật.

Thông báo về thuật toán mới mô tả các chuyên gia này:

“CÅ©ng có một số mẫu định tính rõ ràng giữa các chuyên gia hình ảnh – ví dụ: trong hầu hết các mô hình LIMoE, có một chuyên gia xá»­ lý tất cả các bản vá hình ảnh có chứa văn bản. … Một chuyên gia xá»­ lý động vật và cây xanh, và một chuyên gia khác xá»­ lý bàn tay con người. ”

>> Tham khảo: Nội dung thống kê giúp thu hút backlink chất lượng cao.

Các chuyên gia chuyên về các phần khác nhau của các vấn đề cung cấp khả năng mở rộng quy mô và hoàn thành chính xác nhiều nhiệm vụ khác nhau nhưng với chi phí tính toán thấp hơn.

Bài báo nghiên cứu tóm tắt những phát hiện của họ:

“Chúng tôi đề xuất LIMoE, mô hình chuyên gia hỗn hợp đa phương thức quy mô lớn đầu tiên.

Chúng tôi chứng minh chi tiết cách các phương pháp tiếp cận chính quy hóa mô hình hỗn hợp chuyên gia không phù hợp với học tập đa phương thức và đề xuất một sơ đồ chính quy hóa dựa trên entropy mới để ổn định đào tạo.

Chúng tôi cho thấy rằng LIMoE tổng quát trên các quy mô kiến ​​trúc, với những cải tiến tương đối về độ chính xác của ImageNet khi không chụp, từ 7% đến 13% so với các mô hình có mật độ tương đương.

Được mở rộng hơn nữa, LIMoE-H / 14 đạt được độ chính xác của ImageNet là 84,1%, có thể so sánh với các mô hình tương phản SOTA với xương sống theo phương thức và đào tạo trước. ”

1. Phù hợp với trạng thái nghệ thuật

Có rất nhiều bài báo nghiên cứu được xuất bản hàng tháng. Nhưng chỉ một số ít được Google AI đánh dấu.

Thông thường, nghiên cứu của Google gây chú ý vì nó đạt được điều gì đó mới mẻ, ngoài việc đạt được trạng thái hiện đại.

LIMoE hoàn thành kỳ tích này là đạt được kết quả tương đương với các thuật toán tốt nhất hiện nay nhưng hiệu quả hơn.

Các nhà nghiên cứu nêu bật lợi thế này:

“Về phân loại ảnh zero-shot, LIMoE vượt trội hơn cả các mô hình đa phương thức và phương pháp tiếp cận hai tháp có mật độ tương đương.

LIMoE lớn nhất đạt được độ chính xác 84,1% của ImageNet khi chụp không ảnh, có thể so sánh với các mẫu máy ảnh hiện đại đắt tiền hơn.

Sự thưa thớt cho phép LIMoE mở rộng quy mô một cách duyên dáng và học cách xử lý các đầu vào rất khác nhau, giải quyết sự căng thẳng giữa việc trở thành một nhà tổng quát hóa đa ngành nghề và một chuyên gia bậc thầy. ”

Các kết quả thành công của LIMoE khiến các nhà nghiên cứu nhận thấy rằng LIMoE có thể là một con đường phía trước để đạt được một mô hình tổng quát đa phương thức.

Các nhà nghiên cứu đã quan sát:

“Chúng tôi tin rằng khả năng xây dựng một mô hình tổng quát với các thành phần chuyên biệt, có thể quyết định cách các phương thức hoặc nhiệm vụ khác nhau nên tương tác, sẽ là chìa khóa để tạo ra các mô hình đa nhiệm thực sự vượt trội về mọi thứ họ làm.

LIMoE là một bước đầu tiên đầy hứa hẹn theo hướng đó. ”

>> Tham khảo: Facebook cơ cấu lại nguồn cấp dữ liệu với nội dung video.

2. Những thiếu sót tiềm ẩn, thành kiến ​​và các vấn đề đạo đức khác

Có những thiếu sót đối với kiến ​​trúc này không được thảo luận trong thông báo của Google nhưng được đề cập trong chính tài liệu nghiên cứu.

Bài báo nghiên cứu lưu ý rằng, tương tự như các mô hình quy mô lớn khác, LIMoE cũng có thể đưa ra các thành kiến ​​vào kết quả.

Các nhà nghiên cứu nói rằng họ vẫn chÆ°a “giải quyết một cách rõ ràng” các vấn đề vốn có trong các mô hình quy mô lớn.

Họ viết:

“Những tác hại tiềm ẩn của các mô hình quy mô lớn…, các mô hình tương phản… và dữ liệu đa phương thức quy mô web… cũng mang lại ở đây, vì LIMoE không giải quyết chúng một cách rõ ràng.”

Tuyên bố trên tham chiếu (trong một liên kết chú thích) đến một bài báo nghiên cứu năm 2021 có tên là Về cơ hội và rủi ro của các mô hình nền tảng (PDF tại đây).

Bài báo nghiên cứu từ năm 2021 đó cảnh báo cách các công nghệ Google AI mới nổi có thể gây ra tác động tiêu cực đến xã hội như:

“… Sự không công bằng, lạm dụng, tác động kinh tế và môi trường, các cân nhắc về luật pháp và đạo đức.”

Theo bài báo được trích dẫn, các vấn đề đạo đức cũng có thể nảy sinh từ xu hướng đồng nhất hóa các nhiệm vụ, sau đó có thể dẫn đến một điểm thất bại sau đó được tái tạo cho các nhiệm vụ khác tiếp theo.

Tài liệu nghiên cứu cảnh báo nêu rõ:

“Ý nghĩa của các mô hình nền tảng có thể được tóm tắt bằng hai từ: sự xuất hiện và sự đồng nhất.

Sự nổi lên có nghĩa là hành vi của một hệ thống được tạo ra một cách ngầm định chứ không phải được xây dựng một cách rõ ràng; nó vừa là nguồn gốc của sự phấn khích khoa học và sự lo lắng về những hậu quả không lường trước được.

Đồng nhất hóa chỉ ra sự hợp nhất các phương pháp luận để xây dựng hệ thống học máy trên nhiều ứng dụng; nó cung cấp đòn bẩy mạnh mẽ đối với nhiều nhiệm vụ nhưng cũng tạo ra những điểm thất bại đơn lẻ. ”

Một lĩnh vực cần thận trọng là AI liên quan đến thị giác.

>> Tham khảo: Mất bao lâu để thấy kết quả từ việc xây dựng liên kết?

Báo cáo năm 2021 tuyên bố rằng sá»± phổ biến của camera có nghÄ©a là bất kỳ tiến bộ nào trong AI liên quan đến tầm nhìn đều có thể mang lại rủi ro đồng thời đối với công nghệ đang được áp dụng theo cách không lường trước được có thể có “tác động gián đoạn”, bao gồm cả liên quan đến quyền riêng tÆ° và giám sát.

Một cảnh báo thận trọng khác liên quan đến những tiến bộ trong AI của Google liên quan đến thị lực là các vấn đề về độ chính xác và độ chệch.

Họ lưu ý:

“Có một lịch sử được ghi chép đầy đủ về sự sai lệch đã học được trong các mô hình thị giác máy tính, dẫn đến độ chính xác thấp hơn và các lỗi tương quan cho các nhóm được trình bày ít, do đó việc triển khai sớm và không phù hợp đối với một số cài đặt trong thế giới thực.”

Phần còn lại của bài báo ghi lại cách các công nghệ Google AI có thể tìm hiểu các thành kiến ​​hiện có và duy trì sự bất bình đẳng.

“Các mô hình tổ chức có khả năng mang lại những kết quả bất bình đẳng: đối xử bất công với những người không công bằng, đặc biệt là do sự phân bổ không đồng đều dọc theo các đường dẫn đến sự phân biệt đối xử trong lịch sử…. Giống như bất kỳ hệ thống AI nào, các mô hình nền tảng có thể tạo ra các bất bình đẳng hiện có bằng cách tạo ra các kết quả không công bằng, cố thủ các hệ thống quyền lực và phân phối một cách không cân đối các hậu quả tiêu cực của công nghệ cho những người đã bị gạt ra ngoài lề xã hội… ”

Các nhà nghiên cứu của LIMoE lưu ý rằng mô hình cụ thể này có thể giải quyết một số thành kiến ​​chống lại các nhóm không được trình bày vì bản chất của cách các chuyên gia chuyên về một số thứ nhất định.

Những loại kết quả tiêu cực này không phải là lý thuyết, chúng là thực tế và đã tác động tiêu cực đến cuộc sống trong các ứng dụng trong thế giới thực, chẳng hạn như thành kiến ​​không công bằng dựa trên chủng tộc do các thuật toán tuyển dụng việc làm đưa ra.

Các tác giả của bài báo LIMoE thừa nhận những thiếu sót tiềm ẩn đó trong một đoạn ngắn, coi như một cảnh báo trước.

Nhưng họ cũng lưu ý rằng có thể có khả năng giải quyết một số thành kiến ​​với cách tiếp cận mới này.

Họ viết:

“… Khả năng mở rộng quy mô mô hình với các chuyên gia có thể chuyên sâu có thể mang lại hiệu suất tốt hơn cho các nhóm ít được đại diện.”

Cuối cùng, một thuộc tính quan trọng của công nghệ mới này cần được lưu ý là không có công dụng rõ ràng nào được nêu cho nó.

Nó chỉ đơn giản là một công nghệ có thể xử lý hình ảnh và văn bản một cách hiệu quả.

Làm thế nào nó có thể được áp dụng, nếu nó đã từng được áp dụng trong biểu mẫu này hoặc một biểu mẫu trong tương lai, không bao giờ được giải quyết.

Và đó là một yếu tố quan trọng được đưa ra bởi tài liệu cảnh báo (Cơ hội và rủi ro của các mô hình nền tảng), kêu gọi sự chú ý đến việc các nhà nghiên cứu tạo ra các khả năng cho Google AI mà không xem xét cách chúng có thể được sử dụng và tác động của chúng đối với các vấn đề như quyền riêng tư và Bảo vệ.

“Các mô hình nền tảng là các tài sản trung gian không có mục đích cụ thể trước khi chúng được điều chỉnh; hiểu được tác hại của chúng đòi hỏi phải có lý luận về cả đặc tính của chúng và vai trò của chúng trong việc xây dựng các mô hình nhiệm vụ cụ thể ”.

Tất cả những lưu ý đó không nằm trong bài báo thông báo của Google nhưng được tham chiếu trong phiên bản PDF của chính bài báo nghiên cứu.

3. Kiến trúc AI & LIMoE Pathways

Văn bản, hình ảnh, dữ liệu âm thanh được gọi là các phương thức, các loại dữ liệu khác nhau hoặc chuyên môn hóa nhiệm vụ, có thể nói như vậy. Phương thức cũng có thể có nghĩa là ngôn ngữ nói và ký hiệu.

Vì vậy, khi bạn nhìn thấy cụm từ “đa phÆ°Æ¡ng thức” hoặc “phÆ°Æ¡ng thức” trong các bài báo khoa học và tài liệu nghiên cứu, những gì họ thường nói đến là các loại dữ liệu khác nhau.

Mục tiêu cuối cùng của Google đối với AI là cái mà nó gọi là Kiến trúc AI thế hệ tiếp theo của Pathways.

Pathways thể hiện sự chuyển hướng từ các mô hình học máy làm một việc thực sự tốt (do đó đòi hỏi hàng nghìn người trong số họ) sang một mô hình duy nhất thực hiện mọi thứ thực sự tốt.

Pathways (và LIMoE) là một cách tiếp cận đa phương thức để giải quyết vấn đề.

Nó được mô tả như thế này:

“Con người dựa vào nhiều giác quan để nhận thức thế giới. Điều đó rất khác với cách các hệ thống AI hiện đại tiêu hóa thông tin.

Hầu hết các mô hình ngày nay chỉ xá»­ lý một phÆ°Æ¡ng thức thông tin tại một thời điểm. Họ có thể lấy văn bản, hình ảnh hoặc lời nói – nhÆ°ng thường không phải cả ba cùng một lúc.

Các lộ trình có thể cho phép các mô hình đa phương thức bao gồm sự hiểu biết về thị giác, thính giác và ngôn ngữ đồng thời ”.

Điều làm cho LIMoE trở nên quan trọng là nó là một kiến ​​trúc đa phương thức được các nhà nghiên cứu gọi là “… bước quan trọng đối với tầm nhìn Pathways…”

Các nhà nghiên cứu mô tả LIMoE là một “bước” vì còn nhiều việc phải làm, bao gồm việc khám phá cách tiếp cận này có thể hoạt động với các phương thức không chỉ là hình ảnh và văn bản.

Bài báo nghiên cứu này và bài viết tóm tắt đi kèm cho biết hướng nghiên cứu AI của Google đang đi và cách nó đến được đó.

Related posts

Tỷ lệ nhấp qua là gì và tại sao CTR lại quan trọng

15 Cách Cải Thiện Tỷ Lệ Chuyển Đổi Trong Google Ads

Amazon đánh giá các phương pháp hay nhất để tăng doanh số và sự tin cậy