Home » Google Bard AI – Trang web nào đã được sử dụng để đào tạo nó?
Google Bard AI

Google Bard AI – Trang web nào đã được sử dụng để đào tạo nó?

by Meta

Bard AI của Google được đào tạo bằng cách sử dụng nội dung trang web nhưng ít thông tin về cách nó được thu thập và nội dung của ai đã được sử dụng.

Bard của Google dựa trên mô hình ngôn ngữ LaMDA, được đào tạo dựa trên bộ dữ liệu dựa trên nội dung Internet có tên là Infiniset mà rất ít thông tin về nơi dữ liệu đến từ đâu và cách họ lấy dữ liệu đó.

>> Tham khảo: Microsoft được cho là đang lên kế hoạch đầu tư 10 tỷ USD vào OpenAI.

Tài liệu nghiên cứu LaMDA năm 2022 liệt kê tỷ lệ phần trăm các loại dữ liệu khác nhau được sử dụng để đào tạo LaMDA, nhưng chỉ 12,5% đến từ tập dữ liệu công khai về nội dung được thu thập thông tin từ web và 12,5% khác đến từ Wikipedia.

Google cố tình mơ hồ về nguồn gốc của phần còn lại của dữ liệu bị loại bỏ nhưng có gợi ý về các trang web nằm trong các bộ dữ liệu đó.

1. Bộ dữ liệu Infiniset của Google

Google Bard dựa trên mô hình ngôn ngữ có tên là LaMDA, là từ viết tắt của Mô hình ngôn ngữ cho các ứng dụng đối thoại.

LaMDA đã được đào tạo trên bộ dữ liệu có tên là Infiniset.

Infiniset là sự pha trộn của nội dung Internet đã được lựa chọn có chủ ý để nâng cao khả năng tham gia đối thoại của mô hình.

Bài báo nghiên cứu của LaMDA (PDF) giải thích lý do tại sao họ chọn thành phần nội dung này:

“…thành phần này được chọn để đạt được hiệu suất mạnh mẽ hơn đối với các tác vụ hộp thoại…trong khi vẫn giữ được khả năng thực hiện các tác vụ khác như tạo mã.

Là công việc trong tương lai, chúng tôi có thể nghiên cứu cách lựa chọn thành phần này có thể ảnh hưởng đến chất lượng của một số nhiệm vụ NLP khác được thực hiện bởi mô hình.”

Bài báo nghiên cứu đề cập đến hộp thoại và hộp thoại, là cách đánh vần của các từ được sử dụng trong ngữ cảnh này, trong lĩnh vực khoa học máy tính.

>> Tham khảo: Cách ChatGPT có thể giúp bạn tạo nội dung cho SEO.

Tổng cộng, LaMDA đã được đào tạo trước trên 1,56 nghìn tỷ từ “dữ liệu hộp thoại công khai và văn bản web”.

Bộ dữ liệu bao gồm hỗn hợp sau:

  • 12,5% dữ liệu dựa trên C4
  • 12,5% Wikipedia tiếng Anh
  • 12,5% tài liệu mã từ các trang web hỏi đáp lập trình, hướng dẫn và các trang khác
  • 6,25% tài liệu web tiếng Anh
  • 6,25% tài liệu web không phải tiếng Anh
  • 50% dữ liệu hộp thoại từ các diễn đàn công cộng

Hai phần đầu tiên của Infiniset (C4 và Wikipedia) bao gồm dữ liệu đã biết.

Tập dữ liệu C4, sẽ sớm được khám phá, là phiên bản được lọc đặc biệt của tập dữ liệu Thu thập thông tin chung.

Chỉ 25% dữ liệu là từ một nguồn có tên (bộ dữ liệu C4 và Wikipedia).

Phần dữ liệu còn lại chiếm phần lớn bộ dữ liệu Infiniset, 75%, bao gồm các từ được lấy từ Internet.

Bài báo nghiên cứu không cho biết dữ liệu được lấy từ các trang web như thế nào, dữ liệu được lấy từ trang web nào hoặc bất kỳ chi tiết nào khác về nội dung cóp nhặt.

Google chỉ sử dụng các mô tả tổng quát như “Tài liệu web không phải tiếng Anh”.

Từ “murky” có nghĩa là khi một cái gì đó không được giải thích và chủ yếu được che giấu.

Âm u là từ tốt nhất để mô tả 75% dữ liệu mà Google đã sử dụng để đào tạo LaMDA.

Có một số manh mối có thể đưa ra ý tưởng chung về những trang web nào được chứa trong 75% nội dung web, nhưng chúng tôi không thể biết chắc chắn.

2. Bộ dữ liệu C4

C4 là bộ dữ liệu do Google phát triển vào năm 2020. C4 là viết tắt của “Colossal Clean Crawled Corpus”.

Tập dữ liệu này dựa trên dữ liệu Thu thập thông tin chung, đây là tập dữ liệu nguồn mở.

2.1. Giới thiệu về thu thập thông tin chung

Common Crawl là một tổ chức phi lợi nhuận đã đăng ký chuyên thu thập thông tin trên Internet hàng tháng để tạo bộ dữ liệu miễn phí mà bất kỳ ai cũng có thể sử dụng.

Tổ chức Common Crawl hiện được điều hành bởi những người đã từng làm việc cho Wikimedia Foundation, cựu nhân viên của Google, người sáng lập Blekko và được coi là những người cố vấn như Peter Norvig, Giám đốc Nghiên cứu của Google và Danny Sullivan (cũng của Google).

>> Tham khảo: Meta đổ lỗi cho nhu cầu quảng cáo yếu, các đối thủ khiến doanh thu quý 4 năm 2022 sụt giảm.

2.2. C4 được phát triển như thế nào từ Common Crawl

Dữ liệu Common Crawl thô được làm sạch bằng cách xóa những thứ như nội dung sơ sài, từ tục tĩu, lorem ipsum, menu điều hướng, chống trùng lặp, v.v. để giới hạn tập dữ liệu ở nội dung chính.

Mục đích của việc lọc ra những dữ liệu không cần thiết là loại bỏ những từ ngữ vô nghĩa và giữ lại những ví dụ về tiếng Anh tự nhiên.

Đây là những gì các nhà nghiên cứu tạo ra C4 đã viết:

“Để tập hợp bộ dữ liệu cơ sở của mình, chúng tôi đã tải xuống văn bản trích xuất trên web từ tháng 4 năm 2019 và áp dụng bộ lọc nói trên.

Điều này tạo ra một bộ sưu tập văn bản không chỉ lớn hơn so với hầu hết các bộ dữ liệu được sử dụng để đào tạo trước (khoảng 750 GB) mà còn bao gồm văn bản tiếng Anh tự nhiên và hợp lý.

Chúng tôi gọi bộ dữ liệu này là “Colossal Clean Crawled Corpus” (hay gọi tắt là C4) và phát hành nó như một phần của Bộ dữ liệu TensorFlow…”

Ngoài ra còn có các phiên bản C4 chưa được lọc khác.

Tài liệu nghiên cứu mô tả bộ dữ liệu C4 có tiêu đề, Khám phá các giới hạn của việc học chuyển giao với bộ chuyển đổi văn bản thành văn bản hợp nhất (PDF).

Một bài báo nghiên cứu khác từ năm 2021, (Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus – PDF) đã kiểm tra cấu trúc của các trang web có trong bộ dữ liệu C4.

Thật thú vị, bài báo nghiên cứu thứ hai đã phát hiện ra những điểm bất thường trong tập dữ liệu C4 ban đầu dẫn đến việc xóa các trang web phù hợp với người Mỹ gốc Tây Ban Nha và người Mỹ gốc Phi.

Các trang web phù hợp với tiếng Tây Ban Nha đã bị xóa bởi bộ lọc danh sách chặn (những từ chửi thề, v.v.) với tỷ lệ 32% số trang.

Các trang web phù hợp với người Mỹ gốc Phi đã bị xóa với tỷ lệ 42%.

Có lẽ những thiếu sót đó đã được giải quyết…

Một phát hiện khác là 51,3% tập dữ liệu C4 bao gồm các trang web được lưu trữ tại Hoa Kỳ.

Cuối cùng, phân tích năm 2021 của tập dữ liệu C4 ban đầu thừa nhận rằng tập dữ liệu chỉ đại diện cho một phần nhỏ trong tổng số Internet.

Bản phân tích nêu rõ:

“Phân tích của chúng tôi cho thấy rằng mặc dù bộ dữ liệu này đại diện cho một phần đáng kể trong dữ liệu Internet công cộng, nhưng nó hoàn toàn không đại diện cho thế giới nói tiếng Anh và nó kéo dài trong nhiều năm.

Khi xây dựng một tập dữ liệu từ một mẩu web, việc báo cáo các miền mà văn bản được lấy từ đó là điều không thể thiếu để hiểu tập dữ liệu; quá trình thu thập dữ liệu có thể dẫn đến sự phân bổ miền internet khác biệt đáng kể so với mong đợi.”

Các số liệu thống kê sau đây về bộ dữ liệu C4 là từ bài nghiên cứu thứ hai được liên kết ở trên.

Nếu bạn muốn tìm hiểu thêm về bộ dữ liệu C4, tôi khuyên bạn nên đọc Tài liệu Tập đoàn văn bản web lớn: Nghiên cứu điển hình về Tập dữ liệu được thu thập thông tin sạch khổng lồ (PDF) cũng như tài liệu nghiên cứu gốc năm 2020 (PDF) mà C4 đã được tạo.

3. Dữ liệu hộp thoại từ các diễn đàn công cộng có thể là gì?

50% dữ liệu đào tạo đến từ “dữ liệu hộp thoại từ các diễn đàn công cộng”.

Đó là tất cả những gì bài báo nghiên cứu LaMDA của Google nói về dữ liệu đào tạo này.

Nếu ai đó đoán, Reddit và các cộng đồng hàng đầu khác như StackOverflow là những cược an toàn.

Reddit được sử dụng trong nhiều bộ dữ liệu quan trọng, chẳng hạn như bộ do OpenAI phát triển có tên là WebText2 (PDF), một mã nguồn mở gần đúng của WebText2 có tên là OpenWebText2 và bộ dữ liệu giống như WebText (PDF) của riêng Google từ năm 2020.

Google cũng đã công bố chi tiết về một tập dữ liệu khác của các trang web hộp thoại công khai một tháng trước khi xuất bản bài báo LaMDA.

Tập dữ liệu này có chứa các trang hộp thoại công khai được gọi là MassiveWeb.

Chúng tôi không suy đoán rằng bộ dữ liệu MassiveWeb đã được sử dụng để huấn luyện LaMDA.

Nhưng nó chứa một ví dụ điển hình về những gì Google đã chọn cho một mô hình ngôn ngữ khác tập trung vào đối thoại.

MassiveWeb được tạo bởi DeepMind, thuộc sở hữu của Google.

>> Tham khảo: Các tính năng mới do AI hỗ trợ của Google.

Nó được thiết kế để sử dụng bởi một mô hình ngôn ngữ lớn gọi là Gopher (liên kết tới PDF của bài nghiên cứu).

MassiveWeb sử dụng các nguồn web hộp thoại vượt ra ngoài Reddit để tránh tạo ra sự thiên vị đối với dữ liệu chịu ảnh hưởng của Reddit.

Nó vẫn sử dụng Reddit. Nhưng nó cũng chứa dữ liệu được lấy từ nhiều trang web khác.

Các trang hộp thoại công khai có trong MassiveWeb là:

  • Reddit
  • Facebook
  • Quora
  • YouTube
  • Medium
  • StackOverflow

Một lần nữa, điều này không có nghĩa là LaMDA đã được đào tạo với các trang web trên.

Nó chỉ nhằm mục đích hiển thị những gì Google có thể đã sử dụng, bằng cách hiển thị tập dữ liệu mà Google đang làm việc cùng thời với LaMDA, tập dữ liệu chứa các trang web kiểu diễn đàn.

4. 37,5% còn lại

Nhóm nguồn dữ liệu cuối cùng là:

  • 12,5% tài liệu code từ các trang liên quan đến lập trình như trang hỏi đáp, hướng dẫn, v.v.;
  • 12,5% Wikipedia (tiếng Anh)
  • 6,25% tài liệu web tiếng Anh
  • 6,25% tài liệu web không phải tiếng Anh.

Google không chỉ định những trang web nào nằm trong danh mục Trang web Hỏi & Đáp Lập trình chiếm 12,5% bộ dữ liệu mà LaMDA đã đào tạo.

Vì vậy, chúng tôi chỉ có thể suy đoán.

Stack Overflow và Reddit dường như là những lựa chọn hiển nhiên, đặc biệt là khi chúng được đưa vào bộ dữ liệu MassiveWeb.

Những trang web “hướng dẫn” nào đã được thu thập dữ liệu? Chúng tôi chỉ có thể suy đoán những trang web “hướng dẫn” đó có thể là gì.

Điều đó để lại ba loại nội dung cuối cùng, hai trong số đó cực kỳ mơ hồ.

Wikipedia tiếng Anh không cần thảo luận, tất cả chúng ta đều biết Wikipedia.

Nhưng hai điều sau đây không được giải thích:

Các trang web tiếng Anh và không phải tiếng Anh là mô tả chung về 13% các trang web có trong cơ sở dữ liệu.

Đó là tất cả thông tin mà Google cung cấp về phần dữ liệu đào tạo này.

5. Google có nên minh bạch về bộ dữ liệu được sử dụng cho Bard không?

Một số nhà xuất bản cảm thấy không thoải mái khi trang web của họ được sử dụng để huấn luyện các hệ thống AI vì theo ý kiến ​​của họ, những hệ thống đó trong tương lai có thể khiến trang web của họ trở nên lỗi thời và biến mất.

Điều đó có đúng hay không vẫn còn phải chờ xem, nhưng đó là mối quan tâm thực sự của các nhà xuất bản và thành viên của cộng đồng tiếp thị tìm kiếm.

Google rất mơ hồ về các trang web được sử dụng để đào tạo LaMDA cũng như công nghệ nào đã được sử dụng để thu thập dữ liệu của các trang web.

>> Tham khảo: Mẹo Google SEO cho các bài báo: Thẻ Lastmod, Sơ đồ trang web riêng biệt.

Như đã thấy trong phân tích bộ dữ liệu C4, phương pháp chọn nội dung trang web sẽ sử dụng để đào tạo các mô hình ngôn ngữ lớn có thể ảnh hưởng đến chất lượng của mô hình ngôn ngữ bằng cách loại trừ một số nhóm nhất định.

Google có nên minh bạch hơn về những trang web nào được sử dụng để đào tạo AI của họ hay ít nhất là xuất bản một báo cáo minh bạch dễ tìm về dữ liệu đã được sử dụng?

Related Posts

Leave a Comment

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00