Chủ Nhật, 6 tháng 4, 2025

Các mô hình Llama 4 mới của Meta: Llama 4 Scout và Llama 4 Maverick

AIatMeta thông báo về việc ra mắt các mô hình Llama 4, đánh dấu một bước tiến mới trong lĩnh vực AI đa phương thức (multimodal AI).

1. Tổng quan:

AIatMeta thông báo về việc ra mắt các mô hình Llama 4, đánh dấu một bước tiến mới trong lĩnh vực AI đa phương thức (multimodal AI). Các điểm chính trong bài đăng bao gồm:
  • Giới thiệu hai mô hình mới: Llama 4 Scout và Llama 4 Maverick, được mô tả là các mô hình tiên tiến nhất của Meta trong lĩnh vực đa phương thức.
  • Thông tin về Llama 4 Behemoth: Một mô hình mạnh mẽ hơn đang được huấn luyện, đóng vai trò như "giáo viên" để cải thiện Scout và Maverick thông qua kỹ thuật chưng cất (distillation).
  • Hiệu suất vượt trội: Cả Scout và Maverick đều được so sánh với các mô hình hàng đầu như GPT-4o, Gemini 2.0 Flash, và DeepSeek v3, với các điểm số ấn tượng trên các bài kiểm tra chuẩn (benchmarks).
  • Tính năng nổi bật:
    • Llama 4 Scout có cửa sổ ngữ cảnh (context window) lên đến 10 triệu token.
    • Llama 4 Maverick có khả năng "image grounding" (liên kết hình ảnh với văn bản) tốt nhất trong phân khúc.
  • Cam kết mã nguồn mở (open-source): Meta tiếp tục chiến lược mã nguồn mở, cho phép cộng đồng tải xuống và sử dụng các mô hình này.


a. Llama 4 Scout
  • Thông số kỹ thuật:
    • Mô hình có 17 tỷ tham số hoạt động (active parameters) với 16 chuyên gia (experts), thuộc kiến trúc Mixture-of-Experts (MoE).
    • Cửa sổ ngữ cảnh 10 triệu token, được xem là "dẫn đầu ngành" (industry-leading). Điều này có nghĩa là mô hình có thể xử lý một lượng dữ liệu đầu vào cực lớn (ví dụ: hàng triệu từ hoặc dữ liệu tương đương) trong một lần xử lý, rất hữu ích cho các tác vụ như phân tích tài liệu dài, tìm kiếm thông tin, hoặc xử lý dữ liệu đa phương thức.
    • Hiệu suất vượt trội hơn các mô hình như Gemma 3, Gemini 2.0 Flash-Lite, và Mistral 3.1 trên nhiều bài kiểm tra chuẩn.
  • Ý nghĩa:
    • Cửa sổ ngữ cảnh 10 triệu token: Đây là một bước đột phá lớn. Để so sánh, các mô hình trước đây như GPT-3 chỉ có cửa sổ ngữ cảnh khoảng 2.048 token, và ngay cả các mô hình mới hơn như GPT-4 cũng chỉ đạt khoảng 128.000 token. Cửa sổ ngữ cảnh lớn cho phép Llama 4 Scout xử lý các tác vụ phức tạp như phân tích toàn bộ cuốn sách, tài liệu pháp lý dài, hoặc dữ liệu đa phương thức (văn bản + hình ảnh) mà không cần chia nhỏ dữ liệu.
    • Chạy trên một GPU duy nhất: Theo kết quả tìm kiếm web từ Hacker News (web:0), Llama 4 Scout có thể chạy trên một GPU H100 (khi được lượng tử hóa ở định dạng INT4). Điều này làm cho mô hình trở nên dễ tiếp cận hơn với các nhà phát triển hoặc tổ chức nhỏ, không cần đến cơ sở hạ tầng lớn như các mô hình khác (ví dụ: Llama 4 Maverick cần một host DGX H100 hoặc phân tán trên nhiều máy).
    • Kiến trúc MoE: MoE (Mixture-of-Experts) là một kỹ thuật chia mô hình thành nhiều "chuyên gia" nhỏ, mỗi chuyên gia tập trung vào một loại tác vụ cụ thể (ví dụ: xử lý văn bản, phân tích hình ảnh, lập trình). Theo TechTarget (web:5), MoE giúp tăng hiệu quả tính toán vì chỉ một số chuyên gia được kích hoạt cho mỗi tác vụ, thay vì sử dụng toàn bộ mô hình. Điều này làm giảm chi phí tính toán và tăng tốc độ xử lý.
  • Phản hồi từ cộng đồng:
    • Nhiều người dùng trên X tỏ ra ấn tượng với cửa sổ ngữ cảnh 10 triệu token, với các bình luận như "10 FKING MILLION CONTEXT WINDOW" (
      @FatMiddleFinger
      ) và "10m tokens??!!" (
      @Art_If_Ficial
      ). Điều này cho thấy đây là một tính năng được cộng đồng đánh giá cao.
b. Llama 4 Maverick
  • Thông số kỹ thuật:
    • Cũng có 17 tỷ tham số hoạt động nhưng với 128 chuyên gia, tổng cộng 400 tỷ tham số (theo Hacker News, web:0).
    • Cửa sổ ngữ cảnh 1 triệu token (nhỏ hơn Scout nhưng vẫn rất ấn tượng).
    • Điểm nổi bật là khả năng "image grounding" (liên kết hình ảnh với văn bản), cho phép mô hình hiểu và trả lời dựa trên các vùng cụ thể trong hình ảnh. Ví dụ, nếu bạn hỏi "vật thể màu đỏ trong hình là gì?", mô hình có thể xác định chính xác vùng màu đỏ và trả lời.
    • Hiệu suất vượt trội hơn GPT-4o và Gemini 2.0 Flash trên nhiều bài kiểm tra chuẩn, đồng thời đạt kết quả tương đương với DeepSeek v3 về khả năng lập luận (reasoning) và lập trình (coding), nhưng chỉ với một nửa số tham số hoạt động.
    • Điểm ELO 1417 trên LMArena (một bảng xếp hạng hiệu suất AI), được xác nhận bởi
      @lmarena_ai
      (xu hướng:7), nơi Maverick đứng thứ 2 tổng thể và là mô hình mã nguồn mở số 1.
  • Ý nghĩa:
    • Image grounding: Đây là một tính năng quan trọng trong AI đa phương thức, cho phép mô hình không chỉ nhận diện hình ảnh mà còn liên kết các khái niệm hình ảnh với văn bản. Ví dụ, trong y học, mô hình có thể phân tích hình ảnh X-quang và trả lời các câu hỏi cụ thể về vùng tổn thương. Trong sáng tạo, nó có thể hỗ trợ thiết kế hoặc chỉnh sửa hình ảnh dựa trên mô tả văn bản.
    • Hiệu suất cao với chi phí thấp: Bài đăng nhấn mạnh "tỷ lệ hiệu suất-chi phí chưa từng có" (unparalleled performance-to-cost ratio). Theo
      @omarsar0
      (xu hướng:5), chi phí phục vụ Llama 4 dao động từ 0,19 đến 0,49 USD cho mỗi triệu token, thấp hơn nhiều so với các mô hình như GPT-4o (thường có chi phí cao hơn do không mã nguồn mở).
    • So sánh với đối thủ: Việc vượt qua GPT-4o và Gemini 2.0 Flash cho thấy Meta đang cạnh tranh trực tiếp với OpenAI và Google trong lĩnh vực AI đa phương thức. Điểm ELO 1417 trên LMArena là một minh chứng rõ ràng cho hiệu suất của Maverick, đặc biệt khi nó vượt qua cả DeepSeek (một mô hình mã nguồn mở mạnh khác).
c. Llama 4 Behemoth
  • Thông tin:
    • Đây là mô hình mạnh nhất của Meta, với 288 tỷ tham số hoạt động (theo xu hướng), nhưng vẫn đang trong quá trình huấn luyện.
    • Hiệu suất hiện tại vượt qua GPT-4.5, Claude Sonnet 3.7, và Gemini 2.0 Pro trên các bài kiểm tra STEM (khoa học, công nghệ, kỹ thuật, toán học).
    • Behemoth được sử dụng để "chưng cất" (distillation) kiến thức vào Scout và Maverick, nghĩa là các mô hình nhỏ hơn được huấn luyện dựa trên dữ liệu và kiến thức từ Behemoth để đạt hiệu suất cao hơn.
  • Ý nghĩa:
    • Kỹ thuật chưng cất: Đây là một phương pháp phổ biến trong AI, nơi một mô hình lớn (teacher model) được sử dụng để huấn luyện các mô hình nhỏ hơn (student models). Behemoth, với 288 tỷ tham số, có khả năng học được các mẫu dữ liệu phức tạp hơn, sau đó truyền lại kiến thức này cho Scout và Maverick, giúp chúng đạt hiệu suất cao dù có ít tham số hơn.
    • Tiềm năng tương lai: Việc Behemoth vẫn đang huấn luyện cho thấy Meta có kế hoạch tiếp tục cải tiến và có thể ra mắt một phiên bản hoàn chỉnh của mô hình này trong tương lai, cạnh tranh trực tiếp với các mô hình biên (frontier models) như GPT-5 hoặc các mô hình tương lai của Google.
d. Cam kết mã nguồn mở
  • Meta nhấn mạnh rằng Llama 4 là mã nguồn mở, tiếp tục chiến lược đã áp dụng với các phiên bản Llama trước đó (như Llama 2, được đề cập trong bài của The Guardian, web:6).
  • Theo
    @Ahmad_Al_Dahle
    (xu hướng:3), Llama đã được tải xuống hơn 1 tỷ lần, cho thấy sự thành công của chiến lược mã nguồn mở. Việc tiếp tục mở mã nguồn Llama 4 giúp Meta thu hút cộng đồng nhà phát triển toàn cầu, từ đó thúc đẩy đổi mới và ứng dụng AI trong nhiều lĩnh vực.


2. Bối cảnh và ý nghĩa chiến lược
a. Bối cảnh từ các bài đăng và xu hướng liên quan
  • Phản ứng của cộng đồng:
    • Các bài đăng trên X cho thấy sự phấn khích lớn từ cộng đồng công nghệ. Ví dụ,
      @4xiom_
      (Thread 1 và 2) gọi đây là "mô hình mã nguồn mở tốt nhất từ trước đến nay" và sử dụng hình ảnh vui nhộn với chú lạc đà không bướu (llama) đeo kính mát và khẩu hiệu "America is Back", ám chỉ sự cạnh tranh của Meta với các công ty Mỹ khác như OpenAI và Google.
    • @lmarena_ai
      (xu hướng:7) xác nhận hiệu suất của Llama 4 Maverick, với điểm ELO 1417, vượt qua cả Llama 3 405B (điểm 1268), cho thấy sự cải thiện đáng kể so với thế hệ trước.
  • Thông tin bổ sung từ xu hướng:
    • @omarsar0
      (xu hướng:5) cung cấp thêm chi tiết về khả năng đa ngôn ngữ (hỗ trợ 12 ngôn ngữ gốc và có thể tinh chỉnh cho các ngôn ngữ khác) và chi phí thấp (0,19-0,49 USD/triệu token).
    • @Ahmad_Al_Dahle
      (xu hướng:3) nhấn mạnh rằng Meta đã thiết kế lại toàn bộ dòng Llama để sử dụng kiến trúc MoE và tập trung vào đa phương thức, đồng thời hợp tác với nhiều đối tác như Hugging Face, SnowflakeDB, và Databricks để triển khai Llama 4.
b. Ý nghĩa chiến lược của Meta
  • Cạnh tranh trong ngành AI:
    • Theo Reuters (web:2), Meta đã chi tới 65 tỷ USD trong năm 2025 để mở rộng cơ sở hạ tầng AI, cho thấy sự đầu tư mạnh mẽ để cạnh tranh với OpenAI (ChatGPT), Google (Gemini), và các công ty khác. Tuy nhiên, Reuters cũng lưu ý rằng Meta đã trì hoãn việc ra mắt Llama 4 do không đạt kỳ vọng về khả năng lập luận và toán học, cũng như lo ngại rằng Llama 4 kém hơn các mô hình của OpenAI trong giao tiếp giọng nói giống con người.
    • Việc ra mắt Llama 4 Scout và Maverick có thể là một động thái "gấp rút" (như được đề cập trong phần xu hướng) để duy trì vị thế cạnh tranh, đặc biệt khi các đối thủ như OpenAI và Google đang phát triển các mô hình mới (ví dụ: GPT-4.5, Gemini 2.0).
  • Chiến lược mã nguồn mở:
    • The Guardian (web:6) từng phân tích lý do Meta mở mã nguồn Llama 2: để làm suy yếu lợi thế cạnh tranh của các đối thủ và thúc đẩy đổi mới thông qua cộng đồng. Với Llama 4, Meta tiếp tục chiến lược này, như được xác nhận bởi
      @Ahmad_Al_Dahle
      (xu hướng:3), khi nhấn mạnh cam kết dài hạn với AI mã nguồn mở.
    • Mã nguồn mở giúp Meta thu hút các nhà phát triển, startup, và tổ chức nghiên cứu, từ đó tạo ra một hệ sinh thái rộng lớn xung quanh Llama, cạnh tranh với các hệ sinh thái đóng như của OpenAI.
  • Đáp ứng nhu cầu xã hội:
    • Theo Pew Research Center (web:1), cả công chúng và các chuyên gia AI đều lo ngại về sự thiếu minh bạch và quy định trong AI, cũng như nguy cơ thiên vị (bias) trong các mô hình AI. Meta, bằng cách mở mã nguồn Llama 4, có thể đang cố gắng giải quyết mối lo ngại này bằng cách cho phép cộng đồng kiểm tra và cải thiện mô hình, như Nick Clegg đã từng nói về Llama 2 (web:6): "mở mã nguồn giúp hệ thống an toàn hơn và tốt hơn nhờ sự giám sát từ bên ngoài".
3. Phân tích kỹ thuật chuyên sâu:
a. Kiến trúc Mixture-of-Experts (MoE)
  • MoE là gì?:
    • Theo TechTarget (web:5), MoE chia mô hình thành nhiều "chuyên gia" (experts), mỗi chuyên gia được huấn luyện để xử lý một loại tác vụ cụ thể. Một cơ chế "gating" (cổng) sẽ quyết định chuyên gia nào được kích hoạt cho mỗi đầu vào.
    • Lợi ích chính của MoE là hiệu quả tính toán: thay vì sử dụng toàn bộ mô hình, chỉ một số chuyên gia được kích hoạt, giảm chi phí tính toán và bộ nhớ.
  • Ứng dụng trong Llama 4:
    • Llama 4 Scout có 16 chuyên gia, tổng cộng 109 tỷ tham số (theo Hacker News, web:0).
    • Llama 4 Maverick có 128 chuyên gia, tổng cộng 400 tỷ tham số. Số lượng chuyên gia lớn hơn cho phép Maverick xử lý các tác vụ phức tạp hơn, đặc biệt là trong đa phương thức (văn bản + hình ảnh).
    • MoE giúp Llama 4 đạt hiệu suất cao với số tham số hoạt động thấp (17 tỷ), so với các mô hình như GPT-4 (ước tính hàng trăm tỷ tham số).
b. Cửa sổ ngữ cảnh (Context Window)
  • Cửa sổ ngữ cảnh là số lượng token tối đa mà mô hình có thể xử lý trong một lần. Với Llama 4 Scout (10 triệu token) và Maverick (1 triệu token), Meta đã đạt được bước tiến lớn so với các mô hình trước đó.
  • Ứng dụng thực tế:
    • Phân tích tài liệu dài: Một cuốn sách trung bình có khoảng 100.000 từ (khoảng 150.000 token). Với 10 triệu token, Llama 4 Scout có thể xử lý hơn 60 cuốn sách cùng lúc.
    • Xử lý dữ liệu đa phương thức: Cửa sổ ngữ cảnh lớn cho phép mô hình kết hợp văn bản và hình ảnh trong các tác vụ phức tạp, như phân tích báo cáo khoa học có kèm biểu đồ.
c. Image Grounding
  • Đây là khả năng liên kết các khái niệm văn bản với các vùng cụ thể trong hình ảnh. Ví dụ, nếu bạn hỏi "con mèo trong hình ở đâu?", mô hình có thể xác định vị trí con mèo và trả lời chính xác.
  • Llama 4 Maverick được mô tả là "tốt nhất trong phân khúc" về image grounding, vượt qua GPT-4o và Gemini 2.0 Flash. Điều này có thể được hỗ trợ bởi số lượng chuyên gia lớn (128) trong kiến trúc MoE, cho phép mô hình phân tích hình ảnh chi tiết hơn.
d. Kỹ thuật chưng cất (Distillation)
  • Behemoth (288 tỷ tham số) được sử dụng để chưng cất kiến thức vào Scout và Maverick. Điều này có nghĩa là Behemoth được huấn luyện trên dữ liệu lớn, sau đó kiến thức của nó được "nén" vào các mô hình nhỏ hơn.
  • Lợi ích: Scout và Maverick có thể đạt hiệu suất cao (gần bằng Behemoth) nhưng với chi phí tính toán thấp hơn, phù hợp để triển khai trên các thiết bị nhỏ hơn.
5. Đánh giá và hạn chế tiềm tàng:
a. Điểm mạnh
  • Hiệu suất cao: Llama 4 Maverick đạt điểm ELO 1417 trên LMArena, vượt qua nhiều mô hình hàng đầu. Scout và Maverick cũng vượt qua các đối thủ như GPT-4o và Gemini 2.0 Flash trên nhiều bài kiểm tra.
  • Hiệu quả chi phí: Với chi phí 0,19-0,49 USD/triệu token, Llama 4 là lựa chọn kinh tế cho các nhà phát triển và doanh nghiệp.
  • Mã nguồn mở: Tiếp cận cộng đồng rộng lớn, thúc đẩy đổi mới và ứng dụng trong nhiều lĩnh vực.
b. Hạn chế
  • Vấn đề minh bạch: Theo TechTarget (web:5), kiến trúc MoE có thể làm tăng độ phức tạp và giảm tính minh bạch (interpretability) của mô hình. Người dùng khó hiểu được cách mô hình đưa ra quyết định, đặc biệt khi có nhiều chuyên gia tương tác với nhau.
  • Yêu cầu dữ liệu huấn luyện: MoE đòi hỏi dữ liệu huấn luyện đa dạng và chất lượng cao để huấn luyện các chuyên gia và cơ chế gating. Điều này có thể là thách thức với các tổ chức nhỏ.
  • Hiệu suất chưa đồng đều: Theo Reuters (web:2), Meta đã trì hoãn ra mắt Llama 4 do không đạt kỳ vọng về lập luận và toán học. Điều này cho thấy mô hình có thể chưa hoàn hảo trong một số tác vụ.
  • Khả năng chạy trên phần cứng nhỏ: Mặc dù Scout có thể chạy trên một GPU duy nhất, Maverick yêu cầu phần cứng mạnh hơn (DGX H100 host), như được 
    @atphacking
    (Thread 0) đặt câu hỏi: "Có thể chạy trên một GPU duy nhất không?"
5. Kết luận
AIatMeta giới thiệu Llama 4 Scout và Maverick là một bước tiến lớn trong lĩnh vực AI đa phương thức, với các tính năng nổi bật như cửa sổ ngữ cảnh 10 triệu token, khả năng image grounding, và hiệu suất vượt trội so với các đối thủ. Việc sử dụng kiến trúc MoE và kỹ thuật chưng cất từ Llama 4 Behemoth giúp Meta đạt được hiệu quả cao với chi phí thấp, đồng thời tiếp tục chiến lược mã nguồn mở để thu hút cộng đồng.
Tuy nhiên, Llama 4 cũng đối mặt với các thách thức như tính minh bạch, yêu cầu dữ liệu huấn luyện, và áp lực cạnh tranh từ các công ty như OpenAI và Google. Dù vậy, với sự phấn khích từ cộng đồng và hiệu suất ấn tượng, Llama 4 hứa hẹn sẽ là một công cụ quan trọng trong hệ sinh thái AI mã nguồn mở, mở ra nhiều cơ hội cho các nhà phát triển và doanh nghiệp trên toàn cầu.

Tham khảo nguồn: https://x.com/aiatmeta/status/1908598456144531660?s=12
(BYC-Grok)

Không có nhận xét nào:

Đăng nhận xét