Giới thiệu về gpt-oss-120b và gpt-oss-20b

gioi thieu ve gpt oss 120b va gpt oss 20b1

Chúng tôi vừa ra mắt hai mô hình ngôn ngữ lớn với trọng số mở là gpt-oss-120b và gpt-oss-20b. Đây là những mô hình tiên tiến, có hiệu năng thực tế cao và chi phí vận hành thấp, được phát hành theo giấy phép Apache 2.0 linh hoạt. Hai mô hình này được tối ưu hóa để triển khai hiệu quả trên phần cứng của người dùng và vượt trội hơn các mô hình mở cùng kích thước trong nhiều nhiệm vụ lập luận và sử dụng công cụ.

gpt-oss-120b cho hiệu năng gần tương đương với OpenAI o4-mini khi đo trên các bài đánh giá tư duy, có thể chạy hiệu quả trên một GPU 80 GB. gpt-oss-20b cho kết quả tương tự OpenAI o3-mini và vận hành được trên thiết bị có 16 GB bộ nhớ, phù hợp cho các trường hợp sử dụng tại chỗ hoặc suy luận cục bộ, tiết kiệm chi phí hạ tầng.

Cả hai mô hình đều có khả năng sử dụng công cụ tốt, hỗ trợ few-shot, suy luận chuỗi tư duy (CoT) và được kiểm chứng trên nhiều bộ đánh giá độc lập như Tau-Bench, HealthBench. Các kết quả cho thấy gpt-oss-120b có thể vượt trội hơn cả các mô hình độc quyền như OpenAI o1 và GPT-4o trong một số tác vụ.

Hai mô hình này tương thích với API Phản hồi, cho phép tích hợp vào quy trình làm việc độc lập, sử dụng công cụ như tìm kiếm web, thực thi mã Python và nhiều khả năng suy luận nâng cao. Người dùng có thể tùy chỉnh toàn diện, tận dụng chuỗi tư duy và hỗ trợ xuất dữ liệu cấu trúc.

Chúng tôi đặt yếu tố an toàn lên hàng đầu khi phát hành mọi mô hình, đặc biệt với mô hình mã nguồn mở. Ngoài việc huấn luyện và đánh giá an toàn toàn diện, chúng tôi còn thử nghiệm thêm lớp đánh giá an toàn bổ sung. Kết quả cho thấy gpt-oss đáp ứng các tiêu chuẩn an toàn tương đương mô hình độc quyền hàng đầu.

Chúng tôi cũng hợp tác với các đối tác như AI Sweden, Orange, Snowflake để nghiên cứu các ứng dụng thực tế, từ lưu trữ mô hình tại chỗ đến tinh chỉnh cho từng tập dữ liệu chuyên biệt. Nhờ đó, gpt-oss có thể phục vụ tốt cho cá nhân, doanh nghiệp lớn hay chính phủ cần tùy chỉnh và vận hành AI trên hạ tầng riêng.


Kiến trúc và huấn luyện mô hình

gpt-oss được huấn luyện bằng các kỹ thuật huấn luyện trước và hậu kỳ tiên tiến, tập trung vào hiệu quả suy luận, vận hành thực tế và khả năng triển khai đa dạng. Đây là mô hình ngôn ngữ đầu tiên của chúng tôi có trọng số mở kể từ GPT-2.

Mỗi mô hình sử dụng kiến trúc Bộ chuyển đổi hỗn hợp nhiều chuyên gia (MoE), giúp giảm số tham số hoạt động cần thiết. Cụ thể, gpt-oss-120b kích hoạt 5.1 tỷ tham số trên mỗi token, tổng cộng 117 tỷ tham số; còn gpt-oss-20b là 3.6 tỷ tham số mỗi token, tổng 21 tỷ tham số. Độ dài ngữ cảnh được hỗ trợ lên tới 128 nghìn.

Các mô hình này được huấn luyện trên tập dữ liệu văn bản chất lượng cao bằng tiếng Anh, tập trung vào STEM, lập trình và kiến thức chung. Dữ liệu được token hóa bằng bộ o200k_harmony, giống với OpenAI o4-mini và GPT-4o.


Huấn luyện hậu kỳ và khả năng suy luận

Các mô hình được huấn luyện hậu kỳ qua tinh chỉnh có giám sát và huấn luyện tăng cường (RL). Mục tiêu là đáp ứng Đặc tả Mô hình của OpenAI, áp dụng suy luận Chuỗi tư duy và sử dụng công cụ trước khi đưa ra câu trả lời. Cả hai mô hình hỗ trợ ba mức độ suy luận: thấp, trung bình và cao, cho phép điều chỉnh giữa hiệu suất và độ trễ.


Đánh giá hiệu năng

gpt-oss-120b và gpt-oss-20b đã được đánh giá qua nhiều bài test lập trình, toán học, y tế, và sử dụng công cụ. Kết quả:

  • gpt-oss-120b vượt qua OpenAI o3-mini, ngang bằng hoặc vượt OpenAI o4-mini ở các tác vụ lập trình, giải quyết vấn đề, và sử dụng công cụ.

  • gpt-oss-20b dù nhỏ hơn nhưng vẫn đạt hoặc vượt o3-mini trong toán học thi đấu và y tế.

  • Trên các bộ đánh giá như Codeforces, HealthBench, AIME, mô hình này đều đạt kết quả ấn tượng.


An toàn và khả năng tinh chỉnh

Chúng tôi áp dụng phương pháp huấn luyện an toàn tiên tiến, lọc dữ liệu có hại và điều chỉnh hướng dẫn để mô hình tự động từ chối các yêu cầu không an toàn. Các rủi ro bị đánh giá kỹ lưỡng qua các nhóm chuyên gia độc lập, giúp nâng cao tiêu chuẩn an toàn cho mô hình nguồn mở.

Chúng tôi sẽ tổ chức chương trình Thử thách mô phỏng tấn công với giải thưởng lớn để cộng đồng cùng phát hiện và khắc phục các vấn đề về an toàn.


Phạm vi cung cấp và triển khai

Người dùng có thể tải miễn phí trọng số của gpt-oss-120b và gpt-oss-20b trên Hugging Face. Mô hình đã được lượng tử hóa để phù hợp với nhiều loại thiết bị. Chúng tôi cũng cung cấp công cụ, mã nguồn tham chiếu và hướng dẫn triển khai trên nhiều nền tảng từ PyTorch, Metal của Apple đến các dịch vụ đám mây như Azure, AWS, Vercel, Cloudflare, v.v.

Microsoft cũng đã tích hợp các phiên bản tối ưu hóa GPU của gpt-oss-20b cho thiết bị Windows, hỗ trợ suy luận cục bộ trên ONNX Runtime.

Nếu bạn cần một mô hình có thể tùy chỉnh toàn diện, gpt-oss là lựa chọn phù hợp. Nếu cần tích hợp nhanh vào hệ sinh thái sẵn có, các mô hình API sẽ là phương án tốt nhất. Hãy trải nghiệm gpt-oss qua sân chơi mô hình mở hoặc tham khảo hướng dẫn chi tiết mà chúng tôi cung cấp.


Ý nghĩa của mô hình mã nguồn mở

Việc ra mắt gpt-oss-120b và gpt-oss-20b đánh dấu một bước tiến quan trọng cho mô hình ngôn ngữ trọng số mở, giúp đẩy mạnh nghiên cứu, đổi mới và phát triển AI an toàn, minh bạch. Những mô hình này giảm bớt rào cản cho các thị trường mới, ngành nghề có nguồn lực hạn chế, và các tổ chức nhỏ. Nhờ đó, mọi người đều có cơ hội tiếp cận công nghệ AI mạnh mẽ.

Một hệ sinh thái open model lành mạnh giúp AI dễ tiếp cận, mang lại lợi ích cho tất cả mọi người. Chúng tôi mong muốn góp phần xây dựng cộng đồng AI mở, khuyến khích sự hợp tác và sáng tạo từ các nhà phát triển và nhà nghiên cứu trên toàn cầu.

5/5 - (1 bình chọn)