Kể từ khi ChatGPT châm ngòi cho cơn sốt AI cuối năm 2022, OpenAI đã là một trong những khách hàng mua chip GPU của NVIDIA nhiều nhất thế giới. Từng đơn hàng, từng lô GPU H100 rồi H200 là điều kiện sống còn để OpenAI duy trì và mở rộng dịch vụ khi nhu cầu tính toán tăng trưởng không kiểm soát được. Thứ Tư vừa qua, OpenAI báo hiệu giai đoạn đó đang bắt đầu thay đổi.
Hợp tác với Broadcom, OpenAI chính thức ra mắt Jalapeño, chip AI tùy chỉnh đầu tiên mang thương hiệu của hãng. Đây là loại mạch tích hợp chuyên dụng, tức loại chip được thiết kế cho một nhiệm vụ cụ thể thay vì linh hoạt như GPU của NVIDIA.
Ông Sam Altman, CEO OpenAI và ông Hock Tan, CEO Broadcom bên cạnh chip AI mới của OpenAI
Jalapeño được xây dựng hoàn toàn cho inference (suy luận), tức quá trình phục vụ các câu trả lời từ mô hình AI đến người dùng trong ChatGPT và các ứng dụng khác. Mẫu chip vật lý đầu tiên được giao tận tay OpenAI ngay trong ngày công bố.
Điểm thu hút chú ý nhất không phải là tên chip hay thông số kỹ thuật mà là thời gian hoàn thành. Chủ tịch OpenAI Greg Brockman cho biết Jalapeño được thiết kế từ đầu đến cuối trong 9 tháng, trong khi chu kỳ thiết kế chip hiệu suất cao thông thường mất từ 2 đến 3 năm. Bí quyết là OpenAI dùng chính các mô hình AI của mình để hỗ trợ phần lớn công việc thiết kế.
Ông Brockman thừa nhận thẳng: "Mức độ mà các mô hình của chúng tôi có thể tăng tốc quá trình này khiến chính chúng tôi cũng rất ngạc nhiên." Đây là ví dụ thực tế đầu tiên ở quy mô thương mại của vòng lặp AI dùng AI để cải thiện phần cứng chạy AI.
Nhiều người có thể thắc mắc tại sao OpenAI chọn chip suy luận cho AI thay vì chip huấn luyện AI. Câu trả lời nằm ở kinh tế học thực tế. Training là chi phí một lần, khi mô hình đã được huấn luyện xong thì quy trình kết thúc. Inference là chi phí liên tục, phát sinh mỗi khi một trong hàng trăm triệu người dùng gõ câu hỏi vào ChatGPT hay bất kỳ ứng dụng nào của OpenAI.
Giảm 30 đến 50% chi phí inference nhân lên trên quy mô đó tạo ra khoản tiết kiệm khổng lồ mỗi ngày. Đây là lựa chọn kinh doanh thực dụng nhất trước khi chuyển sang làm chip training phức tạp hơn.
Bộ xử lý AI Jalapeno của OpenAI
Về mặt kỹ thuật, Jalapeño được thiết kế để giảm thiểu di chuyển dữ liệu bên trong hệ thống, cân bằng tốt hơn giữa tính toán, bộ nhớ và băng thông mạng, từ đó đạt hiệu suất thực tế gần hơn với đỉnh lý thuyết của chip.
CEO Broadcom Hock Tan cho biết sẽ có nguyên mẫu nhỏ vào cuối 2026, tăng tốc triển khai trong 2027 và chạy toàn công suất trong nửa đầu 2028. Mục tiêu dài hạn là xây đủ năng lực tính toán cần đến 10 gigawatt điện, một con số cho thấy quy mô tham vọng của dự án.
Bức tranh chiến lược lớn hơn là OpenAI đang từng bước giảm sự phụ thuộc vào NVIDIA. Trong những tháng gần đây, hãng đã ký thỏa thuận với Amazon Web Services để dùng chip Trainium, ký hợp đồng với AMD và Cerebras, và giờ tự thiết kế chip riêng cùng Broadcom.
Ông Brockman phát biểu thẳng: "Bằng cách tự thiết kế nhiều hơn trong chuỗi, chúng tôi có thể phục vụ nhiều trí tuệ hơn với hiệu quả cao hơn." Trong ngành công nghệ, ai kiểm soát phần cứng sẽ nắm quyền định giá và biên lợi nhuận. Jalapeño là bước đầu tiên trong hành trình đó.





