Google đã chính thức giới thiệu Ironwood – thế hệ Tensor Processing Unit (TPU) thứ bảy của hãng, được thiết kế chuyên biệt cho tác vụ suy diễn (inference) trong các ứng dụng AI. Sự kiện ra mắt diễn ra tại hội nghị Google Cloud Next 2025 ở Las Vegas vào ngày 9 tháng 4 năm 2025, khẳng định tầm nhìn “kỷ nguyên suy diễn” (age of inference) mà Google đang hướng tới. Ironwood được xây dựng để xử lý các mô hình AI quy mô lớn như các mô hình ngôn ngữ lớn (LLM) và mô hình lai (mixture of experts), đồng thời tối ưu về hiệu suất và năng lượng so với các thế hệ trước.

Trước Ironwood, Google đã phát triển sáu thế hệ TPU, trong đó thế hệ thứ sáu (Trillium) ra mắt vào năm 2024 và đạt được mức tăng 4,7 lần hiệu suất so với TPU v5e nhờ cải tiến kích thước đơn vị nhân ma trận và tốc độ xung nhịp, cùng với việc nhân đôi dung lượng và băng thông bộ nhớ HBM. Tuy nhiên, Trillium vẫn hướng đến cả hai tác vụ huấn luyện (training) và suy diễn, trong khi Ironwood là chip đầu tiên của Google được phát triển chuyên biệt cho suy diễn, phù hợp với nhu cầu ngày càng cao của các ứng dụng AI phản hồi theo thời gian thực như chatbot và đại lý AI tự động hóa tác vụ.

Một trong những điểm nổi bật của Ironwood là khả năng mở rộng quy mô ấn tượng: mỗi pod Ironwood có thể tích hợp đến 9.216 chip, mang lại tổng công suất tính toán lên đến 42,5 exaflops khi triển khai ở quy mô đầy đủ. Con số này vượt xa siêu máy tính nhanh nhất thế giới hiện nay, El Capitan, với 1,7 exaflops, tương đương gấp khoảng 24 lần về hiệu suất tổng thể. Bên cạnh đó, mỗi chip Ironwood đạt đỉnh 4.614 teraflops, kèm theo 192 GB bộ nhớ HBM và băng thông 7,2 terabit/giây, lần lượt gấp 6 lần và 4,5 lần so với Trillium.

Về hiệu suất năng lượng, Ironwood được trang bị công nghệ làm mát bằng chất lỏng (liquid cooling) và sử dụng thiết kế mạng liên kết giữa các chip (Inter-Chip Interconnect – ICI) đột phá, cho phép giảm tiêu thụ điện năng trên mỗi phép tính xuống còn một nửa so với thế hệ trước. Nhờ đó, Ironwood không chỉ tăng gấp đôi hiệu suất trên mỗi watt so với Trillium mà còn mang lại giá trị lớn hơn về chi phí vận hành cho các trung tâm dữ liệu và khách hàng đám mây.

Ironwood là thành phần chủ chốt trong kiến trúc AI Hypercomputer của Google Cloud, hệ thống siêu máy tính tích hợp phần cứng và phần mềm nhằm tối ưu hóa các khối lượng công việc AI từ huấn luyện đến suy diễn. AI Hypercomputer kết hợp Ironwood với các phần mềm mã nguồn mở như PyTorch, JAX, vLLM và Keras, giúp các nhà phát triển dễ dàng triển khai và quản lý tài nguyên hiệu quả trên nền tảng Google Cloud. Theo Google, với Ironwood và AI Hypercomputer, Gemini Flash 2.0 có thể đạt mức “thông minh trên mỗi đô la” cao gấp 24 lần GPT-4o và 5 lần so với DeepSeek-R1 .

Về mặt triển khai, Google sẽ cung cấp Ironwood qua hai cấu hình: pod 256 chip dành cho các doanh nghiệp vừa và nhỏ hoặc các khối lượng công việc suy diễn quy mô vừa, và pod 9.216 chip cho các trung tâm dữ liệu lớn hoặc các ứng dụng AI yêu cầu hiệu suất cực cao. Dự kiến, Ironwood sẽ khả dụng cho khách hàng Google Cloud vào cuối năm 2025, đồng thời tiếp tục đóng vai trò “động cơ” cho các mô hình Gemini AI của Google, bao gồm Gemini 2.5 Pro và Flash với khả năng xử lý đa phương thức (multimodal reasoning) vượt trội

So với đối thủ NVIDIA, vốn đang chiếm lĩnh thị trường GPU cho AI với các dòng H100 và V100, Ironwood đánh dấu bước tiến chiến lược quan trọng của Google trong cuộc đua chip AI. Dù NVIDIA đã công bố các GPU chuyên suy diễn như GH200 và dự kiến ra mắt thế hệ tiếp theo, Google khẳng định TPU của mình – nhất là Ironwood – mang lại lợi thế vượt trội về giá/hiệu suất và tích hợp sâu với hệ sinh thái đám mây của hãng . Việc Google mở rộng quyền truy cập TPU cho khách hàng đám mây cũng giúp giảm bớt sự phụ thuộc vào GPU, đồng thời đa dạng hóa lựa chọn phần cứng cho các doanh nghiệp và nhà nghiên cứu AI.

Với Ironwood, Google đặt nền móng cho “kỷ nguyên suy diễn” – nơi AI không chỉ phản hồi mà còn chủ động tạo ra thông tin và giải pháp cho người dùng. Các đại lý AI (AI agents) sẽ có thể tự động truy xuất và tổng hợp dữ liệu, đưa ra dự đoán và hành động thay con người trong nhiều lĩnh vực như chăm sóc khách hàng, y tế, tài chính và sản xuất. Trong tương lai gần, Google dự kiến tiếp tục hợp tác với các đối tác sản xuất chip để đảm bảo nguồn cung, đồng thời mở rộng mạng lưới trung tâm dữ liệu xanh, thân thiện với môi trường nhằm tối ưu hóa hiệu suất và giảm phát thải carbon

Tóm lại, Ironwood không chỉ là một bước tiến công nghệ mà còn là minh chứng cho tham vọng của Google trong việc xây dựng hạ tầng AI toàn cầu, đáp ứng nhu cầu ngày càng tăng của “kỷ nguyên suy diễn”. Với khả năng tính toán khổng lồ, hiệu suất năng lượng cao và tích hợp sâu với hệ sinh thái AI Hypercomputer, Ironwood hứa hẹn sẽ thúc đẩy làn sóng ứng dụng AI mới, từ chatbot thông minh đến đại lý tự động hóa phức tạp, mở ra kỷ nguyên mới cho trí tuệ nhân tạo.

Tin tức

Google Ironwood – Bước Đột Phá Về Hiệu Suất Và Hiệu Quả Năng Lượng Cho AI

admin

Để lại một bình luận Hủy

admin

Để lại một bình luận Hủy

Đăng nhập

Đăng ký