Bảy mô hình MAI mới của Microsoft cho thấy cách công ty xây dựng hệ thống AI đa phương thức riêng cho suy luận, lập trình, tạo hình ảnh, giọng nói, phiên âm và thích ứng quy trình làm việc doanh nghiệp.
Việc Microsoft ra mắt bảy mô hình MAI mới là một trong những dấu hiệu rõ ràng nhất cho thấy công ty muốn kiểm soát nhiều hơn hệ thống AI của mình. Trong nhiều năm, câu chuyện AI của Microsoft gắn bó chặt chẽ với OpenAI và việc phân phối Copilot. Gia đình MAI mới thể hiện một chiến lược rộng hơn: xây dựng các mô hình nội bộ có thể cung cấp sức mạnh cho các sản phẩm thực sự của Microsoft, phục vụ các nhà phát triển doanh nghiệp qua Foundry, và thích ứng với các quy trình làm việc mà người dùng đã quen thuộc.
Gia đình mô hình bao gồm suy luận, lập trình, tạo hình ảnh, phiên âm và giọng nói. Điều này quan trọng vì Microsoft không chỉ phát hành một mô hình chatbot chủ lực duy nhất. Họ đang xây dựng một hệ sinh thái mô hình đa phương thức, nơi các mô hình chuyên biệt khác nhau có thể hỗ trợ các phần khác nhau trong hành trình người dùng: viết mã trong VS Code, tạo hình ảnh, phiên âm âm thanh chuyên ngành, tạo giọng nói, suy luận qua các tác vụ phức tạp và điều chỉnh mô hình cho các quy trình làm việc doanh nghiệp.
Đối với người dùng AI và doanh nghiệp, điều này thay đổi cách đánh giá Microsoft. Copilot không còn chỉ là một giao diện phủ lên các mô hình bên thứ ba nữa. Nó đang trở thành một lớp phân phối cho danh mục mô hình riêng của Microsoft, được tối ưu xung quanh các sản phẩm của công ty, ranh giới dữ liệu doanh nghiệp, công cụ phát triển và chiến lược hạ tầng AI dài hạn.
Tại sao việc ra mắt MAI quan trọng đối với chiến lược AI của Microsoft
Tín hiệu quan trọng nhất là sự tự chủ. Microsoft vẫn còn liên kết sâu sắc với các nhà cung cấp mô hình bên ngoài, nhưng việc ra mắt MAI cho thấy công ty muốn có nhiều năng lực nội bộ hơn trên toàn bộ hệ thống mô hình. Điều này giúp Microsoft kiểm soát tốt hơn chi phí, an toàn, tích hợp sản phẩm, nguồn gốc dữ liệu, điều chỉnh mô hình và tốc độ triển khai sản phẩm.
Điều này quan trọng vì Microsoft sở hữu một số kênh phân phối AI lớn nhất thế giới: Windows, Microsoft 365, GitHub, Azure, Foundry, Teams, Edge và Copilot. Nếu Microsoft có thể kết hợp phân phối đó với các mô hình nội bộ chuyên biệt, họ có thể tối ưu trải nghiệm AI cho các quy trình làm việc thực tế của người dùng thay vì coi mô hình như một dịch vụ bên ngoài chung chung.
MAI-Thinking-1 mang đến cho Microsoft một điểm tựa suy luận
MAI-Thinking-1 là mô hình suy luận chủ lực trong gia đình mới. Microsoft định vị nó là một mô hình cỡ trung được xây dựng cho các tác vụ toán học nghiêm túc, lập trình và triển khai doanh nghiệp thực tế, với hiệu suất kỹ thuật phần mềm mạnh mẽ và dấu chân suy luận nhỏ hơn so với các mô hình lớn hơn nhiều.
Định vị này quan trọng vì không phải mọi quy trình làm việc doanh nghiệp đều cần mô hình frontier lớn nhất có thể. Nhiều tổ chức muốn các mô hình có năng lực, tiết kiệm chi phí, dễ triển khai, an toàn để quản lý và được điều chỉnh cho hệ thống của họ. MAI-Thinking-1 cung cấp cho Microsoft một mô hình có thể hỗ trợ các tác vụ nặng về suy luận trong khi phù hợp với đám mây doanh nghiệp và hệ sinh thái năng suất của công ty.
Hệ thống đa phương thức mở rộng vượt ra ngoài chat
Gia đình MAI mới cũng bao gồm các mô hình cho tạo hình ảnh, phiên âm và giọng nói. MAI-Image-2.5 hướng tới chuyển đổi văn bản thành hình ảnh và chỉnh sửa hình ảnh. MAI-Transcribe-1.5 tập trung vào phiên âm chính xác theo lĩnh vực chuyên môn trên nhiều ngôn ngữ. MAI-Voice-2 mang đến khả năng tạo giọng nói tự nhiên và hỗ trợ đa ngôn ngữ.
Điều này quan trọng vì phạm vi AI của Microsoft rộng hơn nhiều so với một chatbot. Các cuộc gọi Teams, tóm tắt cuộc họp, công cụ phát triển, tài sản sáng tạo, tài liệu, tính năng hỗ trợ truy cập, hỗ trợ khách hàng, nội dung đào tạo và quy trình kiến thức doanh nghiệp đều được hưởng lợi từ các mô hình chuyên biệt. Một hệ thống MAI đa phương thức cung cấp cho Microsoft nhiều cách hơn để tích hợp AI vào công việc thực tế.