Theo thông báo của Google, công nghệ mới có khả năng tự động nhận diện hơn 70 ngôn ngữ và thực hiện dịch giọng nói gần như ngay lập tức, đồng thời giữ được ngữ điệu, tốc độ nói và cao độ giọng của người dùng.
Điểm nổi bật của Gemini 3.5 Live Translate là khả năng tạo bản dịch liên tục trong khi người dùng đang nói, giúp các cuộc trò chuyện diễn ra tự nhiên và liền mạch hơn.
Google cho biết mô hình mới được thiết kế để hoạt động hiệu quả trong nhiều điều kiện khác nhau, kể cả môi trường có nhiều tạp âm hoặc khi các bên giao tiếp nói xen lẫn nhau.
Đáng chú ý, hệ thống mới không còn phụ thuộc vào tiếng Anh như ngôn ngữ trung gian trong quá trình dịch thuật, qua đó giúp nâng cao độ chính xác và giảm độ trễ khi chuyển đổi giữa các ngôn ngữ.
Google đã triển khai Gemini 3.5 Live Translate thông qua Gemini Live API và tích hợp vào các ứng dụng quen thuộc như Google Meet và Google Translate trên cả nền tảng Android và iOS.
Google cho biết Gemini 3.5 Live Translate sẽ được tích hợp vào nền tảng họp trực tuyến Google Meet trong năm nay. Khi đó, số ngôn ngữ hỗ trợ dịch trực tiếp trên nền tảng này sẽ tăng từ 5 lên hơn 70 ngôn ngữ, cho phép tạo ra hơn 2.000 tổ hợp dịch khác nhau trong cùng một cuộc họp.
Để hạn chế nguy cơ lạm dụng công nghệ AI, Google cho biết mọi đoạn âm thanh do Gemini 3.5 Live Translate tạo ra đều được gắn watermark kỹ thuật số vô hình bằng công nghệ SynthID.