Tạo chữ trong ảnh - thách thức của AI vừa được Google giải quyết

11/21/2025
bởi Thạch Thị Kim Ngân

Google ra mắt công cụ Nano Banana Pro nâng cấp khả năng tạo chữ chính xác, hỗ trợ làm đồ họa, sơ đồ, điều mà các mô hình AI khác chưa làm được.

Trong thông báo ngày 21/11, Google cho biết Nano Banana Pro được xây dựng trên nền tảng Gemini 3 Pro - mô hình tiên tiến nhất của hãng. Nhờ tận dụng khả năng lập luận tiên tiến và hiểu biết về thế giới thực của Gemini, Nano Banana Pro có thể trực quan hóa thông tin tốt hơn phiên bản Nano Banana cũ và một số mô hình AI phổ biến khác.

Một trong những thay đổi lớn là khả năng tạo chữ chính xác. Trong khi nhiều AI chỉ tạo ra hình ảnh "giống chữ" nhưng vô nghĩa hoặc sai nét, Nano Banana Pro được khẳng định có thể "tạo hình ảnh đẹp hơn với phần chữ chính xác và dễ đọc, được hiển thị trực tiếp trong ảnh bằng nhiều ngôn ngữ".

"Đây là mô hình tốt nhất để tạo hình ảnh với văn bản được hiển thị chính xác, dù ngắn hay cả đoạn văn dài", Google khẳng định.
1763715958225.png
Minh họa việc chuyển đổi ngôn ngữ trong một bức ảnh do Gemini thực hiện. Ảnh: Google

Thử nghiệm thực tế, AI có thể tạo các hình ảnh chứa văn bản tiếng Việt chuẩn. Google giải thích họ sử dụng khả năng lập luận nâng cao của Gemini 3, đồng thời kết nối kho tri thức từ Google Search để giúp người dùng tạo nhanh hình minh họa.

Nhờ đó, công cụ có thể được ứng dụng cho những đồ họa như infographic, biển quảng cáo, sơ đồ minh họa, bản ghi chú, công thức nấu ăn... Người dùng nhập câu lệnh và thông tin cần thiết, Nano Banana Pro sẽ kết hợp cùng những dữ liệu mà mô hình tự thu thập để tạo hình, và có thể thay đổi ngôn ngữ trong hình theo nhu cầu người dùng.

Một nâng cấp khác với Nano Banana Pro là khả năng kết hợp nhiều dữ liệu đầu vào. Người dùng có thể nhập tối đa 14 hình ảnh tham khảo và yêu cầu AI đưa cùng một thiết kế. Ngoài ra, mô hình cũng đảm bảo giữ được nét giống nhau và sự đồng nhất của tối đa 5 nhân vật trong ảnh, giúp nhận diện liền mạch và nhất quán. Đầu ra hình ảnh có thể đạt độ phân giải 2K, 4K.

1763715983309.png
Hình ảnh Nano Banana Pro tạo ra với câu lệnh: Tưởng tượng bạn là thầy giáo dạy kỹ năng sống, hãy tạo infographic hướng dẫn cách rán trứng, để trẻ 10 tuổi cũng hiểu và thích thú làm theo.

Để sử dụng, người dùng vào Gemini trên điện thoại hoặc máy tính, chọn công cụ Tạo hình ảnh (logo quả chuối) và gõ câu lệnh. Tùy yêu cầu, công cụ cần gần một phút để tạo hình. Với yêu cầu khó, AI sẽ hiện lên tiến trình bằng văn bản, hỏi rõ các bước trước khi triển khai. Trong một số trường hợp, công cụ chưa hoạt động ổn định, như nhận câu lệnh nhưng không thực hiện, khiến người dùng phải làm lại.

Trước lo ngại về việc AI có thể bị lợi dụng, Google cho biết đã nâng cấp việc xác định hình ảnh được tạo bằng AI trong ứng dụng Gemini. Theo đó, mọi nội dung do công cụ Google tạo ra đều được gắn SynthID - ký hiệu kỹ thuật số ẩn.

Để xác minh một bức ảnh có phải được tạo ra bằng AI của Google hay không, người dùng có thể tải lên ứng dụng Gemini và hỏi. "Chúng tôi bắt đầu với hình ảnh trước và sẽ sớm mở rộng sang âm thanh và video", đại diện Google cho biết. Ngoài ra, hãng cũng duy trì ký hiệu mờ (watermark) trên ảnh được tạo bởi người dùng gói miễn phí và gói Google AI Pro. Trong khi đó, gói Google AI Ultra cho người dùng chuyên nghiệp sẽ không có watermark.

Bình luận

Không tìm thấy bài viết

Viết bình luận