Vision Language Models (VLMs) là các hệ thống AI đa phương thức tiên tiến được phát triển bằng cách tích hợp Large Language Models (LLMs) và xử lý ngôn ngữ tự nhiên với các bộ mã hóa thị giác (vision encoders). Sự kết hợp này mang lại cho mô hình khả năng “nhìn” – hiểu và xử lý đồng thời thông tin từ cả hình ảnh, video và văn bản.
Trong bài viết này, FPT.AI sẽ giới thiệu toàn diện về Vision Language Models, từ tầm quan trọng và ưu điểm của VLMs so với các mô hình Computer Vision truyền thống đến cấu trúc cốt lõi, chiến lược đào tạo và các ứng dụng nổi bật của VLMs trong nhiều lĩnh vực. Ngoài ra, bài viết cũng thảo luận về các Benchmark đo lường hiệu suất và những thách thức khi triển khai VLMs.
Vision Language Models là gì?
Vision Language Models (VLMs), còn được gọi là Visual Language Models, là các hệ thống trí tuệ nhân tạo đa phương thức tiên tiến được phát triển bằng cách tích hợp các mô hình ngôn ngữ lớn (LLMs) và xử lý ngôn ngữ tự nhiên (NLP) với các bộ mã hóa thị giác (Vision Models) hoặc thuật toán Visual Machine Learning. Sự kết hợp này mang lại cho mô hình khả năng “nhìn” – hiểu và xử lý đồng thời thông tin từ cả hình ảnh, video và văn bản.
Thông qua việc học ánh xạ mối quan hệ giữa dữ liệu văn bản và hình ảnh, VLMs vượt trội hơn hẳn so với các mô hình Computer Vision truyền thống. Chúng không bị giới hạn bởi một tập hợp các lớp cố định hoặc những tác vụ đơn lẻ như phân loại hay phát hiện đối tượng. Thay vào đó, VLMs được đào tạo trên kho dữ liệu khổng lồ gồm văn bản và cặp hình ảnh/video kèm chú thích, cho phép chúng hiểu các chỉ dẫn bằng ngôn ngữ tự nhiên và thực hiện nhiều nhiệm vụ đa dạng.

Khi hoạt động, VLMs nhận đầu vào đa dạng bao gồm văn bản, hình ảnh hoặc video và tạo ra đầu ra dạng văn bản. Các đầu ra này có thể là mô tả chi tiết về nội dung thị giác, câu trả lời cho câu hỏi liên quan đến hình ảnh, hoặc xác định các thành phần cụ thể trong hình ảnh và đối tượng trong video. Khả năng này mở ra nhiều ứng dụng mới, từ các tác vụ thị giác cổ điển đến các ứng dụng AI tạo sinh hiện đại như tóm tắt nội dung thị giác và trả lời câu hỏi dựa trên hình ảnh.
Điểm mạnh của VLMs nằm ở khả năng hiểu ngữ cảnh kết hợp giữa thông tin thị giác và ngôn ngữ, cho phép chúng phản hồi một cách thông minh và chính xác với các prompt phức tạp. Bằng cách xử lý đồng thời cả văn bản và hình ảnh, VLMs cung cấp sự hiểu biết nâng cao vượt xa khả năng của các mô hình đơn lẻ, đưa trí tuệ nhân tạo tiến gần hơn đến cách con người nhận thức thế giới xung quanh.

>>> XEM THÊM: Machine Vision là gì? So sánh Machine Vision vs Computer Vision
Tầm quan trọng của Vision Language Models
Vision Language Models (VLMs) đánh dấu một bước đột phá quan trọng trong lĩnh vực trí tuệ nhân tạo nhờ khả năng vượt qua những hạn chế cố hữu của các mô hình Computer Vision truyền thống.
Các mô hình Computer Vision truyền thống sử dụng convolutional neural network (CNN) thường được thiết kế và huấn luyện cho những nhiệm vụ cụ thể với một tập hợp các lớp giới hạn. Ví dụ:
- Một mô hình phân loại xác định liệu một hình ảnh có chứa mèo hay chó
- Một mô hình nhận dạng ký tự quang học đọc văn bản trong hình ảnh mà không hiểu được định dạng hay bất kỳ y
Những mô hình này không thể vượt ra ngoài phạm vi nhiệm vụ hoặc các lớp mà chúng chưa được huấn luyện. Khi yêu cầu thay đổi hoặc cần bổ sung một lớp mới, các nhà phát triển buộc phải thu thập và gán nhãn một lượng lớn dữ liệu hình ảnh, sau đó huấn luyện lại toàn bộ mô hình – một quá trình tốn kém cả về thời gian và tài nguyên. Quan trọng hơn, các mô hình này hoàn toàn thiếu khả năng hiểu ngôn ngữ tự nhiên.
VLMs mang đến một cuộc cách mạng bằng cách kết hợp sức mạnh của các foundation models như CLIP và các mô hình ngôn ngữ lớn (LLMs) để tạo ra hệ thống có cả khả năng xử lý thị giác và ngôn ngữ. Ngay từ đầu, VLMs đã thể hiện hiệu suất zero-shot ấn tượng trên nhiều nhiệm vụ thị giác như trả lời câu hỏi về hình ảnh, phân loại và nhận dạng ký tự quang học (OCR).
Chúng cũng cực kỳ linh hoạt – VLMs không bị giới hạn trong một tập hợp các lớp cố định mà có thể được ứng dụng cho gần như bất kỳ trường hợp sử dụng nào chỉ bằng cách thay đổi text prompt.
Tương tác với VLM rất giống với cách người dùng tương tác với LLM. Người dùng chỉ cần cung cấp các câu lệnh văn bản (prompts) có thể kết hợp với hình ảnh. Mô hình sẽ tạo ra phản hồi dạng văn bản. Người dùng có thể yêu cầu VLM trả lời câu hỏi, tóm tắt, giải thích hoặc phân tích nội dung hình ảnh, duy trì một cuộc đối thoại liên tục với VLM, linh động thêm hình ảnh vào bất kỳ thời điểm nào trong cuộc trò chuyện. Ngoài ra, VLMs còn có thể được tích hợp vào các Visual Agents để tự động hóa nhiều nhiệm vụ thị giác phức tạp.

>>> XEM THÊM: Machine Translation là gì? 6 Ứng dụng dịch máy hàng đầu
Các thành phần cốt lõi của Vision Language Models
Hầu hết VLMs theo một kiến trúc gồm ba phần:
Bộ mã hóa thị giác (Vision encoder)
Vision Encoder thường là một mô hình dựa trên CLIP (Contrastive Language-Image Pre-training) với kiến trúc Transformer đã được đào tạo trên hàng triệu cặp hình ảnh – văn bản, giúp nó có khả năng liên kết hình ảnh và văn bản.
Vision encoder trích xuất các thuộc tính quan trọng của hình ảnh hoặc video như màu sắc, hình dạng và kết cấu từ đầu vào, sau đó chuyển đổi chúng thành vector embeddings mà các mô hình Machine Learning có thể xử lý.
Projector
Projector là một tập hợp các lớp chuyển đổi đầu ra của Vision encoder thành một dạng mà LLM có thể hiểu, thường được hiểu là các image tokens. Tùy thuộc vào kiến trúc cụ thể, Projector có thể đơn giản như LLaVA và VILA hoặc phức tạp với các lớp cross-attention như trong Llama 3.2 Vision.
Ngoài ra, xu hướng phát triển VLMs đang chuyển dịch từ việc sử dụng các thuật toán Deep Learning như Convolutional Neural Networks để trích xuất đặc trưng sang Vision Transformer (ViT). Đây là phương pháp chia hình ảnh thành các mảnh nhỏ và xử lý chúng như chuỗi tokens trong mô hình ngôn ngữ dựa trên kiến trúc Transformer thông qua cơ chế self-attention, giúp Vision Language Models nắm bắt ý nghĩa ngữ nghĩa và mối liên hệ ngữ cảnh giữa các từ và cụm từ.
LLMs
Bất kỳ LLM có sẵn nào cũng có thể được sử dụng để xây dựng VLM. Có hàng trăm biến thể VLM kết hợp các LLM khác nhau với vision encoders.

>>> XEM THÊM: Retrieval-Augmented Generation là gì? RAG nâng cao chất lượng phản hồi cho LLMs như thế nào?
Vision Language Models được đào tạo như thế nào?
Chiến lược đào tạo Vision Language Models liên quan đến việc căn chỉnh và kết hợp thông tin từ cả Vision Encoder, Projector và LLMs để VLM học cách liên kết và đưa ra quyết định từ cả dữ liệu hình ảnh và văn bản. Quá trình đào tạo này gồm 3 giai đoạn chính:
- Pre – Training: Giai đoạn nền tảng giúp Vision Encoder, Projector và LLMs học cách “nói cùng một ngôn ngữ” khi diễn giải đầu vào. Quá trình này sử dụng kho dữ liệu lớn về văn bản và hình ảnh với các cặp hình ảnh – chú thích và hình ảnh – văn bản xen kẽ.
- Supervised Fine-tuning: Fine-tuning có giám sát giúp VLMs nâng cao khả năng phản hồi các prompt của người dùng. Dữ liệu trong giai đoạn này bao gồm các ví dụ prompt với đầu vào văn bản và/hoặc hình ảnh kèm và phản hồi mẫu mong muốn, chẳng hạn như yêu cầu mô hình mô tả hình ảnh hoặc đếm tất cả các đối tượng trong khung hình với tỷ lệ chính xác dự kiến.
- Parameter Efficient Fine-tuning (PEFT): PEFT cho phép tùy chỉnh VLM cho các lĩnh vực cụ thể mà không cần đào tạo lại toàn bộ mô hình.

Các nghiên cứu hiện tại tập trung vào việc nâng cao khả năng thị giác của VLM thông qua:
- Tổng hợp nhiều vision encoders để xử lý đầu vào hình ảnh đa dạng
- Chia hình ảnh độ phân giải cao thành các ô nhỏ để xử lý hiệu quả
- Tăng độ dài ngữ cảnh để cải thiện khả năng hiểu video dài
Những cải tiến này đang giúp VLM phát triển từ khả năng hiểu hình ảnh đơn giản sang các kỹ năng phức tạp như so sánh và đối chiếu hình ảnh, đọc văn bản chính xác, hiểu video dài và nhận thức không gian mạnh mẽ.
>>> XEM THÊM: Mô hình BERT là gì? Ứng dụng, vai trò của BERT trong NLP
Các phương pháp đào tạo Vision Language Models
Quá trình đào tạo VLM thường dựa trên sự kết hợp của 4 phương pháp:
Contrastive Learning
Contrastive Learning ánh xạ image và text embeddings vào một không gian embedding chung hoặc chia sẻ. VLM được đào tạo trên các bộ dữ liệu của các cặp hình ảnh-văn bản và học cách giảm thiểu khoảng cách giữa embeddings của các cặp hình ảnh-văn bản phù hợp, đồng thời tối đa hóa khoảng cách với các cặp không liên quan. Một thuật toán contrastive learning phổ biến là CLIP (Contrastive Language-Image Pretraining). CLIP được đào tạo trên 400 triệu cặp hình ảnh-chú thích lấy từ internet, có độ chính xác phân loại zero-shot cao.
Masking
Masking là một kỹ thuật đào tạo trong đó Visual Language Models học cách dự đoán các phần bị che khuất ngẫu nhiên của văn bản hoặc hình ảnh đầu vào. Masking gồm 2 giai đoạn:
- Masked Language Modeling: Mô hình học cách điền các từ bị thiếu trong chú thích văn bản với một hình ảnh không bị che.
- Masked Image Modeling: Mô hình học cách tái tạo các pixel ẩn trong hình ảnh dựa trên một caption không bị che.
Một ví dụ về mô hình sử dụng masking là FLAVA (Foundational Language And Vision Alignment). FLAVA sử dụng Vision Transformer làm Image Encoder và kiến trúc Transformer cho cả Language Encoder và Multimodal Encoder. Multimodal encoder của FLAVA ứng dụng cơ chế cross-attention để kết hợp thông tin đa phương thức.

Generative Model Training
Generative Model Training giúp VLMs học cách tạo ra dữ liệu mới, bao gồm:
- Text-to-image Generation: Tạo ra hình ảnh từ văn bản đầu vào
- Image-to-text Generation: Tạo ra văn bản, chẳng hạn như các caption, mô tả hình ảnh hoặc tóm tắt, từ hình ảnh đầu vào.
Diffusion models, như Imagen của Google, Midjourney, DALL-E của OpenAI (bắt đầu từ DALL-E 2) và Stable Diffusion của Stability AI là các các mô hình Text-to-image phổ biến.
Pretrained models
Các mô hình pretrained giúp quá trình đào tạo Vision Language Models tiết kiệm tài nguyên và chi phí huấn luyện. Doanh nghiệp có thể thêm một lớp mạng mapping và tổ hợp gồm một LLM pretrained và một vision encoder pretrained để căn chỉnh hoặc chiếu biểu diễn hình ảnh vào không gian đầu vào của LLM.
LLaVA (Large Language and Vision Assistant) là một ví dụ về VLM được phát triển từ các mô hình pretrained. Mô hình đa phương thức này sử dụng Vicuna LLM và CLIP ViT làm Vision Encoder, với các đầu ra được hợp nhất vào một không gian chiều chung bằng một bộ chiếu tuyến tính (Linear Projector).
Ngoài ra, để tiết kiệm công sức thu thập dữ liệu đào tạo cho quá trình tiền huấn luyện, tối ưu và fine-tuning VLMs, doanh nghiệp có thể tận dụng các bộ dữ liệu sau cho các tác vụ downstream cụ thể:
- ImageNet: Chứa hàng triệu hình ảnh có chú thích
- COCO: Có hàng nghìn hình ảnh có nhãn cho các tác vụ như ghi chú, phát hiện đối tượng và phân đoạn quy mô lớn.
- LAION: Bao gồm hàng tỷ cặp hình ảnh-văn bản đa ngôn ngữ.

>>> XEM THÊM: Transfer Learning là gì? So sánh Transfer learning vs Fine-tuning
Các ứng dụng nổi bật của Vision Language Models
Vision Language Models (VLMs) đang phát triển thành công cụ đa năng cho các tác vụ thị giác nhờ khả năng hiểu ngôn ngữ tự nhiên và xử lý hình ảnh (những gì trước đây đòi hỏi 2 mô hình AI riêng biệt cho mỗi phương thức). Dưới đây là những ứng dụng quan trọng nhất của VLMs:
- Tạo hình ảnh từ văn bản: Các mô hình như DALL-E, Imagen, Midjourney và Stable Diffusion chuyển mô tả ngôn ngữ thành hình ảnh. Doanh nghiệp có thể sử dụng công cụ này trong thiết kế sản phẩm, tạo mẫu và minh họa cho nội dung viết.
- Tạo caption và tóm tắt nội dung hình ảnh/video: Thay vì chỉ nhận diện đơn giản, Vision Language Models có thể tạo mô tả chi tiết cho hình ảnh và tóm tắt nội dung cho video. Trong giáo dục, khi được cung cấp một hình ảnh của một bài toán viết tay, VLMs có thể sử dụng khả năng nhận dạng ký tự quang học và lý luận để diễn giải bài toán và tạo ra hướng dẫn từng bước về cách giải quyết. Trong lĩnh vực y tế, chúng có thể phân tích hình ảnh y tế, còn trong sản xuất, chúng giúp giải thích biểu đồ sửa chữa thiết bị trong các cơ sở sản xuất.
- Phân tích và trả lời câu hỏi về hình ảnh (Visual question answering – VQA): VLMs có thể lý luận trực quan khi trả lời các câu hỏi cụ thể về nội dung hình ảnh, mở rộng khả năng ứng dụng AI vào các hệ thống tương tác phức tạp. Ví dụ, trong vận tải, VLMs có thể được giao nhiệm vụ phân tích video kiểm tra đường, xác định các mối nguy hiểm như biển báo đường bị hỏng, đèn giao thông bị lỗi và ổ gà sau đó tạo báo cáo bảo trì nêu rõ vị trí và mô tả của những mối nguy hiểm đó.
- Xây dựng Video Analytics AI Agents để phát hiện sự kiện: VLMs có thể được tích hợp vào hệ thống Video Analytics AI Agents để xử lý khối lượng video lớn, phát hiện và phân tích các sự kiện cụ thể. Trong quản lý kho hàng, chúng giúp phát hiện robot hoạt động bất thường hoặc cảnh báo hết hàng khi kệ hàng trống. Trong giao thông, VLMs có thể phát hiện, phân tích và tạo báo cáo tự động về các mối nguy hiểm như cây đổ, xe hỏng hoặc va chạm.
- Phân đoạn hình ảnh và tạo bounding box: VLMs có khả năng chia hình ảnh thành các phần khác nhau dựa trên đặc điểm không gian, cung cấp mô tả cho từng phần và tạo bounding boxes để xác định vị trí đối tượng, cung cấp các nhãn hoặc highlighting màu để chỉ định các phần của hình ảnh liên quan đến truy vấn. Trong bảo trì dự đoán, công nghệ này giúp phân tích hình ảnh sàn nhà máy để phát hiện các khiếm khuyết thiết bị tiềm ẩn theo thời gian thực.
- Tìm kiếm và truy xuất hình ảnh: VLMs có thể tìm kiếm qua thư viện hình ảnh, video lớn dựa trên truy vấn ngôn ngữ tự nhiên. Điều này nâng cao trải nghiệm người dùng trên các trang thương mại điện tử, giúp khách hàng tìm kiếm sản phẩm cụ thể hoặc duyệt qua danh mục rộng lớn bằng cách mô tả sản phẩm họ muốn.
- Phân tích video dài: Kết hợp với công nghệ như graph databases, VLMs có thể hiểu và phân tích video dài, nắm bắt sự phức tạp của đối tượng và sự kiện trong video. Ứng dụng này giúp tìm ra các nút thắt cổ chai trong hoạt động kho hàng hoặc tạo bình luận tự động cho các trận đấu bóng đá, bóng rổ hoặc bóng đá.
- Hỗ trợ robot hiểu môi trường: VLMs giúp robot hiểu rõ hơn về môi trường xung quanh thông qua khả năng nhận diện đối tượng và hiểu hướng dẫn trực quan, mở rộng khả năng tương tác của robot với thế giới thực.

>>> XEM THÊM: Công nghệ nhận diện gương mặt trong ngân hàng và 4 ứng dụng thực tiễn
Các Vision Language Models nổi tiếng
Vision Language Models (VLMs) đang trở thành xu hướng công nghệ AI mạnh mẽ, với tiềm năng cạnh tranh với các LLMs hiện đại. Dưới đây là những mô hình VLM đang dẫn đầu thị trường:
- DeepSeek-VL2: Một mô hình Vision Language mã nguồn mở từ Trung Quốc với 4,5 tỷ tham số. Mô hình này bao gồm một vision encoder, một vision language adapter và DeepSeekMoE LLM, sử dụng kiến trúc Mixture of Experts (MoE). DeepSeek-VL2 có một biến thể tiny với 1 tỷ parameters và một biến thể small với 2,8 tỷ parameters.
- Gemini 2.0 Flash: Thuộc hệ sinh thái Google Gemini, mô hình này xử lý đa dạng đầu vào như âm thanh, hình ảnh, văn bản và video, nhưng chỉ tạo đầu ra dạng văn bản. Google đang phát triển thêm khả năng tạo hình ảnh cho mô hình này trong tương lai.
- GPT-4o: Sản phẩm của OpenAI với thiết kế end-to-end thống nhất, xử lý mọi loại đầu vào (âm thanh, hình ảnh, văn bản, video) và tạo đầu ra đa dạng (âm thanh, hình ảnh, văn bản) trong cùng một mạng neural. Phiên bản nhỏ hơn, GPT-4o mini, hỗ trợ đầu vào hình ảnh và văn bản với đầu ra là văn bản.
- Llama 3.2: Bộ mô hình mã nguồn mở từ Meta với hai phiên bản 11 và 90 tỷ tham số, có thể xử lý văn bản và hình ảnh nhưng chỉ tạo đầu ra dạng văn bản. Kiến trúc của Llama 3.2 bao gồm một ViT Image Encoder, một Video Adapter và một Image Adapter. Đặc biệt, bộ điều chỉnh hình ảnh được huấn luyện riêng với các lớp cross-attention để tích hợp biểu diễn hình ảnh vào mô hình ngôn ngữ Llama 3.1 đã được huấn luyện trước.
- NVLM: Bộ mô hình đa phương thức của NVIDIA với ba biến thể riêng biệt. NVLM-D sử dụng kiến trúc decoder-only, đưa trực tiếp các image tokens vào LLM decoder. NVLM-X dùng cross-attention để xử lý hiệu quả các image tokens và hình ảnh có độ phân giải cao. NVLM-H có kiến trúc hybrid kết hợp các phương pháp decoder-only và cross-attention để cân bằng giữa hiệu suất tính toán và khả năng lập luận.
- Qwen 2.5-VL: Mô hình hàng đầu từ Alibaba Cloud với các phiên bản 3, 7 và 72 tỷ tham số. Kết hợp ViT vision encoder và Qwen 2.5 LLM, mô hình có khả năng phân tích video dài hơn một giờ và tương tác với giao diện máy tính để bàn và điện thoại thông minh.

>>> XEM THÊM: 10 Cách viết prompt ChatGPT hiệu quả cho người mới sử dụng
Benchmarks cho các Vision Language Models
Để đánh giá hiệu suất của các Vision Language Models (VLMs), nhiều Benchmark đã được phát triển với mục tiêu kiểm tra khả năng của VLMs trong các tình huống khác nhau. Những benchmark này thường bao gồm một tập hợp hình ảnh kèm các câu hỏi liên quan, thường được thiết kế dưới dạng trắc nghiệm để đảm bảo tính nhất quán trong đánh giá và so sánh giữa các mô hình. Câu hỏi trong các benchmark này nhằm kiểm tra nhiều khía cạnh của VLMs bao gồm khả năng trả lời câu hỏi về hình ảnh, logic và lý luận, hiểu tài liệu, so sánh nhiều hình ảnh và hiểu video.
Nhờ sự phát triển và áp dụng các benchmark, chúng ta có thể đánh giá toàn diện và cải thiện khả năng của VLMs trong việc kết nối thông tin hình ảnh với ngôn ngữ.Dưới đây là các Benchmark chính cho Vision Language Models:
- MathVista: Chuyên biệt cho khả năng lý luận toán học trực quan của VLMs.
- MMBench: Cung cấp một bộ câu hỏi trắc nghiệm đa dạng để kiểm tra các khía cạnh như định vị đối tượng và nhận dạng ký tự quang học (OCR) của VLMs.
- MMMU (Massive Multidiscipline Multimodal Understanding): Chứa các thách thức trắc nghiệm đa phương thức trên nhiều chủ đề khác nhau để đo lường kiến thức, nhận thức và kỹ năng lý luận.
- MM-Vet: Đánh giá sự tích hợp của các khả năng khác nhau của VLMs, như tạo ngôn ngữ và nhận thức không gian.
- OCRBench: Tập trung vào khả năng OCR của VLMs, bao gồm 5 thành phần: document-oriented VQA, nhận dạng chữ viết tay, nhận dạng biểu thức toán học viết tay, trích xuất thông tin chính, nhận dạng văn bản và scene text-centric VQA.
- VQA: Một trong những benchmark VLM ra đời, sớm nhất, gồm các câu hỏi mở về hình ảnh. Các biến thể VQA khác bao gồm GQA (trả lời câu hỏi trên đồ thị cảnh hình ảnh), OK-VQA (yêu cầu kiến thức bên ngoài cho visual question answering), ScienceQA (trả lời câu hỏi khoa học) và TextVQA (lý luận trực quan dựa trên văn bản trong hình ảnh).
- Video-MME: Đánh giá khả năng hiểu và phân tích nội dung video.
- ChartQA và DocVQA: Tập trung vào khả năng hiểu và trả lời câu hỏi về biểu đồ và tài liệu.
Quá trình thực hiện Benchmark thường diễn ra như sau: VLM được cung cấp hình ảnh, câu hỏi và các lựa chọn trả lời. Sau đó mô hình phải đưa ra lựa chọn chính xác. Độ chính xác của VLM được tính bằng tỷ lệ lựa chọn đúng trên tổng số câu hỏi. Một số benchmark còn bao gồm các câu hỏi số học, yêu cầu mô hình thực hiện các phép tính cụ thể và đưa ra kết quả trong một khoảng sai số cho phép để được đánh giá là chính xác. Thông thường, những câu hỏi và hình ảnh này đến từ các nguồn học thuật, chẳng hạn như giáo trình đại học.
Tương tự như LLMs, VLMs cũng có các bảng xếp hạng riêng cho từng benchmark và các bảng xếp hạng độc lập như OpenVLM Leaderboard trên Hugging Face. Những công cụ như VLMEvalKit và LMMs-Eval giúp đơn giản hóa quy trình đánh giá VLMs thông qua giao diện dòng lệnh.

>>> XEM THÊM: TOP 6 phần mềm nhận dạng văn bản cho điện thoại, máy tính
Những thách thức khi triển khai Vision Language Models
Vision Language Models (VLMs) đang ngày càng phát triển mạnh mẽ và trở thành công cụ linh hoạt cho nhiều tác vụ liên quan đến thị giác. Tuy nhiên, bên cạnh những khả năng ấn tượng, VLMs vẫn phải đối mặt với nhiều thách thức đáng kể mà các doanh nghiệp và nhà phát triển cần lưu ý khi triển khai các giải pháp này. Dưới đây là những thách thức chính của Vision Language Models:
- Giới hạn về độ phân giải đầu vào: Phần lớn VLMs hiện nay sử dụng các mô hình dựa trên CLIP làm vision encoder, chỉ cho phép kích thước đầu vào giới hạn ở mức 224×224 hoặc 336×336 pixel. Điều này gây khó khăn trong việc nhận diện các chi tiết nhỏ. Ví dụ, một khung hình HD 1080×1920 từ video phải được thu nhỏ hoặc cắt thành độ phân giải đầu vào nhỏ, khiến việc giữ lại chi tiết cho các chi tiết nhỏ trở nên khó khăn. Phương pháp tiling (chia nhỏ hình ảnh) và nghiên cứu các vision encoder có độ phân giải cao hơn vẫn chưa thể giải quyết vấn đề này hoàn toàn.
- Khó khăn trong hiểu không gian và định vị đối tượng: VLMs thường gặp hạn chế trong việc xác định chính xác vị trí của đối tượng trong không gian. Nguyên nhân chủ yếu là do dữ liệu huấn luyện cho các vision encoders dựa trên CLIP thường chỉ gồm các mô tả ngắn gọn về hình ảnh mà không chứa thông tin chi tiết về vị trí của đối tượng. Các nhà nghiên cứu đang tìm cách khắc phục bằng cách kết hợp nhiều vision encoder khác nhau.
- Xử lý video dài với ngữ cảnh phức tạp: Tương tự như LLMs có giới hạn về độ dài ngữ cảnh, VLMs cũng chỉ có thể xử lý một số lượng khung hình nhất định từ video. Điều này tạo ra thách thức lớn khi cần phân tích hoặc trả lời câu hỏi dựa trên thông tin trực quan từ video kéo dài nhiều giờ. Các nghiên cứu như LongVILA đang được phát triển nhằm mở rộng khả năng xử lý ngữ cảnh dài và cải thiện hiệu suất trên dữ liệu video.
- Thiếu dữ liệu cho các trường hợp sử dụng chuyên biệt: VLMs có thể không tiếp xúc đủ với dữ liệu phù hợp cho các ứng dụng rất cụ thể, chẳng hạn như phát hiện lỗi sản xuất trong một dòng sản phẩm riêng biệt. Các giải pháp hiện tại bao gồm fine-tuning mô hình trên dữ liệu chuyên ngành, sử dụng in-context learning với các VLM đa hình ảnh, hoặc áp dụng kỹ thuật PEFT (Parameter-Efficient Fine-Tuning) để cải thiện độ chính xác trên dữ liệu tùy chỉnh.
- Vấn đề định kiến (bias): VLMs có thể thừa hưởng các định kiến từ dữ liệu huấn luyện thế giới thực hoặc từ các mô hình pretrained mà chúng được xây dựng. Để giảm thiểu vấn đề này, cần đa dạng hóa nguồn dữ liệu và tích hợp sự giám sát của con người trong suốt quá trình phát triển.
- Chi phí và độ phức tạp cao: Việc kết hợp các mô hình thị giác và ngôn ngữ làm tăng thêm độ phức tạp tổng thể và đòi hỏi nhiều tài nguyên tính toán hơn. Điều này gây khó khăn cho việc triển khai VLMs ở quy mô lớn và đòi hỏi các tổ chức phải đầu tư đáng kể vào cơ sở hạ tầng.
- Khả năng tổng quát hóa hạn chế: VLMs thường gặp khó khăn trong việc thích nghi và đưa ra dự đoán chính xác với dữ liệu mới. Để cải thiện vấn đề này, các nhà nghiên cứu đang sử dụng bộ dữ liệu cân bằng với nhiều trường hợp ngoại lệ, áp dụng zero-shot learning để VLMs thích ứng với các khái niệm mới hoặc các kết hợp hình ảnh – văn bản không điển hình. Ngoài ra, các benchmark như LiveXiv của IBM cũng được phát triển để đánh giá hiệu suất VLMs trên dữ liệu mới.
- Hiện tượng ảo giác AI (hallucinations): VLMs có thể tạo ra kết quả không chính xác hoặc không tồn tại trong dữ liệu đầu vào. Việc xác minh kết quả từ các mô hình này là bước quan trọng để đảm bảo độ tin cậy và tính chính xác thực tế của chúng.

Tóm lại, Vision Language Models đại diện cho một bước tiến quan trọng trong lĩnh vực AI đa phương thức, mang đến khả năng kết hợp linh hoạt giữa xử lý thị giác và ngôn ngữ tự nhiên. Với tốc độ phát triển nhanh chóng của công nghệ AI và sự đầu tư mạnh mẽ vào nghiên cứu, Vision Language Models hứa hẹn sẽ mở ra nhiều ứng dụng đột phá trong tương lai, định hình lại cách chúng ta tương tác với công nghệ thị giác trong thời đại số.
Nguồn tham khảo:
- NVIDIA. (n.d.). Vision language models. https://www.nvidia.com/en-us/glossary/vision-language-models/
- IBM. (n.d.). Vision language models. https://www.ibm.com/think/topics/vision-language-models
>>> XEM THÊM: