Bài viết

Vision Language Models là gì? Các ứng dụng nổi bật của VLM

Tháng Tư 22, 2025

Chia sẻ với:

Nội dung bài viết

Vision Language Models (VLMs) là gì? Đây là thế hệ mô hình trí tuệ nhân tạo đa phương thức tiên tiến, kết hợp giữa khả năng xử lý ngôn ngữ tự nhiên (NLP) của Large Language Models (LLMs) và khả năng nhận diện hình ảnh của các bộ mã hóa thị giác. Nhờ đó, VLMs có thể đồng thời phân tích văn bản, hình ảnh và video, mang lại khả năng hiểu ngữ cảnh toàn diện hơn hẳn so với các mô hình Computer Vision truyền thống. Trong bài viết này, FPT.AI sẽ cùng bạn khám phá định nghĩa, cấu trúc, ưu điểm, ứng dụng nổi bật và thách thức khi triển khai VLMs trong thực tiễn.

1. Vision Language Models là gì?

Vision Language Models (VLMs), hay còn gọi là Visual Language Models, là thế hệ trí tuệ nhân tạo đa phương thức tiên tiến, được xây dựng bằng cách kết hợp mô hình ngôn ngữ lớn (LLMs) với bộ mã hóa thị giác (Vision Encoders) hoặc thuật toán Visual Machine Learning và công nghệ xử lý ngôn ngữ tự nhiên (NLP).

Nhờ đó, VLMs không chỉ hiểu và xử lý văn bản như các LLM truyền thống, mà còn có khả năng “nhìn”, phân tích và diễn giải hình ảnh, video song song với ngôn ngữ.

VLMs tích hợp LLMs và NLP với các bộ mã hóa thị giác để xử lý đồng bộ dữ liệu văn bản và hình ảnh

Khác với các mô hình Computer Vision truyền thống vốn chỉ tập trung vào các tác vụ đơn lẻ như phân loại hoặc phát hiện đối tượng, VLMs được huấn luyện trên kho dữ liệu khổng lồ gồm văn bản và hình ảnh/video kèm chú thích. Điều này cho phép chúng hiểu mối quan hệ giữa ngôn ngữ và thị giác, từ đó thực hiện đa dạng nhiệm vụ như mô tả nội dung hình ảnh, trả lời câu hỏi dựa trên hình ảnh, tóm tắt video hay xác định chi tiết đối tượng trong cảnh.

Điểm mạnh của VLMs nằm ở khả năng hiểu ngữ cảnh kết hợp giữa thị giác và ngôn ngữ, giúp chúng phản hồi chính xác ngay cả với những yêu cầu phức tạp. Nhờ xử lý đồng thời cả văn bản và hình ảnh, VLMs mang lại sự hiểu biết vượt trội so với mô hình đơn lẻ, mở ra nhiều ứng dụng mới từ các tác vụ thị giác truyền thống cho đến các giải pháp AI tạo sinh hiện đại.

Các trường hợp sử dụng Vision Language Models

>>> Xem thêm: Machine Learning là gì? Các loại học máy, ứng dụng và ví dụ

2. Tầm quan trọng của Vision Language Models

Vision Language Models (VLMs) đánh dấu một bước tiến quan trọng của trí tuệ nhân tạo nhờ khả năng vượt qua những hạn chế cố hữu của Computer Vision truyền thống.

Các mô hình thị giác trước đây, điển hình là Convolutional Neural Network (CNN), thường chỉ giải quyết được những nhiệm vụ cố định như phân loại hình ảnh hay nhận diện ký tự quang học (OCR). Chúng thiếu khả năng mở rộng: khi thêm lớp mới hoặc thay đổi nhiệm vụ, nhà phát triển buộc phải thu thập dữ liệu, gán nhãn và huấn luyện lại toàn bộ mô hình, một quá trình tốn kém thời gian, chi phí và tài nguyên. Quan trọng hơn, chúng hoàn toàn không thể hiểu ngôn ngữ tự nhiên.

Ví dụ:

Một mô hình phân loại xác định liệu một hình ảnh có chứa mèo hay chó
Một mô hình nhận dạng ký tự quang học đọc văn bản trong hình ảnh mà không hiểu được định dạng hay bất kỳ y

Sự ra đời của VLMs đã thay đổi hoàn toàn bức tranh này. Bằng cách kết hợp foundation models (như CLIP) với mô hình ngôn ngữ lớn (LLMs), VLMs sở hữu đồng thời khả năng xử lý thị giác và ngôn ngữ. Nhờ đó, chúng đạt hiệu suất zero-shot ấn tượng trong nhiều nhiệm vụ thị giác như:

Trả lời câu hỏi dựa trên hình ảnh/video (Visual Q&A)
Nhận diện và phân tích nội dung trong ảnh hoặc video dài
Nhận diện ký tự quang học (OCR)
Đọc hiểu tài liệu viết tay hoặc in ấn
Tóm tắt, giải thích hoặc so sánh nhiều ảnh cùng lúc

So sánh sự khác biệt giữa Vision Language Models và OCR

Điểm đặc biệt của VLMs là không bị giới hạn bởi tập lớp cố định. Chỉ với một prompt văn bản, người dùng có thể linh hoạt thay đổi nhiệm vụ: từ phân loại hình ảnh, giải thích nội dung, đến phân tích video phức tạp. Điều này đưa VLMs tiến gần hơn đến cách con người nhìn – hiểu – đối thoại về thế giới trực quan.

Chính nhờ khả năng này, VLMs trở thành nền tảng quan trọng cho nhiều ứng dụng AI hiện đại, từ các tác vụ thị giác cổ điển đến những giải pháp AI tạo sinh và Visual Agents thông minh có thể tự động hóa quy trình phức tạp.

3. Các thành phần cốt lõi của Vision Language Models

Một mô hình Vision Language Model (VLM) điển hình được cấu thành từ ba thành phần chính, hoạt động phối hợp để xử lý đồng thời dữ liệu ngôn ngữ và thị giác:

3.1. Bộ mã hóa thị giác (Vision Encoder)

Đây là thành phần đầu tiên có nhiệm vụ phân tích hình ảnh hoặc video đầu vào. Vision Encoder thường dựa trên mô hình CLIP (Contrastive Language-Image Pre-training) hoặc các biến thể Vision Transformer (ViT). Thay vì chỉ xử lý toàn bộ hình ảnh, ViT chia hình ảnh thành các mảnh nhỏ (patches) và coi chúng như các tokens trong mô hình ngôn ngữ, nhờ đó nắm bắt tốt hơn ngữ nghĩa và mối quan hệ ngữ cảnh. Kết quả là hệ thống tạo ra các vector embeddings chứa thông tin về màu sắc, hình dạng, kết cấu… để phục vụ bước xử lý tiếp theo.

3.2. Bộ chuyển đổi (Projector)

Đây là lớp trung gian giúp “dịch” dữ liệu từ Vision Encoder sang dạng mà mô hình ngôn ngữ lớn có thể hiểu, thường gọi là image tokens. Tùy vào kiến trúc, Projector có thể rất đơn giản (như trong LLaVA, VILA) hoặc phức tạp hơn với các lớp cross-attention (như trong Llama 3.2 Vision). Nhờ Projector, dữ liệu hình ảnh được “mã hóa lại” và đưa vào mô hình ngôn ngữ một cách liền mạch.

3.3. Mô hình ngôn ngữ lớn (LLM – Large Language Model)

Đây là bộ xử lý trung tâm của VLM. Các LLM như GPT, LLaMA hoặc nhiều biến thể khác sẽ nhận dữ liệu văn bản và image tokens từ Projector, sau đó phân tích ngữ cảnh để tạo phản hồi bằng văn bản. LLM đóng vai trò quyết định trong việc biến dữ liệu thị giác + ngôn ngữ thành câu trả lời, mô tả, tóm tắt hoặc giải thích phù hợp với prompt người dùng.

Người dùng có thể tương tác với VLM giống như với một chatbot AI, nhưng điểm khác biệt là khả năng chèn hình ảnh hoặc video vào hội thoại. VLM sẽ đồng thời phân tích nội dung thị giác và văn bản để đưa ra phản hồi thông minh, tự nhiên và giàu ngữ cảnh.

Kiến trúc ba phần phổ biến trong Vision Language Models

4. Quy trình huấn luyện Vision Language Models

Việc đào tạo Vision Language Models (VLMs) tập trung vào việc đồng bộ Vision Encoder, Projector và LLM để mô hình có thể hiểu và xử lý dữ liệu từ cả hình ảnh lẫn văn bản. Quy trình này thường trải qua ba giai đoạn chính:

Pre-training (Trước huấn luyện): Huấn luyện trên tập dữ liệu lớn gồm cặp ảnh – văn bản để giúp mô hình học cách “nói cùng một ngôn ngữ” giữa thị giác và ngôn ngữ.
Supervised Fine-tuning (Tinh chỉnh có giám sát): Sử dụng các prompt thực tế kèm phản hồi mẫu (ví dụ: mô tả ảnh, đếm đối tượng trong khung hình) để cải thiện khả năng trả lời đúng yêu cầu của người dùng.
Parameter Efficient Fine-tuning – PEFT: Cho phép tinh chỉnh mô hình trên dữ liệu đặc thù của doanh nghiệp mà không cần huấn luyện lại toàn bộ, tiết kiệm chi phí và thời gian.

Nhờ quy trình này, VLMs không chỉ xử lý chính xác dữ liệu đa phương thức mà còn dễ dàng thích ứng với các lĩnh vực ứng dụng cụ thể.

Những nghiên cứu hiện tại đang tập trung nâng cao năng lực thị giác của VLMs thông qua nhiều cải tiến quan trọng, bao gồm:

Kết hợp nhiều Vision Encoder để xử lý tốt hơn các dạng đầu vào hình ảnh khác nhau.
Chia nhỏ hình ảnh độ phân giải cao thành các ô (patches) để mô hình xử lý hiệu quả hơn.
Mở rộng độ dài ngữ cảnh nhằm tăng khả năng phân tích và hiểu các video dài.

Nhờ những cải tiến này, VLMs đang tiến xa hơn khả năng mô tả hình ảnh cơ bản, hướng đến các kỹ năng phức tạp như so sánh, đối chiếu hình ảnh, đọc văn bản chính xác, phân tích video dài và nhận thức không gian chi tiết.

5. Các phương pháp đào tạo Vision Language Models

Quá trình đào tạo VLM thường dựa trên sự kết hợp của 4 phương pháp:

Contrastive Learning

Kỹ thuật này ánh xạ image embeddings và text embeddings vào cùng một không gian chung. Mô hình được huấn luyện trên các cặp hình ảnh, văn bản, học cách giảm khoảng cách giữa những cặp liên quan và tăng khoảng cách với các cặp không liên quan. Tiêu biểu là CLIP (Contrastive Language-Image Pretraining), được đào tạo trên 400 triệu cặp hình ảnh, chú thích từ internet, nổi bật với khả năng phân loại zero-shot có độ chính xác cao.

Masking

Masking giúp VLM học cách dự đoán phần bị che khuất trong dữ liệu đầu vào. Gồm hai dạng chính:

Masked Language Modeling: Mô hình học cách điền các từ bị thiếu trong chú thích văn bản với một hình ảnh không bị che.
Masked Image Modeling: Mô hình học cách tái tạo các pixel ẩn trong hình ảnh dựa trên một caption không bị che.

Một ví dụ về mô hình sử dụng masking là FLAVA (Foundational Language And Vision Alignment). FLAVA sử dụng Vision Transformer làm Image Encoder và kiến trúc Transformer cho cả Language Encoder và Multimodal Encoder. Multimodal encoder của FLAVA ứng dụng cơ chế cross-attention để kết hợp thông tin đa phương thức.

Masked Language Modeling: Dự đoán từ bị thiếu trong văn bản dựa trên hình ảnh đi kèm

Generative Model Training

Generative Model Training giúp VLMs học cách tạo ra dữ liệu mới, bao gồm:

Text-to-image Generation: Tạo ra hình ảnh từ văn bản đầu vào
Image-to-text Generation: Tạo ra văn bản, chẳng hạn như các caption, mô tả hình ảnh hoặc tóm tắt, từ hình ảnh đầu vào.

Diffusion models, như Imagen của Google, Midjourney, DALL-E của OpenAI (bắt đầu từ DALL-E 2) và Stable Diffusion của Stability AI là các các mô hình Text-to-image phổ biến.

Pretrained models

Việc sử dụng các mô hình pretrained giúp doanh nghiệp tiết kiệm đáng kể chi phí và tài nguyên khi đào tạo Vision Language Models (VLMs). Thay vì huấn luyện từ đầu, có thể kết hợp một LLM pretrained với một Vision Encoder pretrained, sau đó bổ sung lớp mapping (projector) để căn chỉnh biểu diễn hình ảnh vào không gian đầu vào của LLM.

Một ví dụ điển hình là LLaVA (Large Language and Vision Assistant), kết hợp Vicuna LLM và CLIP ViT làm Vision Encoder. Các đầu ra được đưa vào cùng một không gian chiều chung thông qua Linear Projector, giúp mô hình xử lý hiệu quả dữ liệu đa phương thức.

Ngoài ra, để giảm công sức thu thập dữ liệu, doanh nghiệp có thể tận dụng các bộ dữ liệu chuẩn đã có sẵn cho các tác vụ downstream như:

ImageNet: Hàng triệu hình ảnh có chú thích.
COCO: Bộ dữ liệu lớn với nhãn cho ghi chú, phát hiện đối tượng và phân đoạn.
LAION: Hàng tỷ cặp hình ảnh – văn bản đa ngôn ngữ, phù hợp huấn luyện VLM quy mô lớn.

Nhờ mô hình và dữ liệu pretrained, doanh nghiệp có thể rút ngắn đáng kể thời gian huấn luyện, đồng thời nhanh chóng tùy chỉnh VLM cho các lĩnh vực ứng dụng cụ thể.

Các tác vụ cụ thể mà Vision Language Models có thể xử lý

6. Các ứng dụng nổi bật của VLM là gì

Nhờ khả năng kết hợp giữa xử lý ngôn ngữ tự nhiên và thị giác máy tính, Vision Language Models (VLMs) đang trở thành công cụ đa năng cho nhiều lĩnh vực. Một số ứng dụng tiêu biểu như:

Tạo hình ảnh từ văn bản: Các mô hình như DALL-E, Imagen, Midjourney và Stable Diffusion chuyển mô tả ngôn ngữ thành hình ảnh. Doanh nghiệp có thể sử dụng công cụ này trong thiết kế sản phẩm, tạo mẫu và minh họa cho nội dung viết.
Tạo caption và tóm tắt nội dung hình ảnh/video: VLMs không chỉ nhận diện đối tượng mà còn mô tả chi tiết nội dung hoặc tóm tắt video. Trong giáo dục, khi được cung cấp một hình ảnh của một bài toán viết tay, VLMs có thể sử dụng khả năng nhận dạng ký tự quang học và lý luận để diễn giải bài toán và tạo ra hướng dẫn từng bước về cách giải quyết. Trong lĩnh vực y tế, chúng có thể phân tích hình ảnh y tế, còn trong sản xuất, chúng giúp giải thích biểu đồ sửa chữa thiết bị trong các cơ sở sản xuất.
Phân tích và trả lời câu hỏi về hình ảnh (Visual question answering – VQA): VLMs có khả năng trả lời các câu hỏi cụ thể về nội dung hình ảnh, mở rộng khả năng ứng dụng AI vào các hệ thống tương tác phức tạp. Ví dụ, trong vận tải, VLMs có thể được giao nhiệm vụ phân tích video kiểm tra đường, xác định các mối nguy hiểm như biển báo đường bị hỏng, đèn giao thông bị lỗi và ổ gà sau đó tạo báo cáo bảo trì nêu rõ vị trí và mô tả của những mối nguy hiểm đó.
Xây dựng Video Analytics AI Agents để phát hiện sự kiện: VLMs có thể được tích hợp vào hệ thống Video Analytics AI Agents để xử lý khối lượng video lớn, phát hiện và phân tích các sự kiện cụ thể. Trong quản lý kho hàng, chúng giúp phát hiện robot hoạt động bất thường hoặc cảnh báo hết hàng khi kệ hàng trống. Trong giao thông, VLMs có thể phát hiện, phân tích và tạo báo cáo tự động về các mối nguy hiểm như cây đổ, xe hỏng hoặc va chạm.
Phân đoạn hình ảnh và tạo bounding box: VLMs có khả năng chia hình ảnh thành các phần khác nhau dựa trên đặc điểm không gian, cung cấp mô tả cho từng phần và tạo bounding boxes để xác định vị trí đối tượng, cung cấp các nhãn hoặc highlighting màu để chỉ định các phần của hình ảnh liên quan đến truy vấn. Trong bảo trì dự đoán, công nghệ này giúp phân tích hình ảnh sàn nhà máy để phát hiện các khiếm khuyết thiết bị tiềm ẩn theo thời gian thực.
Tìm kiếm và truy xuất hình ảnh: VLMs có thể tìm kiếm qua thư viện hình ảnh, video lớn dựa trên truy vấn ngôn ngữ tự nhiên. Điều này nâng cao trải nghiệm người dùng trên các trang thương mại điện tử, giúp khách hàng tìm kiếm sản phẩm cụ thể bằng cách mô tả sản phẩm họ muốn.
Phân tích video dài: Kết hợp với công nghệ như graph databases, VLMs có thể hiểu và phân tích video dài, nắm bắt sự phức tạp của đối tượng và sự kiện trong video. Ứng dụng này giúp tìm ra các nút thắt cổ chai trong hoạt động kho hàng hoặc tạo bình luận tự động cho các trận đấu bóng đá, bóng rổ hoặc bóng đá.
Hỗ trợ robot hiểu môi trường: VLMs giúp robot hiểu rõ hơn về môi trường xung quanh thông qua khả năng nhận diện đối tượng và hiểu hướng dẫn trực quan, mở rộng khả năng tương tác của robot với thế giới thực.

Video Analytics AI Agents chuyển đổi dữ liệu video và hình ảnh thành thông tin chi tiết từ thế giới thực

7. Các Vision Language Models nổi tiếng

Vision Language Models (VLMs) đang trở thành xu hướng công nghệ AI mạnh mẽ, với tiềm năng cạnh tranh với các LLMs hiện đại. Dưới đây là những mô hình VLM đang dẫn đầu thị trường:

DeepSeek-VL2: Mô hình VLM mã nguồn mở từ Trung Quốc với 4,5 tỷ tham số, gồm Vision Encoder, Vision Language Adapter và DeepSeekMoE LLM dựa trên kiến trúc Mixture of Experts (MoE). Ngoài ra còn có biến thể tiny (1B) và small (2,8B).
Gemini 2.5 Pro: Được giới thiệu là mô hình mạnh nhất trong hệ sinh thái Google Gemini, Gemini 2.5 Pro nổi bật với khả năng xử lý các đầu vào đa phương thức như văn bản, hình ảnh, âm thanh và video, đồng thời tạo đầu ra dạng văn bản.
GPT-5: Ra mắt tháng 8/2025, GPT-5 có khả năng xử lý văn bản, hình ảnh, âm thanh và video với đầu ra đa dạng. Nhờ kiến trúc mới kết hợp mô hình nhanh và suy luận sâu, GPT-5 vượt trội về tốc độ, độ chính xác và khả năng lập luận so với GPT-4o, đồng thời được tích hợp sâu trong hệ sinh thái Microsoft Copilot và Azure AI.
Llama 3.2: Bộ mô hình mã nguồn mở từ Meta với hai phiên bản 11B và 90B tham số, có thể xử lý văn bản và hình ảnh nhưng chỉ tạo đầu ra văn bản. Kiến trúc bao gồm ViT Image Encoder, Video Adapter và Image Adapter với các lớp cross-attention để tích hợp biểu diễn hình ảnh vào Llama 3.1 đã huấn luyện trước.
NVLM: Bộ mô hình đa phương thức của NVIDIA với ba biến thể riêng biệt: NVLM-D (decoder-only, đưa trực tiếp image tokens vào LLM decoder), NVLM-X (sử dụng cross-attention, tối ưu cho hình ảnh độ phân giải cao) và NVLM-H (hybrid, kết hợp decoder-only và cross-attention để cân bằng hiệu suất và khả năng lập luận).
Qwen 2.5-VL: Mô hình của Alibaba Cloud với các phiên bản 3B, 7B và 72B tham số, kết hợp ViT Vision Encoder và Qwen 2.5 LLM. Có khả năng phân tích video dài hơn một giờ và tương tác trực tiếp với giao diện máy tính để bàn và điện thoại thông minh.

Kiến trúc của mô hình Vision Language Models

8. Benchmarks cho các Vision Language Models

Để đo lường hiệu suất của Vision Language Models (VLMs), các nhà nghiên cứu phát triển nhiều benchmark chuẩn hóa nhằm kiểm tra khả năng xử lý đồng thời ngôn ngữ và hình ảnh trong các tình huống khác nhau. Các benchmark thường gồm hình ảnh và câu hỏi trắc nghiệm, giúp so sánh khách quan giữa các mô hình. Nội dung câu hỏi bao phủ nhiều khía cạnh: trả lời câu hỏi trực quan, logic lý luận, đọc hiểu tài liệu, so sánh nhiều hình ảnh và phân tích video.

Dưới đây là các Benchmark chính cho Vision Language Models:

MathVista: Đánh giá khả năng lý luận toán học trực quan.
MMBench: Bộ câu hỏi đa dạng kiểm tra nhận diện đối tượng và OCR.
MMMU (Massive Multidiscipline Multimodal Understanding): Trắc nghiệm đa lĩnh vực để đo lường kiến thức và kỹ năng lý luận.
MM-Vet: Đo khả năng tích hợp giữa tạo ngôn ngữ và nhận thức không gian.
OCRBench: Kiểm tra OCR với các tác vụ như nhận dạng chữ viết tay, biểu thức toán học, văn bản trong cảnh (scene text).
VQA (Visual Question Answering): Benchmark lâu đời cho các câu hỏi mở về hình ảnh, với nhiều biến thể như GQA (đồ thị cảnh), OK-VQA (kiến thức ngoài ảnh), ScienceQA (câu hỏi khoa học), TextVQA (lý luận từ văn bản trong ảnh).
Video-MME: Đánh giá khả năng phân tích và hiểu video.
ChartQA & DocVQA: Tập trung vào biểu đồ và tài liệu.

Quá trình thực hiện Benchmark thường diễn ra như sau: VLM được cung cấp hình ảnh, câu hỏi và các lựa chọn trả lời. Sau đó mô hình phải đưa ra lựa chọn chính xác. Độ chính xác của VLM được tính bằng tỷ lệ lựa chọn đúng trên tổng số câu hỏi. Một số benchmark còn thêm bài toán số học, cho phép sai số trong phạm vi nhất định. Nguồn dữ liệu thường lấy từ giáo trình, tài liệu học thuật để đảm bảo độ tin cậy.

Giống như LLMs, VLMs cũng có bảng xếp hạng cho từng benchmark và leaderboard độc lập, điển hình là OpenVLM trên Hugging Face. Ngoài ra, công cụ như VLMEvalKit và LMMs-Eval giúp đơn giản hóa quy trình đánh giá thông qua giao diện dòng lệnh.

Ví dụ về câu hỏi trắc nghiệm cho VLMs được sử dụng trong benchmark MMMU

9. Những thách thức khi triển khai Vision Language Models

Vision Language Models (VLMs) đang ngày càng phát triển mạnh mẽ và trở thành công cụ linh hoạt cho nhiều tác vụ liên quan đến thị giác. Tuy nhiên, bên cạnh những khả năng ấn tượng, VLMs vẫn phải đối mặt với nhiều thách thức đáng kể mà các doanh nghiệp và nhà phát triển cần lưu ý khi triển khai các giải pháp này. Dưới đây là những thách thức chính của Vision Language Models:

Giới hạn độ phân giải: Hầu hết VLMs hiện nay chỉ nhận đầu vào ở mức 224×224 hoặc 336×336 pixel, khiến chi tiết nhỏ bị mất khi xử lý ảnh hoặc video HD. Các giải pháp như tiling hoặc vision encoder có độ phân giải cao hơn vẫn chưa thể giải quyết vấn đề này hoàn toàn.
Khó khăn trong hiểu không gian và định vị đối tượng: Do dữ liệu huấn luyện thường thiếu thông tin vị trí, VLMs gặp hạn chế khi định vị đối tượng trong khung hình. Nguyên nhân chủ yếu là do dữ liệu huấn luyện cho các vision encoders dựa trên CLIP thường chỉ gồm các mô tả ngắn gọn về hình ảnh mà không chứa thông tin chi tiết về vị trí của đối tượng. Các nhà nghiên cứu đang tìm cách khắc phục bằng cách kết hợp nhiều vision encoder khác nhau.
Xử lý video dài với ngữ cảnh phức tạp: Tương tự LLMs giới hạn về độ dài ngữ cảnh, VLMs cũng chỉ có thể xử lý một số lượng khung hình nhất định từ video. Điều này tạo ra thách thức lớn khi cần phân tích hoặc trả lời câu hỏi từ video kéo dài nhiều giờ. Các nghiên cứu như LongVILA đang được phát triển nhằm mở rộng khả năng xử lý ngữ cảnh dài và cải thiện hiệu suất trên dữ liệu video.
Thiếu dữ liệu cho các trường hợp sử dụng chuyên biệt: VLMs có thể không tiếp xúc đủ với dữ liệu phù hợp cho các ứng dụng rất cụ thể (như phát hiện lỗi sản xuất). Doanh nghiệp có thể khắc phục bằng fine-tuning, in-context learning hoặc PEFT để cải thiện độ chính xác.
Vấn đề định kiến (bias): VLMs có thể thừa hưởng các định kiến từ dữ liệu huấn luyện thế giới thực hoặc từ các mô hình pretrained mà chúng được xây dựng. Để giảm thiểu vấn đề này, cần đa dạng hóa nguồn dữ liệu và tích hợp sự giám sát của con người trong suốt quá trình phát triển.
Chi phí và độ phức tạp cao: Việc kết hợp các mô hình thị giác và ngôn ngữ làm tăng thêm độ phức tạp tổng thể và đòi hỏi nhiều tài nguyên tính toán hơn. Điều này gây khó khăn cho việc triển khai VLMs ở quy mô lớn và đòi hỏi các tổ chức phải đầu tư đáng kể vào cơ sở hạ tầng.
Khả năng tổng quát hóa hạn chế: VLMs thường gặp khó khăn trong việc thích nghi và đưa ra dự đoán chính xác với dữ liệu mới. Để cải thiện vấn đề này, các nhà nghiên cứu đang sử dụng bộ dữ liệu cân bằng với nhiều trường hợp ngoại lệ, áp dụng zero-shot learning để VLMs thích ứng với các khái niệm mới hoặc các kết hợp hình ảnh – văn bản không điển hình. Ngoài ra, các benchmark như LiveXiv của IBM cũng được phát triển để đánh giá hiệu suất VLMs trên dữ liệu mới.
Hiện tượng ảo giác AI (hallucinations): VLMs có thể tạo ra kết quả không chính xác hoặc không tồn tại trong dữ liệu đầu vào. Việc xác minh kết quả từ các mô hình này là bước quan trọng để đảm bảo độ tin cậy và tính chính xác thực tế của chúng.

Tóm lại, Vision Language Models đại diện cho một bước tiến quan trọng trong lĩnh vực AI đa phương thức, mang đến khả năng kết hợp linh hoạt giữa xử lý thị giác và ngôn ngữ tự nhiên. Với tốc độ phát triển nhanh chóng của công nghệ AI và sự đầu tư mạnh mẽ vào nghiên cứu, Vision Language Models hứa hẹn sẽ mở ra nhiều ứng dụng đột phá trong tương lai, định hình lại cách chúng ta tương tác với công nghệ thị giác trong thời đại số.

>>> XEM THÊM: