Bài viết

Transformer Model là gì? Kiến trúc Transformer trong NLP

Tháng Tư 16, 2025

Chia sẻ với:

Nội dung bài viết

Transformer Model là một kiến trúc mạng nơ-ron tiên tiến được giới thiệu năm 2017 trong bài báo “Attention is All You Need”, sử dụng cơ chế self-attention để xử lý hiệu quả dữ liệu tuần tự. Trong bài viết này, FPT.AI sẽ giới thiệu chi tiết về kiến trúc Transformer, cách thức hoạt động, so sánh ưu điểm của nó so với các mô hình truyền thống và khám phá ứng dụng rộng rãi của Transformer trong xử lý ngôn ngữ tự nhiên, thị giác máy tính, y sinh học và nhiều lĩnh vực khác.

Transformer Model là gì?

Mô hình Transformer là một loại kiến trúc mạng nơ-ron xuất sắc trong việc xử lý dữ liệu tuần tự, thường được gắn liền với các mô hình ngôn ngữ lớn (LLM). Kiến trúc Transformer được mô tả lần đầu trong bài báo nổi tiếng năm 2017 “Attention is All You Need” của Vaswani và cộng sự, hiện được coi là một bước ngoặt trong học sâu (Deep Learning).

Transformer Model là một trong những mô hình dẫn dắt làn sóng Transformer AI. Các nhà nghiên cứu của Stanford đã gọi Transformer là “foundation models” (mô hình nền tảng) trong một bài báo vào tháng 8 năm 2021 vì họ cho rằng những mô hình này đang thúc đẩy một sự thay đổi mô hình trong AI. Họ nhận định rằng: “Quy mô và phạm vi tuyệt vời của các mô hình nền tảng trong vài năm qua đã mở rộng trí tưởng tượng của chúng ta về những gì có thể.”

Transformer Model có thể học cách hiểu ngữ cảnh và từ đó suy ra ý nghĩa bằng cách theo dõi các mối quan hệ trong dữ liệu tuần tự, như các từ trong câu nhờ cơ chế self-attention (tự chú ý). Cơ chế này giúp mô hình phát hiện cách mà dữ liệu, dù xa nhau trong chuỗi, có thể ảnh hưởng và phụ thuộc vào nhau.

Các kiến trúc Transformer là một sự phát triển của các mô hình sequence-to-sequence dựa trên mạng nơ-ron hồi quy (RNN) dùng cho dịch máy (Machine Translation). Hiện tại, thuật toán Transformer đã được ứng dụng rộng rãi học máy (Machine Learning) và nhiều lĩnh vực khác của trí tuệ nhân tạo (AI), như thị giác máy tính (Computer Vision), nhận dạng giọng nói và dự báo chuỗi thời gian.

Mô hình Transformer là gì — Mô hình Transformer là một loại kiến trúc mạng nơ-ron xuất sắc trong việc xử lý dữ liệu tuần tự

>>> XEM THÊM: Language Model là gì? 10 Ứng dụng Language Modelling nổi bật

Mô hình Transformer thay thế CNNs và RNNs như thế nào?

Trước khi mô hình Transformer ra đời, hầu hết các tác vụ xử lý ngôn ngữ tự nhiên (NLP) đều dựa vào mạng nơ-ron hồi quy (RNNs) và mạng nơ-ron tích chập (CNNs). Huấn luyện các mạng nơ-ron này với bộ dữ liệu lớn và có nhãn rất tốn kém và mất nhiều thời gian, với các hạn chế của từng mô hình như sau:

RNN chỉ có thể xử lý dữ liệu tuần tự (mô hình tiếp nhận các phần tử của chuỗi đầu vào lần lượt và theo một thứ tự cụ thể). Điều này cản trở khả năng của RNN trong việc nắm bắt các phụ thuộc tầm xa (mô hình chỉ có thể xử lý hiệu quả các chuỗi văn bản ngắn). Hiện tại, nhược điểm này đã được giải quyết phần nào bởi mạng bộ nhớ dài ngắn hạn (LSTMs).

Transformer model là gì — Convolutional Neural Networks (CNNs)

CNNs vốn mang tính cục bộ, sử dụng phép mạng nơ-ron tích chập để xử lý lần lượt các tập con nhỏ hơn của dữ liệu đầu. Do đó, CNNs gặp khó khăn trong việc phân biệt các phụ thuộc tầm xa, chẳng hạn như mối tương quan giữa các từ (trong văn bản) hoặc pixel (trong hình ảnh) không liền kề nhau.

Kiến trúc Transformer — Recurrent Neural Networks – RNNs

Transformer Model, với cơ chế self – attention, đặc biệt là kỹ thuật multi-headed attention, có thể kiểm tra đồng thời toàn bộ chuỗi, phát hiện mối quan hệ (hoặc phụ thuộc) giữa mỗi phần của chuỗi đầu vào và đưa ra quyết định về cách và khi nào tập trung vào các bước thời gian cụ thể của chuỗi đó.

Ngoài việc cải thiện đáng kể khả năng hiểu các phụ thuộc tầm xa, cơ chế self-attention còn cho phép mô hình Transformer song song hóa: thực hiện nhiều bước tính toán cùng một lúc, thay vì theo tuần tự. Điều này giúp mô hình tận dụng triệt để sức mạnh và tốc độ của GPU trong cả quá trình huấn luyện và suy luận, mở ra cơ hội huấn luyện các kiến trúc Transformer trên các bộ dữ liệu khổng lồ để khai thác hàng triệu hình ảnh và petabyte dữ liệu văn bản có sẵn trên web và trong các cơ sở dữ liệu doanh nghiệp thông qua học tự giám sát (self-supervised learning).

Thực tế, 70% các bài báo trên arXiv về AI trong những năm gần đây đều nhắc đến mô hình Transformer. Đây là một sự thay đổi lớn so với một nghiên cứu của IEEE vào năm 2017 cho rằng RNNs và CNNs là các mô hình phổ biến nhất trong nhận dạng mẫu.

>>>> XEM THÊM: Gán nhãn dữ liệu là gì? Data Labeling trong học máy và AI

Cơ chế hoạt động của Transformer Model

Các thành phần cốt lõi của kiến trúc Transformer

Có 3 thuật ngữ cốt lõi bạn cần nắm trước khi tìm hiểu cơ chế hoạt động của Transformer Model:

Token: Trong khi các ký tự (chữ cái, số hoặc dấu câu) à đơn vị cơ bản mà con người sử dụng để biểu diễn ngôn ngữ, đơn vị nhỏ nhất của ngôn ngữ mà các mô hình AI sử dụng là token. Mỗi token được gán một số ID và những số ID này là cách các LLM điều hướng cơ sở dữ liệu từ vựng của chúng. Quá trình tokenization này làm giảm đáng kể sức mạnh tính toán cần thiết để xử lý văn bản.
Mã hóa vị trí (Positional Encoding): Trong ngôn ngữ của chúng ta, vị trí của từ trong câu rất quan trọng. Ví dụ, câu “Con mèo đuổi con chuột” và “Con chuột đuổi con mèo” có cùng các từ nhưng ý nghĩa hoàn toàn khác nhau. Khi Transformer xử lý một câu, nó chuyển mỗi từ thành một dãy vector và gán vị trí cho chúng. Các từ gần nhau trong câu sẽ có nhãn vị trí gần nhau để giúp mô hình hiểu rằng các từ này có liên quan mật thiết với nhau (từ “ngôi” và “nhà” trong cụm “ngôi nhà”). Mã hóa vị trí (positional encoding) giúp Transformer có thể hiểu cấu trúc câu và mối quan hệ giữa các từ dù nó xử lý tất cả các từ đồng thời.
Multi-headed Attention: Để nắm bắt nhiều cách đa diện mà các token có thể liên quan với nhau, các mô hình Transformer thực hiện multi-headed attention. Mô hình sẽ tính toán đồng thời nhiều mối quan hệ giữa các từ, tạo ra nhiều “đầu” attention để xem xét các góc độ khác nhau trong mối quan hệ giữa các từ và xác định chính xác nghĩa của từng từ trong bối cảnh câu. Trong các lớp cuối cùng của mỗi khối attention, đầu ra của các mạch song song được nối lại với nhau trước khi được gửi đến lớp feedforward tiếp theo, mỗi mạch học các trọng số khác nhau để nắm bắt một khía cạnh riêng biệt của ý nghĩa ngữ nghĩa.

>>> XEM THÊM: Text Preprocessing – Kỹ thuật tiền xử lý văn bản trong NLP (Natural Language Processing)

Cơ chế hoạt động của mô hình Transformer

Mô hình Transformer hoạt động chủ yếu dựa trên các khối mã hóa/giải mã (encoder/decoder), tương tự như các mạng nơ-ron truyền thống. Điểm đặc biệt là Transformer sử dụng cơ chế self-attention để hiểu và xác định nên chú ý đến phần nào của chuỗi dữ liệu tại bất kỳ thời điểm cụ thể nào. Cách thức hoạt động của mô hình gồm 4 bước như sau:

Bước 1: Mô hình “đọc” các chuỗi dữ liệu thô và chuyển đổi chúng thành các vector nhúng, sau đó sử dụng chúng để tính toán trọng số attention thông qua một loạt phép nhân ma trận. Các vector chính bao gồm:
- Vector truy vấn: Thông tin mà một token cụ thể đang tìm kiếm, được sử dụng để tính toán cách các token khác có thể ảnh hưởng đến ý nghĩa, sự kết hợp hoặc ý nghĩa ngầm của chính token này trong ngữ cảnh.
- Vector khóa: Thông tin mà mỗi token chứa. Sự căn chỉnh giữa truy vấn và khóa được sử dụng để tính toán trọng số attention phản ánh mức độ liên quan của chúng trong ngữ cảnh.
- Vector giá trị: Vector trả lại thông tin từ mỗi vector khóa, được điều chỉnh theo trọng số attention tương ứng. Đóng góp từ các khóa căn chỉnh mạnh với truy vấn được cân nhắc nặng hơn; đóng góp từ các khóa không liên quan đến truy vấn sẽ được cân nhắc gần với không.
Bước 2: Mô hình xác định các điểm tương đồng, tương quan và các phụ thuộc khác giữa mỗi vector bằng cách tính tích vô hướng giữa mỗi vector. Nếu các vector được căn chỉnh tốt, nhân chúng với nhau sẽ cho ra giá trị lớn. Nếu chúng không căn chỉnh, tích vô hướng của chúng sẽ nhỏ hoặc âm.
Bước 3: Các điểm căn chỉnh được chuyển đổi thành trọng số attention thông qua hàm kích hoạt softmax. Hàm này chuẩn hóa tất cả các giá trị về phạm vi từ 0 – 1 sao cho chúng tổng hợp lại bằng 1. Gán trọng số attention 0 giữa “Vector A” và “Vector B” có nghĩa là Vector B nên bị bỏ qua khi đưa ra dự đoán về Vector A. Gán cho Vector B trọng số attention 1 có nghĩa là nó nên nhận 100% sự chú ý của mô hình khi đưa ra quyết định về Vector A.
Bước 4: Các trọng số attention được sử dụng để nhấn mạnh hoặc giảm bớt ảnh hưởng của các phần tử đầu, giúp các mô hình Transformer tập trung vào hoặc bỏ qua thông tin cụ thể tại một thời điểm cụ thể.

Thuật toán Transformer — Cơ chế hoạt động của Transformer Model

Để hiểu rõ hơn, hãy xem xét câu: “Cô ấy đổ nước từ bình vào cốc cho đến khi nó đầy.”

Khi Transformer tiếp nhận câu này, mô hình sẽ sử dụng cơ chế self-attention để xác định mối quan hệ giữa các từ trong câu. Từ “nó” trong câu này sẽ được xác định là ám chỉ “cốc”, vì từ “nó” gần “cốc” và mang ý nghĩa ngữ pháp phù hợp.

Trong khi đó, nếu câu là “Cô ấy đổ nước từ bình vào cốc cho đến khi nó rỗng”, mô hình sẽ hiểu rằng “nó” ở đây chỉ về “bình”, thay vì “cốc”, vì trong ngữ cảnh này “bình” là thứ có thể rỗng.

>>> XEM THÊM: Natural Language Generation là gì? 3 lợi ích chính của NLG

Transformer Model trong xử lý ngôn ngữ tự nhiên (NLP)

Mô hình Transformer đã cách mạng hóa hầu hết các tác vụ NLP, bao gồm:

AI Chatbot
Tạo văn bản
Tóm tắt văn bản
Dịch văn bản theo thời gian thực, mở ra cơ hội cho các cuộc họp và lớp học có sự tham gia của người khuyết tật thính giác.
Trả lời câu hỏi
Phân tích cảm xúc (Sentiment Analysis)
Dịch máy (Machine Translation)

Các mô hình ngôn ngữ được phát triển dựa trên kiến trúc Transformer bao gồm:

BERT (Bidirectional Encoder Representations from Transformers): Mô hình BERT, được Google giới thiệu vào năm 2019, là một Encoder-decoder masked language models (MLMs). Mô hình này đại diện cho nhánh tiến hóa chính khác của LLM dựa trên kiến trúc Transformer, được đào tạo để hiểu ngữ cảnh hai chiều của văn bản. Trong quá trình đào tạo, một phần của câu đầu vào bị che đi (masked), và mô hình phải dự đoán các từ bị che đó dựa trên ngữ cảnh xung quanh. Mặc dù phương pháp đào tạo này kém hiệu quả hơn đối với việc tạo văn bản, nhưng nó giúp các MLM vượt trội trong các nhiệm vụ đòi hỏi thông tin ngữ cảnh mạnh mẽ, chẳng hạn như dịch thuật, phân loại văn bản và học nhúng (learning embeddings).
GPT (Generative Pre-trained Transformer): Các mô hình GPT, phát triển bởi OpenAI, đặc biệt là GPT-3, mô hình nền tảng của ChatGPT đã thúc đẩy kỷ nguyên hiện đại của AI tạo sinh, là ví dụ điển hình về mô hình decoder – only LLM. Các mô hình này được thiết kế để tạo văn bản, tóm tắt và trả lời câu hỏi. Chúng được đào tạo thông qua quá trình học tự giám sát, trong đó mô hình được cung cấp từ đầu tiên của một đoạn văn bản và được giao nhiệm vụ dự đoán lặp lại từ tiếp theo cho đến khi kết thúc chuỗi.
Encoder-decoder: Các mô hình như T5 (Text-to-Text Transfer Transformer) sử dụng cả encoder và decoder, phù hợp với các tác vụ như dịch máy, tóm tắt văn bản, và trả lời câu hỏi. Encoder xử lý văn bản đầu vào để tạo ra các biểu diễn và decoder sử dụng các biểu diễn này để tạo ra văn bản đầu ra.

Các mô hình dựa trên Transformer hiện nay chiếm ưu thế trong các bảng xếp hạng hiệu suất phổ biến như SuperGLUE, một tiêu chuẩn được phát triển vào năm 2019 cho các hệ thống xử lý ngôn ngữ. Những tiến bộ của các mô hình như BERT và XLNet đã vượt qua hiệu suất của con người trong nhiều nhiệm vụ NLP. BERT và các biến thể của nó đang được người dùng sử dụng để cải thiện kết quả tìm kiếm trên Google hoặc Microsoft Bing.

Mô hình Transformer Deep Learning — Tiến bộ của các mô hình dựa trên Transformer như BERT và XLNet so với hiệu suất của con người theo GLUE Benchmark Performance

>>> XEM THÊM: ChatGPT là gì? Cách tạo tài khoản ChatGPT free

Transformer trong các lĩnh vực khác

Ngoài xử lý ngôn ngữ tự nhiên, mô hình Transformer có thể được sử dụng trong hầu hết mọi tình huống liên quan đến dữ liệu tuần tự, bao gồm:

Chuỗi thời gian: Bao gồm dữ liệu thị trường chứng khoán, nhiệt độ theo thời gian
Âm thanh: Chuỗi các sóng âm theo thời gian
Video: Chuỗi các khung hình liên tiếp

Điều này đã dẫn đến sự phát triển của các mô hình dựa trên kiến trúc Transformer trong các lĩnh vực khác, từ việc tinh chỉnh LLM thành các hệ thống đa phương thức đến các mô hình dự báo chuỗi thời gian chuyên dụng và ViT cho thị giác máy tính, bao gồm chú thích hình ảnh, phát hiện đối tượng, phân đoạn hình ảnh và trả lời câu hỏi trực quan.

Ngoài ra, trong y tế Transformer Model giúp các nhà nghiên cứu hiểu các chuỗi gen trong DNA và các axit amin trong protein để thúc đẩy quy trình chế tạo thuốc. Mô hình này cũng hỗ trợ phát hiện các bất thường để ngăn chặn gian lận, cải thiện quy trình sản xuất, đưa ra các khuyến nghị trực tuyến hoặc cải thiện chăm sóc sức khỏe.

Tóm lại, Transformer Model đã thực sự tạo ra một cuộc cách mạng trong lĩnh vực trí tuệ nhân tạo nhờ cơ chế self-attention đột phá. Sự ra đời của các mô hình như BERT và GPT dựa trên nền tảng Transformer đã đưa AI tiến xa hơn, vượt qua hiệu suất của con người trong nhiều nhiệm vụ xử lý ngôn ngữ.

Với khả năng song song hóa, hiểu ngữ cảnh sâu sắc, và khả năng thích ứng với nhiều loại dữ liệu khác nhau, Transformer không chỉ là một bước ngoặt trong khoa học máy tính mà còn mở ra vô số khả năng ứng dụng thực tiễn, đóng vai trò then chốt trong sự phát triển của AI hiện đại và tương lai.

>>> XEM THÊM:

Bài viết liên quan