Bài viết

Neural Network là gì? Cơ chế hoạt động của Neural Network

Tháng Tư 27, 2025

Chia sẻ với:

Nội dung bài viết

Neural Network là một trong những công nghệ cốt lõi trong lĩnh vực trí tuệ nhân tạo và học máy, mô phỏng cách thức hoạt động của bộ não con người để ra quyết định. Với cấu trúc bao gồm các tầng nơ-ron nhân tạo, Neural Network học từ dữ liệu và có khả năng cải thiện độ chính xác qua thời gian. Trong bài viết này, FPT.AI sẽ trình bày chi tiết về cấu tạo, cơ chế hoạt động, các loại mạng nơ-ron thần kinh cũng như những ứng dụng của công nghệ này trong đời sống hiện đại.

Neural Network là gì?

Mạng nơ-ron thần kinh (Neural Network) là một chương trình hoặc mô hình Machine Learning, đưa ra quyết định theo cách tương tự như bộ não con người, bằng cách sử dụng các quy trình mô phỏng cách thức hoạt động của các nơ-ron sinh học để nhận diện hiện tượng, cân nhắc các lựa chọn và đi đến kết luận.

Mỗi Neural Network bao gồm các tầng node hoặc nơ-ron nhân tạo: một tầng đầu vào, một hoặc nhiều tầng ẩn và một tầng đầu ra. Mỗi node kết nối với các node khác, và có trọng số (weight) và ngưỡng (threshold) riêng. Nếu đầu ra của bất kỳ node nào vượt quá giá trị ngưỡng quy định, node đó được kích hoạt, gửi dữ liệu đến tầng tiếp theo của mạng. Ngược lại, không có dữ liệu nào được chuyển tiếp đến tầng tiếp theo.

Neural Network dựa vào dữ liệu huấn luyện để học và cải thiện độ chính xác theo thời gian. Khi được tinh chỉnh để đạt độ chính xác cao, chúng trở thành công cụ mạnh mẽ trong khoa học máy tính và trí tuệ nhân tạo, cho phép chúng ta phân loại và phân cụm dữ liệu với tốc độ cao. Các tác vụ nhận diện giọng nói hoặc nhận dạng hình ảnh có thể chỉ mất vài phút thay vì hàng giờ so với việc nhận diện thủ công bởi chuyên gia.

Neural Network đôi khi được gọi là mạng nơ-ron nhân tạo (Artificial Neural Networks – ANNs) hoặc mạng nơ-ron mô phỏng (Simulated Neural Networks – SNNs). Chúng là một tập con của Machine Learning và là cốt lõi của các mô hình Deep Learning.

Cơ chế hoạt động của Neural Network

Hãy tưởng tượng mỗi node riêng lẻ như một mô hình hồi quy tuyến tính, bao gồm dữ liệu đầu vào, trọng số, độ lệch (bias) hoặc ngưỡng và đầu ra. Công thức sẽ có dạng như sau:

∑wixi + bias = w1x1 + w2x2 + w3x3 + bias

output = f(x) = 1 nếu ∑w1x1 + b >= 0; 0 nếu ∑w1x1 + b < 0

Sau khi xác định tầng đầu vào, các trọng số được gán. Những trọng số này giúp xác định tầm quan trọng của bất kỳ biến nào, với những trọng số lớn hơn đóng góp đáng kể hơn vào đầu ra so với các đầu vào khác. Tất cả đầu vào sau đó được nhân với trọng số tương ứng và được tổng hợp lại.

Sau đó, đầu ra được đưa qua một hàm kích hoạt (activation function), xác định kết quả đầu ra. Nếu đầu ra đó vượt quá ngưỡng nhất định, nó “kích hoạt” node, chuyển dữ liệu đến tầng tiếp theo trong mạng. Điều này dẫn đến việc đầu ra của một node trở thành đầu vào của node tiếp theo. Quá trình truyền dữ liệu từ tầng này sang tầng khác định nghĩa Neural Network này là mạng Feedforward.

Neural network deep learning — Trong Neural Network, chúng ta cần gán trọng số cho các đầu vào (X) để có cơ sở xác định đầu ra

Hãy phân tích những gì một node đơn lẻ có thể trông như thế nào bằng cách sử dụng các giá trị nhị phân. Chúng ta có thể áp dụng khái niệm này vào một ví dụ cụ thể hơn, như việc liệu bạn có nên đi lướt sóng hay không (Có: 1, Không: 0). Quyết định đi hay không đi là kết quả dự đoán của chúng ta, hay y-hat. Giả sử có ba yếu tố ảnh hưởng đến việc ra quyết định của bạn:

Sóng có tốt không? (Có: 1, Không: 0)
Hàng chờ có trống không? (Có: 1, Không: 0)
Gần đây có vụ tấn công của cá mập không? (Có: 0, Không: 1)

Sau đó, giả sử chúng ta các đầu vào sau:

X1 = 1, vì sóng đang lớn
X2 = 0, vì có đám đông
X3 = 1, vì gần đây không có vụ tấn công cá mập nào

Để xác định tầm quan trọng, chúng ta sẽ gán cho mỗi đầu vào một trọng số. Trọng số lớn hơn cho thấy các biến cụ thể có tầm quan trọng lớn hơn đối với quyết định hoặc kết quả.

W1 = 5, vì sóng lớn không xuất hiện thường xuyên
W2 = 2, vì bạn đã quen với đám đông
W3 = 4, vì bạn sợ cá mập

Cuối cùng, chúng ta cũng giả định giá trị ngưỡng là 3, tương đương với giá trị bias là –3. Với tất cả các đầu vào khác nhau, chúng ta có thể bắt đầu điền giá trị vào công thức để có được đầu ra mong muốn.

Y-hat = (15) + (02) + (1*4) – 3 = 6

Nếu chúng ta sử dụng hàm kích hoạt từ đầu phần này, chúng ta có thể xác định rằng đầu ra của node này sẽ là 1, vì 6 lớn hơn 0. Trong trường hợp này, bạn sẽ đi lướt sóng; nhưng nếu chúng ta điều chỉnh trọng số hoặc ngưỡng, chúng ta có thể đạt được các kết quả khác nhau từ mô hình. Neural Network có thể đưa ra các quyết định phức tạp tùy thuộc vào đầu ra của các quyết định hoặc tầng trước đó.

neural network là gì — Cơ chế hoạt động của Neural Network

Trong ví dụ trên, chúng ta đã sử dụng Perceptron để minh họa một số phép toán tại đây, nhưng Neural Network tận dụng Sigmoid Neurons, được phân biệt bởi việc có giá trị nằm giữa 0 và 1. Vì Neural Network hoạt động tương tự như Decision Tree, truyền dữ liệu từ node này sang node khác, việc có giá trị x nằm giữa 0 và 1 sẽ giảm tác động của bất kỳ thay đổi nào của một biến đơn lẻ lên đầu ra của bất kỳ node nào, và sau đó là đầu ra của Neural Network.

Khi chúng ta bắt đầu nghĩ về các trường hợp sử dụng thực tế hơn cho Neural Network, như nhận dạng hình ảnh hoặc phân loại, chúng ta sẽ tận dụng Supervised Learning, hoặc các bộ dữ liệu có nhãn, để huấn luyện thuật toán. Khi huấn luyện mô hình, chúng ta sẽ muốn đánh giá độ chính xác của nó bằng hàm chi phí (cost) hoặc mất mát (loss). Điều này cũng thường được gọi là Mean Squared Error (MSE).

Trong đó:

i đại diện cho chỉ số của mẫu,
y-hat là kết quả dự đoán,
y là giá trị thực tế, và
m là số lượng mẫu.

𝐶𝑜𝑠𝑡 𝐹𝑢𝑛𝑐𝑡𝑖𝑜𝑛= 𝑀𝑆𝐸=1/2𝑚 ∑129_(𝑖=1)^𝑚▒(𝑦 ̂^((𝑖) )−𝑦^((𝑖) ) )^2

Cuối cùng, mục tiêu là giảm thiểu hàm chi phí để đảm bảo độ chính xác của việc khớp cho bất kỳ quan sát nào. Khi mô hình điều chỉnh trọng số và độ lệch, nó sử dụng hàm chi phí và Reinforcement Learning để đạt đến điểm hội tụ, hoặc cực tiểu cục bộ. Quá trình thuật toán điều chỉnh trọng số là thông qua Gradient Descent, cho phép mô hình xác định hướng đi để giảm lỗi (hoặc giảm thiểu hàm chi phí). Với mỗi ví dụ huấn luyện, các tham số của mô hình điều chỉnh để dần hội tụ tại mức tối thiểu.

Hầu hết Deep Neural Network là Feedforward, có nghĩa là chúng chỉ chảy theo một hướng, từ đầu vào đến đầu ra. Tuy nhiên, bạn cũng có thể huấn luyện mô hình thông qua Backpropagation; nghĩa là, di chuyển theo hướng ngược lại từ đầu ra đến đầu vào. Backpropagation cho phép chúng ta tính toán và gán lỗi liên quan đến từng neuron, cho phép chúng ta điều chỉnh và khớp các tham số của (các) mô hình một cách thích hợp.

Các loại Neural Network

Neural Network có thể được phân loại thành các loại khác nhau, được sử dụng cho các mục đích khác nhau. Mặc dù đây không phải là danh sách đầy đủ các loại, nhưng dưới đây sẽ đại diện cho các loại Neural Network phổ biến nhất mà bạn sẽ gặp phải trong các trường hợp sử dụng phổ biến:

Perceptron là Neural Network lâu đời nhất, được tạo ra bởi Frank Rosenblatt vào năm 1958.

Neural network machine learning — Perceptron chỉ có 1 input layer và 1 output tại output layer (không có hidden layer)

Feedforward Neural Network, hay Multi-layer Perceptrons (MLPs), là những gì chúng ta đã tập trung chủ yếu trong bài viết này. Chúng bao gồm một tầng đầu vào, một hoặc nhiều tầng ẩn và một tầng đầu ra. Mặc dù những Neural Network này cũng thường được gọi là MLPs, điều quan trọng cần lưu ý là chúng thực sự bao gồm Sigmoid Meurons, không phải Perceptrons, vì hầu hết các vấn đề thực tế đều phi tuyến tính. Dữ liệu thường được đưa vào các mô hình này để huấn luyện chúng, và chúng là nền tảng cho thị giác máy tính (Computer Vision), xử lý ngôn ngữ tự nhiên (Natural Language Processing) và các Neural Network khác.

Mạng thần kinh nhân tạo — Feedforward Neural Network

Convolutional Neural Networks (CNNs) tương tự như Feedforward Networks, nhưng chúng thường được sử dụng cho nhận dạng hình ảnh, nhận dạng mẫu và/hoặc Computer Vision. Các mạng này khai thác các nguyên tắc từ đại số tuyến tính, đặc biệt là phép nhân ma trận, để xác định các mẫu trong hình ảnh.

Recurrent Neural Networks (RNNs) được xác định bởi các vòng phản hồi của chúng. Recurrent Neural Networks sử dụng dữ liệu chuỗi thời gian để đưa ra dự đoán, chẳng hạn như dự đoán kết quả tương lai của thị trường chứng khoán hoặc dự báo doanh số của quý tiếp theo.

Lịch sử phát triển của Neural Networks

Lịch sử của Neural Networks dài hơn nhiều người nghĩ. Mặc dù ý tưởng về “một cỗ máy biết suy nghĩ” có thể được truy nguyên từ Hy Lạp cổ đại, chúng ta sẽ tập trung vào các sự kiện chính dẫn đến sự phát triển của tư duy về Neural Networks, điều đã lên xuống về mức độ phổ biến qua các năm:

1943: Warren S. McCulloch và Walter Pitts đã xuất bản “A logical calculus of the ideas immanent in nervous activity”. Nghiên cứu này tìm cách hiểu cách bộ não con người có thể tạo ra các mẫu phức tạp thông qua các tế bào não được kết nối, hay neurons. Một trong những ý tưởng chính xuất phát từ công việc này là so sánh neurons với ngưỡng nhị phân với Boolean logic (tức là, các câu lệnh 0/1 hoặc đúng/sai).
1958: Frank Rosenblatt được ghi nhận với sự phát triển của perceptron, được ghi lại trong nghiên cứu của ông, “The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain”. Ông đã đưa công việc của McCulloch và Pitt tiến xa hơn một bước bằng cách đưa trọng số vào phương trình. Tận dụng một IBM 704, Rosenblatt đã có thể làm cho máy tính học cách phân biệt các thẻ được đánh dấu ở bên trái so với các thẻ được đánh dấu ở bên phải.
1974: Mặc dù nhiều nhà nghiên cứu đã đóng góp vào ý tưởng về backpropagation, Paul Werbos là người đầu tiên ở Mỹ ghi nhận ứng dụng của nó trong Neural Networks trong luận án tiến sĩ của mình.
1989: Yann LeCun đã xuất bản một bài báo minh họa cách sử dụng các ràng buộc trong backpropagation và tích hợp nó vào kiến trúc Neural Network có thể được sử dụng để huấn luyện thuật toán. Nghiên cứu này đã thành công trong việc tận dụng Neural Network để nhận dạng các chữ số mã bưu chính viết tay được cung cấp bởi Dịch vụ Bưu chính Hoa Kỳ.

Tóm lại, Mạng nơ-ron thần kinh (Neural Network) là một công cụ mạnh mẽ trong việc giải quyết các bài toán phức tạp thông qua mô phỏng hoạt động của bộ não con người. Với cấu trúc phân tầng và khả năng học hỏi từ dữ liệu, Neural Network đã chứng minh sự hiệu quả trong nhiều ứng dụng như nhận dạng hình ảnh, nhận diện giọng nói và dự đoán. Trong tương lai, Neural Networks sẽ tiếp tục đóng góp vào sự phát triển của các mô hình Deep Learning, mở ra những tiềm năng không giới hạn trong khoa học máy tính và trí tuệ nhân tạo.

Bài viết liên quan