Chuyển đến phần nội dung
center-gradient-cover-bg
right-gradient-cover-bg
background gradient desk
Bài viết

NER là gì? Vai trò của Named Entity Recognition trong NLP

Tháng Năm 3, 2025

Chia sẻ với:

NER là gì? Nhận dạng thực thể có tên (Named Entity Recognition – NER) là một thành phần quan trọng trong lĩnh vực Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP), có chức năng xác định và phân loại các thực thể trong văn bản thành các danh mục đã xác định trước như người, tổ chức, địa điểm, thời gian, và nhiều loại khác.

Trong bài viết này, FPT.AI sẽ trình bày chi tiết về NER, từ khái niệm cơ bản, các loại thực thể phổ biến, mối quan hệ giữa NER và NLP, các kỹ thuật và phương pháp luận chính đến quy trình thực hiện, công cụ và thư viện hỗ trợ, ứng dụng thực tế nổi bật, thách thức cũng như xu hướng phát triển trong tương lai. Thông qua bài viết, độc giả sẽ có cái nhìn toàn diện về Named Entity Recognition và tiềm năng ứng dụng của công nghệ này trong việc khai thác giá trị từ dữ liệu ngôn ngữ tự nhiên.

NER là gì?

Nhận dạng thực thể có tên (Named Entity Recognition – NER), còn được gọi là Entity Chunking hoặc Entity Extraction, là một thành phần quan trọng trong lĩnh vực Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP). Mục tiêu chính của NER là xử lý cả dữ liệu có cấu trúc và phi cấu trúc, sau đó xác định và phân loại các thực thể có tên trong văn bản vào các danh mục được xác định trước.

Thuật ngữ “NER” được chính thức đặt ra tại Hội nghị Hiểu biết Thông điệp lần thứ 6 (Message Understanding Conference 6 – MUC-6), với mục đích đơn giản hóa các tác vụ trích xuất thông tin liên quan đến việc xử lý một lượng lớn văn bản phi cấu trúc và xác định thông tin chính. Kể từ đó, NER đã không ngừng mở rộng và phát triển, phần lớn nhờ vào những tiến bộ vượt bậc trong lĩnh vực Machine Learning (học máy) và Deep Learning (học sâu).

ner là gì
NER xử lý cả dữ liệu có cấu trúc và phi cấu trúc, sau đó xác định và phân loại các thực thể có tên trong văn bản vào các danh mục định trước

>>> XEM THÊM: Text mining là gì? So sánh Text mining và Data Mining

Các loại thực thể phổ biến trong Named Entity Recognition là gì?

Về cơ bản, NER là quá trình lấy một chuỗi văn bản (như một câu, đoạn văn hoặc toàn bộ tài liệu), nhận diện và phân loại các thực thể tham chiếu thành các danh mục cụ thể. Các danh mục thực thể phổ biến nhất trong NER bao gồm:

  • Người (PER): Nhận diện danh tính cá nhân, bao gồm tên đầy đủ, tên đệm, tên họ, biệt danh, chức danh và danh hiệu. Ví dụ: Barack Obama, Giáo sư Marie Curie
  • Tổ chức (ORG): Xác định công ty, tập đoàn, cơ quan chính phủ, hiệp hội và các nhóm có tổ chức. Ví dụ: Microsoft, Tổ chức Lương thực và Nông nghiệp Liên Hợp Quốc
  • Vị trí (LOC): Nhận diện các vị trí địa lý như quốc gia, thành phố, tỉnh, địa danh tự nhiên và các điểm tham chiếu không gian. Ví dụ: Paris, Himalaya, Công viên Trung tâm
  • Ngày (DATE): Trích xuất các biểu thức về ngày tháng trong nhiều định dạng và cách diễn đạt khác nhau. Ví dụ: 15 tháng 4 năm 2023, tuần trước
  • Thời gian (TIME): Nhận diện các biểu thức liên quan đến thời điểm cụ thể trong ngày. Ví dụ: 8:30 sáng, giữa trưa
  • Số lượng (QUANTITY): Xác định các giá trị đo lường kèm đơn vị. Ví dụ: 25 kilometer, nửa tá
  • Phần trăm (PERCENT): Nhận diện các biểu thức biểu thị tỷ lệ phần trăm. Ví dụ: 75%, một phần tư
  • Tiền tệ (MONEY): Trích xuất các giá trị tiền tệ và đơn vị tiền. Ví dụ: 1.000 đồng, 5 triệu euro, €50
  • Khác (MISC): Danh mục tổng hợp cho các thực thể không thuộc các loại tiêu chuẩn, thường bao gồm sản phẩm, sự kiện, tác phẩm và hiện tượng. Ví dụ: Thế vận hội Olympic, Galaxy S23
ner là gì
Các loại thực thể phổ biến trong Named Entity Recognition

Một ví dụ về NER trong thực tế: một hệ thống NER sẽ phân tích câu: “Samsung vừa ra mắt điện thoại Galaxy Z Fold 5 tại sự kiện Unpacked hôm qua với giá khởi điểm 1.899 USD” và sẽ nhận diện:

  • “Samsung” được gắn nhãn ORG (Tổ chức) và được tô màu đỏ
  • “Galaxy Z Fold 5” được gắn nhãn MISC (Sản phẩm) và được tô màu hồng
  • “hôm qua” được gắn nhãn DATE và được tô màu tím
  • “Unpacked” được gắn nhãn MISC (Sự kiện) và được tô màu vàng
  • “1.899 USD” được gắn nhãn MONEY và được tô màu xanh lá

Màu sắc này giúp người dùng nhanh chóng nhận biết các loại thực thể khác nhau trong văn bản, đặc biệt hữu ích trong các ứng dụng phân tích văn bản, tìm kiếm thông tin. Các hệ thống NER hiện đại còn có thể nhận diện các thực thể chuyên ngành như mã gene trong sinh học, thuật ngữ pháp lý trong văn bản luật, thậm chí là triệu chứng trong hồ sơ y tế.

ner là gì
Một ví dụ về NER trong thực tế

>> XEM THÊM: Text Preprocessing – Kỹ thuật tiền xử lý văn bản trong NLP (Natural Language Processing)

Mối quan hệ giữa NER và NLP

Nhận dạng thực thể có tên (Named Entity Recognition – NER) đóng vai trò quan trọng trong phần ngữ nghĩa của Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP). Mối quan hệ giữa NER và NLP cụ thể như sau:

Xử lý ngôn ngữ tự nhiên giúp phát triển các máy thông minh có khả năng trích xuất ý nghĩa từ lời nói và văn bản. Trong quá trình này, Machine Learning giúp các hệ thống NLP không ngừng cải thiện khả năng xử lý thông qua việc đào tạo trên các bộ dữ liệu ngôn ngữ tự nhiên lớn. NLP nói chung bao gồm ba lĩnh vực chính:

  • Cú pháp: Tập trung vào việc hiểu cấu trúc và quy tắc của ngôn ngữ, giúp máy tính nắm bắt được cách thức tổ chức các từ trong câu và đoạn văn
  • Ngữ nghĩa: Hướng đến việc tìm ra ý nghĩa của các từ, văn bản và lời nói, xác định các mối quan hệ của chúng trong ngữ cảnh cụ thể
  • Nhận diện giọng nóiTập trung vào việc nhận diện các từ đã nói và chuyển chúng thành văn bản để máy tính có thể xử lý.

Trong ba lĩnh vực này, NER đặc biệt giúp ích trong phần ngữ nghĩa của NLP bằng cách trích xuất ý nghĩa của từ, đồng thời xác định và định vị chúng dựa trên mối quan hệ của chúng trong ngữ cảnh. Khi một hệ thống NLP được tích hợp NER, nó không chỉ hiểu được cấu trúc ngữ pháp của câu mà còn nhận diện được các thực thể quan trọng như tên người, tổ chức, địa điểm và phân loại chúng một cách chính xác.

Ner
NER là một nhánh con đóng vai trò quan trọng trong phần xử lý ngữ nghĩa của Xử lý ngôn ngữ tự nhiên

>>> XEM THÊM: NLU là gì? So sánh hiểu ngôn ngữ tự nhiên NLU vs NLP, NLG

Các kỹ thuật Named Entity Recognition chính

Theo một khảo sát năm 2019, khoảng 64% công ty dựa vào dữ liệu có cấu trúc từ các nguồn nội bộ, nhưng chưa đến 18% tận dụng dữ liệu phi cấu trúc và bình luận trên mạng xã hội để cung cấp thông tin cho quyết định kinh doanh. Các tổ chức sử dụng NER để trích xuất dữ liệu phi cấu trúc dựa trên 5 phương pháp tiếp cận chính:

ner là gì
Các kỹ thuật Named Entity Recognition chính
  • Phương pháp dựa trên từ điển (Dictionary-based): Cách tiếp cận đơn giản nhất, sử dụng bộ từ điển với từ vựng, từ đồng nghĩa và bộ sưu tập từ để so khớp với thực thể trong văn bản thông qua thuật toán so khớp chuỗi. Hạn chế lớn là cần liên tục cập nhật bộ từ vựng để đảm bảo hiệu quả của mô hình.
  • Phương pháp dựa trên quy tắc (Rule-based): Xây dựng tập hợp quy tắc ngữ pháp để xác định thực thể dựa trên đặc điểm cấu trúc. Gồm hai loại chính: quy tắc dựa trên mẫu (tuân theo mẫu hình thái hoặc chuỗi từ) và quy tắc dựa trên ngữ cảnh (phụ thuộc vào ý nghĩa của từ). Phương pháp này chi tiết và chính xác trong trường hợp cụ thể nhưng tốn thời gian xây dựng và khó tổng quát hóa cho dữ liệu mới.
  • Phương pháp dựa trên Machine Learning: Sử dụng mô hình thống kê hoặc huấn luyện một mô hình Machine Learning trên một tập dữ liệu đã được gán nhãn để phát hiện thực thể dựa trên đặc điểm của văn bản. Có thể nhận ra thực thể ngay cả khi có thay đổi nhỏ trong cách viết. Sử dụng từ các thuật toán ML như Conditional Random Fields, Maximum Entropy, Decision Trees và Support Vector Machines. Tổng quát hóa dữ liệu mới tốt hơn nhưng tốn kém do cần nhiều dữ liệu huấn luyện đã gán nhãn.
  • Phương pháp Deep Learning: Tận dụng các kiến trúc như Recurrent Neural Networks (RNNs) và Transformer Models để hiểu sự phụ thuộc văn bản dài hạn. Phù hợp cho nhiệm vụ NER quy mô lớn với dữ liệu phong phú và có thể tự học các mẫu phức tạp từ dữ liệu. Tuy nhiên, đòi hỏi sức mạnh tính toán lớn để huấn luyện và triển khai.
  • Phương pháp lai (Hybrid): Kết hợp nhiều phương pháp khác nhau để tận dụng điểm mạnh và giảm thiểu điểm yếu của từng phương pháp. Ví dụ, sử dụng hệ thống quy tắc cho thực thể dễ nhận biết và Machine Learning cho thực thể phức tạp. Mang lại tính linh hoạt cao, cho phép trích xuất thực thể từ nhiều nguồn dữ liệu khác nhau, nhưng phức tạp hơn và quy trình có thể khó hiểu.

Việc lựa chọn kỹ thuật NER phù hợp phụ thuộc vào loại dữ liệu, quy mô dự án, nguồn lực sẵn có và mức độ chính xác cần thiết. Trong thực tế, các tổ chức thường phối hợp nhiều phương pháp để đạt được hiệu quả tối ưu trong việc trích xuất thông tin từ dữ liệu phi cấu trúc.

Ner
Hybrid NER

>>> XEM THÊM: Gán nhãn dữ liệu là gì? Data Labeling trong học máy và AI

Các phương pháp luận NER phổ biến

Kể từ khi xuất hiện, NER đã có những tiến bộ đáng kể, đặc biệt là những tiến bộ dựa trên kỹ thuật Deep Learning. Hiện tại, các phương pháp luận NER phổ biến bao gồm:

  • Recurrent Neural Networks (RNNs) và Long Short-Term Memory (LSTM): RNNs là một loại mạng nơ-ron được thiết kế cho các vấn đề dự đoán chuỗi. LSTMs, một biến thể của RNN, có thể học cách nhận biết các mẫu theo thời gian và duy trì thông tin trong “bộ nhớ” qua các chuỗi dài. Điều này làm cho chúng đặc biệt hữu ích trong việc hiểu ngữ cảnh và xác định thực thể, vì chúng có thể nhớ thông tin từ các phần trước của văn bản.
  • Conditional Random Fields (CRFs): CRFs thường được sử dụng kết hợp với LSTMs trong các tác vụ NER. Thay vì chỉ mô hình hóa xác suất của các nhãn riêng lẻ, CRFs có thể mô hình hóa xác suất có điều kiện của toàn bộ chuỗi nhãn. Điều này đặc biệt hữu ích cho các tác vụ mà nhãn của một từ phụ thuộc vào nhãn của các từ xung quanh, giúp cải thiện độ chính xác trong việc phân loại thực thể liên tục.
  • Transformers và BERT: Kiến trúc Transformer, đặc biệt là mô hình BERT (Bidirectional Encoder Representations from Transformers), đã tạo ra tác động đáng kể đến lĩnh vực NER. BERT sử dụng cơ chế Self-Attention để đánh trọng số tầm quan trọng của các từ khác nhau trong ngữ cảnh. Điều đặc biệt là BERT tính đến toàn bộ ngữ cảnh của một từ bằng cách xem xét cả các từ đứng trước và sau nó, tạo nên sự hiểu biết hai chiều sâu sắc về ngữ cảnh văn bản.

Mỗi phương pháp luận này đã đánh dấu những cột mốc quan trọng trong việc cải thiện hiệu suất của hệ thống NER, từ khả năng nhận diện các mối quan hệ phức tạp giữa các từ đến việc hiểu sâu hơn về ngữ cảnh. Sự phát triển này không chỉ nâng cao độ chính xác trong việc nhận dạng thực thể mà còn mở rộng phạm vi ứng dụng của NER trong nhiều lĩnh vực khác nhau.

named entity recognition là gì
Deep Learning-based NER

>>> XEM THÊM: Natural Language Generation là gì? 3 lợi ích chính của NLG

Các bước chính trong quy trình NER là gì?

Quá trình NER về cơ bản gồm hai hoạt động song song: Nhận dạng/phát hiện thực thể có tên (xác định một từ hoặc một chuỗi từ trong tài liệu) và Phân loại thực thể có tên (phân loại mỗi thực thể được phát hiện vào các danh mục phù hợp). Quy trình NER đầy đủ thường bao gồm các bước sau:

  • Thu thập dữ liệu: Tổng hợp một tập dữ liệu văn bản đã được chú thích. Tập dữ liệu này nên chứa các ví dụ văn bản với các thực thể có tên đã được gán nhãn hoặc đánh dấu và xác định rõ loại thực thể. Việc chú thích có thể được thực hiện thủ công hoặc thông qua các phương pháp tự động.
  • Tiền xử lý dữ liệu: Sau khi tập dữ liệu được thu thập, văn bản cần được làm sạch và định dạng. Quá trình này có thể bao gồm việc loại bỏ các ký tự không cần thiết, chuẩn hóa văn bản và/hoặc chia văn bản thành các câu hoặc token.
  • Tokenization: Văn bản được chia thành các đơn vị nhỏ hơn gọi là token, có thể bao gồm từ riêng lẻ đến cả câu. Ví dụ: câu “Elon Musk đã thành lập SpaceX vào năm 2002” sẽ được phân thành các token như “Elon”, “Musk”, “đã”, “thành lập”, “SpaceX”, “vào”, “năm”, “2002”.
  • Trích xuất đặc trưng: Các đặc trưng liên quan được trích xuất từ văn bản đã tiền xử lý, bao gồm Part-of-Speech tagging, word embeddings, thông tin ngữ cảnh,…. Việc lựa chọn đặc trưng phụ thuộc vào mô hình NER cụ thể mà tổ chức sử dụng.
  • Huấn luyện mô hình: Huấn luyện một mô hình Machine Learning hoặc Deep Learning trên tập dữ liệu đã chú thích và các đặc trưng đã trích xuất. Mô hình học cách xác định các mẫu, mối quan hệ giữa các từ và nhãn thực thể tương ứng.
  • Phát hiện thực thể: Sử dụng kết hợp nguyên tắc ngôn ngữ và phương pháp thống kê để nhận diện các mẫu hoặc thực thể tiềm năng như viết hoa trong tên hoặc các định dạng đặc biệt (như ngày tháng).
  • Phân loại thực thể: Phân nhóm các thực thể đã phát hiện vào các danh mục. Ví dụ: “Elon Musk” được gắn nhãn là “Người”, “SpaceX” được gắn nhãn là “Tổ chức”, và “2002” được gắn nhãn là “Thời gian”. Các mô hình Machine Learning được huấn luyện trên tập dữ liệu gán nhãn thường thực hiện việc phân loại này.
  • Phân tích ngữ cảnh xung quanh: Xem xét môi trường ngôn ngữ bao quanh thực thể để tăng độ chính xác trong việc xác định. Ví dụ: trong câu “Tesla báo cáo doanh thu quý 2”, ngữ cảnh giúp nhận diện “Tesla” là một tổ chức chứ không phải là họ của nhà khoa học Nikola Tesla.
  • Đánh giá mô hình: Đánh giá độ chính xác trong việc nhận diện và phân loại thực thể của mô hình NER thông quá các chỉ số như Precision (độ chính xác), Recall (độ bao phủ) và F1 Score (điểm mạnh và điểm yếu).
  • Tinh chỉnh mô hình: Tinh chỉnh các thông số và cấu trúc mô hình dựa trên kết quả đánh giá để nâng cao hiệu suất tổng thể của hệ thống. Quá trình này có thể bao gồm điều chỉnh hyperparameters, sửa đổi dữ liệu huấn luyện và/hoặc áp dụng các kỹ thuật tiên tiến như ensembling hoặc domain adaptation.
  • Áp dụng vào dữ liệu mới: Triển khai mô hình đã hoàn thiện để phân tích các văn bản chưa từng gặp, áp dụng toàn bộ quy trình từ tiền xử lý đến dự đoán nhãn.
  • Hoàn thiện kết quả sau phân tích: Tinh chỉnh và nâng cao chất lượng đầu ra thông qua việc kết nối thực thể với các nguồn tri thức bên ngoài, giải quyết những điểm mơ hồ và tích hợp thông tin bổ sung.
named entity recognition là gì
Các bước chính trong quy trình NER

>>> XEM THÊM: Text Generation là gì?

Các công cụ và thư viện hỗ trợ quá trình triển khai NER

Cách dễ nhất để triển khai hệ thống Named Entity Recognition là dựa vào một giao diện lập trình ứng dụng (API). NER API là các giao diện web hoặc cục bộ cung cấp quyền truy cập vào các chức năng NER. Một số ví dụ phổ biến về NER API là:

SpaCy

Được viết bằng Python và nổi tiếng với tốc độ và giao diện thân thiện với người dùng, SpaCy là một thư viện phần mềm mã nguồn mở cho các tác vụ NLP nâng cao. Thư viện này được xây dựng dựa trên nghiên cứu mới nhất và được thiết kế để sử dụng với các sản phẩm thực tế. SpaCy cũng có một hệ thống thống kê nâng cao cho phép người dùng xây dựng các bộ trích xuất NER tùy chỉnh.

Điểm mạnh của SpaCy bao gồm hiệu suất xuất sắc, dễ sử dụng và có sẵn các mô hình được đào tạo trước. Tuy nhiên nó có hỗ trợ hạn chế cho các ngôn ngữ khác ngoài tiếng Anh.

named entity recognition là gì
Giao diện sử dụng của SpaCy

Natural Language Toolkit (NLTK)

NLTK là nền tảng mã nguồn mở hàng đầu để xây dựng các chương trình Python làm việc với dữ liệu ngôn ngữ tự nhiên. NLTK cung cấp giao diện dễ sử dụng cho hơn 100 mô hình trích xuất đã được huấn luyện sẵn. Thư viện này bao gồm các công cụ xử lý văn bản toàn diện để phân loại, Tokenization, Stemming, Tagging, Parsing (phân tích cú pháp) và suy luận ngữ nghĩa.

NLTK có bộ phân loại riêng để nhận dạng các thực thể có tên gọi là ne_chunk, đồng thời cung cấp một wrapper để sử dụng Stanford NER Tagger trong Python. Điểm mạnh của NLTK là tính toàn diện của chức năng và sự phù hợp cho mục đích giáo dục. Tuy nhiên nó có thể chậm hơn so với SpaCy.

named entity recognition
Các công cụ và thư viện hỗ trợ quá trình triển khai NER

>>> XEM THÊM: Chatbot trong giáo dục – “Giảng viên ảo” hữu ích cho học sinh

Stanford Named Entity Recognizer

Được phát triển bởi Đại học Stanford, Stanford NER là một bộ công cụ NLP dựa trên Java được công nhận rộng rãi như thư viện trích xuất thực thể tiêu chuẩn. Stanford NER dựa trên mô hình Conditional Random Fields (CRF), cung cấp các mô hình đã được huấn luyện trước để trích xuất các thực thể có tên. Công cụ này có độ chính xác cao và hỗ trợ nhiều ngôn ngữ nhưng yêu cầu nhiều tài nguyên tính toán hơn so với một số giải pháp khác.

OpenNLP

Là bộ công cụ dựa trên Machine Learning dành cho Xử lý ngôn ngữ tự nhiên, OpenNLP cung cấp các giải pháp NER linh hoạt và có thể tùy chỉnh. Công cụ này hỗ trợ nhiều ngôn ngữ và cho phép người dùng điều chỉnh theo nhu cầu cụ thể. Tuy nhiên, OpenNLP có thể phức tạp hơn trong quá trình thiết lập ban đầu so với các giải pháp khác.

named entity recognition
Giao diện của OpenNLP

Stanford CoreNLP

Đây là bộ công cụ NLP dựa trên Java cung cấp giải pháp NER với độ chính xác cao. CoreNLP nổi bật với khả năng hỗ trợ đa ngôn ngữ và độ tin cậy cao trong các ứng dụng học thuật và thương mại. Tuy nhiên, giống như Stanford NER, CoreNLP đòi hỏi nhiều tài nguyên tính toán hơn so với một số giải pháp thay thế.

named entity recognition
Stanford CoreNLP

>>> XEM THÊM: Fine-tuning là gì? So sánh Fine-tuning vs Transfer Learning

Ứng dụng nổi bật của Named Entity Recognition là gì?

Khi các công nghệ tiếp tục phát triển, các hệ thống NER sẽ trở nên phổ biến hơn, giúp các tổ chức hiểu rõ dữ liệu mà họ gặp phải hàng ngày. Cho đến nay, Named Entity Recognition đã được ứng dụng rộng rãi trong nhiều lĩnh vực, từ chăm sóc sức khỏe và tài chính đến dịch vụ khách hàng và an ninh mạng.

Những ứng dụng nổi bật nhất của NER trong thực tế bao gồm:

  • Trích xuất thông tin: Named Entity Recognition là nền tảng cho việc trích xuất thông tin có cấu trúc hữu ích từ các cơ sở dữ liệu lớn, phi cấu trúc. Các công cụ tìm kiếm như Google và Bing sử dụng NER để xác định thực thể trong các web và truy vấn tìm kiếm, cải thiện sự liên quan và chính xác của kết quả tìm kiếm.
  • Tổng hợp tin tức tự động: Các trang tổng hợp tin tức sử dụng NER để quét, xác định từ khóa ưu tiên, trích xuất thông tin dựa trên người, tổ chức, vị trí và phân nhóm các bài báo, câu chuyện, tin tức để cung cấp cái nhìn toàn diện hơn về các sự kiện cụ thể. Nhờ đó, tổ chức có thể trình bày tin tức hiệu quả còn độc giả thì dễ xác định xu hướng và hiểu các chủ đề.
  • Giám sát mạng xã hội: NER phân tích lượng dữ liệu khổng lồ, xác định thực thể chính trong bài đăng và bình luận để giúp tổ chức phân tích cảm xúc, hiểu xu hướng và ý kiến công chúng, phát triển chiến lược tiếp thị, soạn thảo phản hồi dịch vụ khách hàng và đẩy nhanh nỗ lực phát triển sản phẩm. Ví dụ, một hãng hàng không có thể sử dụng NER để phân tích các tweet nhắc đến thương hiệu, phát hiện bình luận tiêu cực về “hành lý thất lạc” tại một sân bay cụ thể để nhanh chóng giải quyết vấn đề.
  • Chatbot và trợ lý ảo: Trợ lý ảo và AI chatbot sử dụng Named Entity Recognition để hiểu chính xác yêu cầu của người dùng để cung cấp phản hồi chính xác, cụ thể theo ngữ cảnh. Ví dụ, khi nhận truy vấn “Tìm nhà hàng Soul Food gần Công viên Piedmont”, NER giúp trợ lý ảo hiểu “Soul Food” là loại ẩm thực, “nhà hàng” là loại cơ sở, và “Công viên Piedmont” là vị trí địa lý.
  • An ninh mạng: NER hỗ trợ doanh nghiệp xác định mối đe dọa tiềm ẩn và bất thường trong nhật ký mạng và dữ liệu liên quan đến bảo mật. Hệ thống có thể nhận diện địa chỉ IP, URL, tên người dùng và tên tệp đáng ngờ, tạo điều kiện cho việc điều tra sự cố bảo mật kỹ lưỡng và cải thiện an ninh mạng tổng thể.
  • Báo chí điều tra: Hiệp hội các nhà báo điều tra quốc tế (ICIJ) đã sử dụng NER để phân tích Hồ sơ Panama. NER tự động xác định người, tổ chức và địa điểm trong hàng triệu tài liệu phi cấu trúc, giúp phát hiện các mạng lưới trốn thuế ở nước ngoài.
  • Tin sinh học: Named Entity Recognition được ứng dụng để trích xuất gen, protein, thuốc và bệnh từ các bài báo nghiên cứu y sinh và báo cáo thử nghiệm lâm sàng, góp phần đẩy nhanh quá trình khám phá thuốc.
  • Quảng cáo theo ngữ cảnh: NER trích xuất thực thể chính từ trang web để hiển thị quảng cáo phù hợp với nội dung, cải thiện CTR. Ví dụ, nếu phát hiện “Hawaii”, “bãi biển” và “khách sạn” trên một blog du lịch, hệ thống NER sẽ hiển thị ưu đãi cho khu nghỉ dưỡng ở Hawaii thay vì các chuỗi khách sạn chung chung.
  • Tuyển dụng và sàng lọc hồ sơ: NER giúp nhóm Nhân sự cải thiện quy trình tuyển dụng bằng cách tóm tắt nhanh chóng hồ sơ ứng viên. Công cụ có thể quét sơ yếu lý lịch và trích xuất thông tin quan trọng như tên, tuổi, địa chỉ, trình độ chuyên môn, trường đại học,..
  • Chăm sóc sức khỏe: NER hỗ trợ trích xuất dữ liệu bệnh nhân từ hồ sơ sức khỏe điện tử (EHR), giúp các chuyên gia y tế nhanh chóng tiếp cận thông tin quan trọng trong quá trình chẩn đoán và điều trị.
  • Hỗ trợ khách hàng: Hệ thống NER phát hiện khiếu nại, truy vấn và phản hồi của khách hàng dựa trên thông tin như tên sản phẩm, thông số kỹ thuật hoặc địa điểm chi nhánh. Khiếu nại được phân loại và chuyển đến đúng bộ phận thông qua việc lọc từ khóa ưu tiên, tăng tốc thời gian phản hồi.
  • Công cụ khuyến nghị: Netflix sử dụng Named Entity Recognition để cá nhân hóa đề xuất dựa trên phân tích lịch sử tìm kiếm và xem của người dùng.
  • Phân tích tình cảm (Sentiment Analysis): NER trích xuất các đề cập về thương hiệu từ đánh giá và bình luận, thúc đẩy các công cụ phân tích tình cảm giúp doanh nghiệp hiểu rõ cảm nhận của khách hàng về sản phẩm và dịch vụ.
ner là gì
Ứng dụng nổi bật của Named Entity Recognition

>>> XEM THÊM: Cách tạo chatbot đa kênh dễ dàng, thuận tiện

Thách thức khi sử dụng NER là gì?

Có một số thách thức đáng chú ý cần xem xét khi đánh giá công nghệ NER:

  • Rào cản ngôn ngữ: NER đã đạt được nhiều tiến bộ cho các ngôn ngữ phổ biến như tiếng Anh nhưng không có cùng mức độ chính xác cho nhiều ngôn ngữ khác do thiếu dữ liệu được gán nhãn. NER đa ngôn ngữ, liên quan đến việc chuyển giao kiến thức từ một ngôn ngữ sang ngôn ngữ khác, là một lĩnh vực nghiên cứu tích cực nhằm thu hẹp khoảng cách ngôn ngữ của NER.
  • Thực thể lồng nhau: Các thực thể đôi khi được lồng trong nhau, và việc nhận dạng chúng có thể rất phức tạp. Ví dụ: trong câu “The Pennsylvania State University, University Park was established in 1855,” cả “Pennsylvania State University” và “The Pennsylvania State University, University Park” đều là thực thể hợp lệ.
  • Thực thể chuyên ngành: Mô hình NER tổng quát có thể xác định thực thể phổ biến như tên người và địa điểm, nhưng thường gặp khó khăn với thực thể đặc thù cho lĩnh vực cụ thể. Ví dụ, trong y tế, việc nhận diện thuật ngữ phức tạp như tên bệnh hoặc thuốc đòi hỏi mô hình chuyên biệt. Việc thu thập dữ liệu huấn luyện cho những lĩnh vực này thường là một thách thức lớn.
  • Tính mơ hồ trong nhận dạng: Các mô hình NER gặp khó khăn trong việc phân loại thực thể có tính đa nghĩa hoặc phạm trừ mang tính trực giác. Ví dụ: “Apple” có thể đề cập đến một loại trái cây hoặc công ty công nghệ, “Manchester City” có thể là câu lạc bộ bóng đá (tổ chức) hoặc là tên thành phố (địa điểm) tùy thuộc vào ngữ cảnh.”USA,” “U.S.A.,” “United States” và “United States of America” đều đề cập đến cùng một quốc gia. Ngoài ra, văn bản hoặc câu đôi khi không chứa đủ ngữ cảnh để xác định và phân loại thực thể một cách chính xác.
ner là gì
Thách thức khi sử dụng NER

>>> XEM THÊM: Machine Translation là gì? 6 Ứng dụng dịch máy hàng đầu

Tương lai của NER

Nhìn về tương lai, học không giám sát (Unsupervised Learning) đang nổi lên như một giải pháp đầy tiềm năng cho NER. Khác với các kỹ thuật học có giám sát (Supervised Learning) đòi hỏi lượng lớn dữ liệu được gán nhãn – vốn khó khăn và tốn kém để thu thập – phương pháp học không giám sát có thể hoạt động với dữ liệu chưa được gán nhãn. Điều này giúp tổ chức vượt qua rào cản về tính khả dụng của dữ liệu, đặc biệt trong các lĩnh vực chuyên biệt hoặc ngôn ngữ ít phổ biến.

Một hướng thú vị khác là tích hợp NER với các tác vụ NLP khác. Ví dụ, các mô hình kết hợp cho NER và entity linking (liên kết các thực thể với các mục tương ứng trong cơ sở kiến thức) hoặc NER và giải quyết đồng tham chiếu (Coreference Resolution – xác định khi nào hai hoặc nhiều biểu thức trong một văn bản đề cập đến cùng một thực thể) có thể cho phép các hệ thống hiểu và xử lý văn bản tốt hơn.

Few-shot Learning và Multimodal NER cũng mở rộng khả năng của Named Entity Recognition. Với Few-shot Learning, các mô hình được huấn luyện để thực hiện các tác vụ chỉ với một vài ví dụ, điều này có thể đặc biệt hữu ích khi dữ liệu được gán nhãn khan hiếm. Trong khi đó, Multimodal NER kết hợp xử lý văn bản với các loại dữ liệu khác như hình ảnh hoặc âm thanh, tạo ra ngữ cảnh bổ sung giúp cải thiện độ chính xác trong việc nhận dạng thực thể.

nlp ner
Multimodal NER

Tóm lại, Named Entity Recognition (NER) đóng vai trò thiết yếu trong việc chuyển đổi dữ liệu phi cấu trúc thành thông tin có cấu trúc, mang lại giá trị to lớn cho các tổ chức trong kỷ nguyên dữ liệu số. Sự xuất hiện của các phương pháp học không giám sát, few-shot learning và NER đa phương thức hứa hẹn sẽ mở rộng khả năng của công nghệ này, giúp các hệ thống xử lý ngôn ngữ tự nhiên ngày càng tiến gần hơn đến khả năng hiểu ngôn ngữ của con người.

>>> XEM THÊM:

Bài viết liên quan

Cập nhật mọi tin tức mới nhất về công nghệ AI

Đăng ký nhận bản tin của FPT.AI để được phủ sóng mọi xu hướng công nghệ, câu chuyện thành công và phân tích của chuyên gia.