Tạp chí Khoa học Nông nghiệp Việt Nam, S. 6 (2015)

Cỡ chữ:  Nhỏ  Vừa  Lớn

CÔNG CỤ X.ENT CHO TRÍCH XUẤT DỮ LIỆU THỰC THỂ, QUAN HỆ GIỮA THỰC THỂ VÀ HỖ TRỢ PHÂN TÍCH DỮ LIỆU TRONG CÁC TẠP CHÍ VỀ PHÒNG CHỐNG DỊCH BỆNH TRONG NÔNG NGHIỆP CỦA PHÁP

Phan Trọng Tiến, Ngô Công Thắng

Tóm tắt


     Trích xuất thực thể là công việc trích xuất thông tin và phân loại thông tin trong văn bản theo những loại xác định trước như tên người, tổ chức, địa điểm, thời gian,… và một bước cao hơn là tìm mỗi quan hệ giữa các thực thể ví dụ như mỗi quan hệ giữa tên người với tên tổ chức. Công cụ x.ent được xây dựng để làm công việc như vậy, công cụ sử dụng các từ điển cho thực thể và các luật để trích xuất. Trong trích xuất quan hệ giữa các thực thể chúng tôi áp dụng hai phương pháp: phân tích cấu trúc của văn bản và sử dụng mô hình học không giám sát đó là phân tích tần suất xuất hiện của các thực thể. Công cụ x.ent có sẵn trên trang chủ R theo đường dẫn: http: //cran.r -project.org/web/packages/x.ent/index.html.

 


Toàn văn: PDF

Tạp chí Khoa học Nông nghiệp Việt Nam, ISSN: 1859-0004