IPS là Mục đích và chức năng của hệ thống truy xuất thông tin
IPS là Mục đích và chức năng của hệ thống truy xuất thông tin

Video: IPS là Mục đích và chức năng của hệ thống truy xuất thông tin

Video: IPS là Mục đích và chức năng của hệ thống truy xuất thông tin
Video: Kirovets-1: Nguyên mẫu đầu tiên của IS-3 | World of Tanks 2024, Tháng tư
Anonim

Người hiện đại khó có thể hình dung cuộc sống không có Internet và khả năng tiếp cận các nguồn thông tin gần như tức thời. Người dùng hiếm khi nghĩ về cách thực hiện tìm kiếm nội dung mong muốn trên mạng. Nhưng điều này rất thú vị.

Hệ thống truy xuất thông tin (IPS) là một hệ thống phần mềm và phần cứng phức tạp, chọn lọc thông tin theo yêu cầu của người dùng. Thông tin được lưu trữ trên máy chủ dưới dạng kỹ thuật số, như những cuốn sách từng nằm trên kệ của các thư viện. Hệ thống bao gồm nhiều hệ thống con. Mỗi người thực hiện nhiệm vụ của mình trong quá trình xử lý yêu cầu của người dùng và cung cấp cho anh ta thông tin ở dạng văn bản hoặc âm thanh. Tính đa dạng của các nhiệm vụ cần giải quyết xác định mức độ phức tạp của kiến trúc hệ thống truy xuất thông tin hiện đại (viết tắt của hệ thống truy xuất thông tin). Một loại "hộp đen": ở đầu vào - văn bản của yêu cầu, nội dung bên trong - không xác định, ở đầu ra - thông tin toàn diện.

Tệp thẻ trong cuộc sống thực
Tệp thẻ trong cuộc sống thực

Luồng đầu vào

Yêu cầu thông tin mà một người tạo ở dạng văn bản trên màn hình của thiết bị của mình,tạo thành một phần nhỏ các yêu cầu được xử lý bởi công cụ tìm kiếm. Các mảng truy vấn tìm kiếm chính được hình thành bởi các rô bốt chấp nhận yêu cầu của con người và thực hiện tìm kiếm nhiều bước và phản hồi với người dùng. Hệ thống truy xuất thông tin bao gồm Google, Yandex nổi tiếng và những hệ thống khác, xử lý hàng triệu yêu cầu mỗi ngày.

Đối tượng tìm kiếm nguồn

Tập hợp các đối tượng ban đầu được quan tâm để tìm kiếm là tài liệu, hồ sơ, video, hình ảnh và hơn thế nữa. Chúng được tạo ra bên ngoài IPS. Hệ thống lưu trữ và truy xuất thông tin chung phải có hệ thống thư mục tích hợp - một loại danh mục cho phép bạn tìm kiếm bất kỳ loại đối tượng nào.

Các đối tượng hoặc các phép biến đổi kỹ thuật số của chúng trở thành một "tài nguyên đầu vào" vào IPS. Trong số đó, thông tin người dùng cần được chọn.

Tìm kiếm thông tin
Tìm kiếm thông tin

Nguồn bên ngoài

Chế độ xem lựa chọn thông tin sử dụng các nguồn kiến thức bên ngoài. Đây là thông tin mà người dùng đang tìm kiếm. Tên phim, trích dẫn từ sách, v.v. Đối với tìm kiếm trên máy tính, thông tin này phải được dịch thành một truy vấn bằng ngôn ngữ thuật toán. Trong IPS, điều này được thực hiện bằng cách sử dụng khối để tạo, lập chỉ mục và phát triển các truy vấn.

Lý tưởng nhất là ba quy trình này - biểu diễn, lập chỉ mục và phát triển truy vấn - nên dựa trên các nguồn kiến thức giống hệt nhau, nhưng trên thực tế, điều này không thể đạt được.

Các nguồn kiến thức cần được xem xét và cập nhật liên tục, bản cập nhật phải giống hệt nhau vàđồng bộ hóa. Và nguồn kiến thức bên ngoài luôn đi trước theo thứ tự thời gian để sử dụng nó trong các công cụ tìm kiếm cho một truy vấn, đôi khi vài năm.

Hệ thống truy xuất thông tin
Hệ thống truy xuất thông tin

Biểu diễn

Biểu diễn của các đối tượng ban đầu được tạo thành từ dữ liệu đầu vào trong một số kết hợp hoặc được chuyển đổi theo các quy tắc và thuật toán của một hệ thống truy xuất thông tin cụ thể.

Chế độ xem là bản sao được biến đổi ít nhiều của đối tượng tìm kiếm ban đầu. Trong bộ sưu tập các văn bản đầy đủ chưa chỉnh sửa, mỗi văn bản là một đại diện của chính nó. Trong bộ sưu tập các đối tượng của các cuộc triển lãm và hiện vật của bảo tàng, sự thể hiện có thể là một mô tả chuyển đổi của đối tượng bằng hình ảnh của nó. Trong một số trường hợp, phần trình bày có thể bắt nguồn một phần từ đối tượng gốc và một phần từ mô tả: trong các công cụ tìm kiếm thư mục, phần trình bày có nguồn gốc từ đối tượng - ví dụ: tiêu đề, tên tác giả sẽ được kết hợp với chú thích của tác phẩm.

Tìm những gì bạn cần
Tìm những gì bạn cần

Chỉ mục có thể tìm kiếm

Vì thông tin trong các hệ thống truy xuất thông tin được lưu trữ dưới dạng biểu diễn, nên hợp lý khi giả định rằng việc tìm kiếm được thực hiện theo biểu diễn và sau khi lựa chọn, sẽ được cung cấp cho người dùng. Trong thực tế, đây không phải là trường hợp. Ví dụ, danh mục thư viện trực tuyến hiện tại thường hạn chế tìm kiếm trong một số trường: tác giả, tiêu đề và phụ đề trong một dạng xem có chứa các trường khác không được tìm kiếm. Đây là lý do đầy đủ tại sao cần phải phân biệtmột chế độ xem và một chỉ mục có thể tìm kiếm, là phần tìm kiếm của chế độ xem. Nó xác định mọi thứ có thể tìm kiếm được. Chỉ mục có thể tìm kiếm, như chế độ xem và đối tượng nguồn, có thể được chia thành các chỉ mục phụ riêng biệt để cung cấp các tìm kiếm được nhắm mục tiêu, chính xác hơn

Công cụ tìm kiếm thường có cấu trúc tổng hợp bên trong để đối sánh các kết quả tìm kiếm hợp lệ. Cấu trúc này là thành phần thứ hai của chỉ mục có thể tìm kiếm.

Về mặt thủ tục, quá trình lập chỉ mục có thể được thực hiện theo nhiều cách khác nhau: một chỉ mục có thể tìm kiếm có thể được lấy bằng:

  • sao chép theo nghĩa đen một biểu diễn có thể tìm kiếm được;
  • bằng cách sao chép chi tiết chế độ xem. Đây có thể là một phần hoặc tất cả các chế độ xem thực tế chỉ tồn tại dưới dạng các đoạn, được phân phối theo các quy tắc tạo chỉ mục cho tìm kiếm, sẽ được thu thập khi cần thiết.
Quản lý tìm kiếm
Quản lý tìm kiếm

Yêu cầu Quy tắc thiết kế và Yêu cầu chính thức

Kỹ thuật truy vấn là một chức năng làm trung gian giữa truy vấn của người dùng và truy vấn chính thức. Nó biến đổi truy vấn của người dùng, khớp nó với từ điển lệnh truy xuất, đặc tả chỉ mục và chỉ mục trước khi truy xuất. Vào buổi bình minh của sự phát triển của IPS, vai trò này theo truyền thống được giao cho các chuyên gia CNTT có trình độ.

Phát triển các truy vấn máy tính có thể khớp các truy vấn từ điển thành một hệ thống chỉ mục có thể tìm kiếm thường được gọi là mô-đun "đầu vào từ điển". Việc tự động hóa chức năng này đầy hứa hẹn và mang lại cơ hội cho các phương pháp tìm kiếm chuyên gia và xác suất.

Một yêu cầu chính thức trở thành một yêu cầu chính thức sau khi yêu cầu của người dùng đã được chuyển đổi. Ví dụ về các phép biến đổi chính thức như vậy bao gồm cắt ngắn, thay thế, chuẩn hóa, vectơ hóa và các phép biến đổi khác của biểu diễn "bên ngoài" thành biểu diễn "bên trong" của IPS máy tính (giải mã - hệ thống truy xuất thông tin).

Bộ liên kết tài liệu đã trích xuất

Tập hợp nguồn thông tin kết quả về mặt logic là một tập hợp con của các chế độ xem được tạo bởi các quy tắc đối sánh được áp dụng cho truy vấn chính thức bởi một chỉ mục có thể tìm kiếm được.

Thông thường, nhưng không nhất thiết, có một quy trình sắp xếp riêng cho tập thông tin đã khôi phục. Danh mục thư viện trực tuyến thường sắp xếp lại các bộ đã nhận theo thứ tự bảng chữ cái của tác giả trước khi hiển thị. Trong các hệ thống truy xuất thông tin tạo ra thứ hạng nghiêm ngặt, thứ tự xếp hạng đứng trước bất kỳ sự sắp xếp lại nào.

Phân tích dữ liệu
Phân tích dữ liệu

Luồng đầu ra

Việc xuất kết quả tìm kiếm được thực hiện theo cách truyền thống trên màn hình, thường ở dạng một luồng đối tượng sẽ được sử dụng ở nơi khác hoặc cho một số mục đích khác, hoàn thành vòng lặp tìm kiếm chính. Các luồng như vậy có thể được gửi đến thiết bị trực quan, lưu trữ để xử lý thêm hoặc sử dụng làm luồng đầu vào cho các dịch vụ lựa chọn khác.

Hệ thống truy xuất thông tin cho phép phản hồi từđầu ra của bất kỳ quá trình lựa chọn nào. Đầu ra của bất kỳ quá trình nào có thể là phản hồi cho các quá trình khác. Phản hồi có thể cung cấp cơ sở cho đánh giá của chuyên gia ở bất kỳ giai đoạn nào.

Đề xuất: