Bản tin Số 2

Công nghệ Thông tin

Web Curator Tool - Một ứng dụng nguồn mở cho Thư viện số

Nguồn thông tin trên Internet ngày càng phong phú và đa dạng về hình thức lẫn nội dung. Đây là nguồn tài nguyên vô tận chưa được khai thác hết. Tuy nhiên, tính bất ổn định và năng động của môi trường Web trở thành một thách thức đối với các cán bộ quản lý thông tin- thư viện trong tiến trình khai thác tài nguyên web. Nhằm hỗ trợ việc tìm kiếm và lưu trữ các nguồn thông tin trực tuyến có giá trị, Thư viện Quốc gia New Zealand (National Library of New Zealand) và Thư viện Anh (Bristish Library) đã hợp tác cho ra đời và đưa vào sử dụng Web Curator Tool (WCT) – tạm dịch là Công cụ thu thập Web chọn lọc. Đây là một công cụ mã nguồn mở dùng để quản lý tiến trình thu thập có chọn lọc các tài liệu Web nhằm bổ sung vào kho tài liệu số.

WCT là một ứng dụng web (web application) được lập trình trên ngôn ngữ Java. Để cài đặt và vận hành WCT cần một máy chủ (server) có các phần mềm sau:

- Môi trường vận hành Java (Java Runtime Environment) phiên bản 1.5 (hoặc mới hơn);

- Apache Tomcat (web server) phiên bản 5.5.X (hoặc mới hơn);

- Một trong các phần mềm quản trị cơ sở dữ liệu: Oracle 10g, Postgresql 8.1 hoặc MySQL 5.0.

WCT đã được thử nghiệm với hệ điều hành Solaris (Phiên bản 9.0), Red Hat Linux và Windows 2000. Sau khi hoàn tất việc cài đặt (cần có cán bộ Công nghệ Thông tin phụ trách), người dùng sẽ làm việc với một giao diện web chạy được trên các trình duyệt thông dụng như Microsoft Internet Explorer Mozilla Firefox. WCT sử dụng công cụ thu thập Web Heritrix nên cho phép tải về tất cả các tài liệu dùng giao thức http, https, ftp như các trang web, hình ảnh, file audio, video hoặc các file Word, PDF đã được tạo liên kết.

WCT cho phép thực hiện các chức năng sau:

- Liên hệ với tác giả (người chịu trách nhiệm) của các trang web để được quyền thu thập thông tin từ các trang đó và cung cấp lại thông tin cho người sử dụng;

- Xác định phạm vi, lựa chọn thông tin cần thu thập và lập lịch trình lấy thông tin;

- Mô tả tài liệu thu thập được theo siêu dữ liệu Dublin Core;

- Thu thập tài liệu với công cụ thu thập web Heritrix theo lịch trình đã được thiết lập;

- Đảm bảo chất lượng tài liệu thu thập được đáp ứng mục tiêu đã đề ra trong quá trình xây dựng bộ sưu tập số;

- Nhập tài liệu thu thập được vào kho lưu trữ số.

Với những chức năng trên, WCT là một công cụ hỗ trợ đắc lực cho tiến trình xây dựng các bộ sưu tập số của các thư viện hoặc cơ quan lưu trữ. Tuy nhiên, để cài đặt thành công WCT cần phải có sự phối hợp chặt chẽ giữa cán bộ chuyên ngành Công nghệ Thông tin và cán bộ thư viện. Sau khi cài đặt, cán bộ thư viện hoàn toàn có thể sử dụng công cụ này bởi WCT vốn được thiết kế dành cho người dùng không có kiến thức Công nghệ Thông tin chuyên sâu. WCT chỉ cần được cài đặt một lần trên máy chủ, các cán bộ thư viện sẽ làm việc với công cụ này thông qua giao diện web, do vậy có thể sử dụng công cụ này với bất kỳ trình duyệt web nào mà không cần phải cài đặt ở máy tính cá nhân. WCT tỏ ra là một công cụ tiện dụng đối với cán bộ thông tin-thư viện và góp phần nâng cao hiệu quả tiến trình thu thập và bảo quản tài liệu số. Phiên bản mới nhất - WCT 1.4.1 - có thể tải miễn phí tại địa chỉ http://webcurator.sourceforge.net/.

Tài liệu tham khảo

Paynter, G., Joe, S. Lala, V. & Lee, G. (2008). A Year of Selective Web Archiving with the Web Curator at the National Library of New Zealand. D-Lib Magazine, 14(5/6). Truy cập từ http://www.dlib.org/dlib/may08/paynter/05paynter.html, ngày 02/07/2009.

Web Curator Tool – Quick start guide. (2006). Truy cập ngày 02/07/2009, từ http://webcurator.sourceforge.net/docs/1.1/wct-1.1-quick-start-guide.pdf.

Web Curator Tool – System administrator guide. (2008). Truy cập ngày 02/07/2009, từ http://webcurator.sourceforge.net/docs/1.2/wct-1.2.7-system-administrator-guide.pdf.

Web Curator Tool – User manual version 1.4.1. (2009). Truy cập ngày 02/07/2009, từ http://webcurator.sourceforge.net/docs/1.4.1/wct-1.4.1-manual.pdf.


Thực hiện: Tôn Nữ Phương Mai

 

Về đầu trang

Website templatesBusiness directory UKYellow pages USWebsite design companyWeb design directoryWeb design directory AustraliaWeb design directory CanadaFree sports web templates