Full text search with lucene (search word, ecxel, pdf and more)!

Posted on August 30, 2006

3


Hai hôm nay phải viết full text search để hỗ trợ cho các loại định dạng file khác nhau. Lúc đầu đối với mỗi loại định dạng file mình lại phải đi tìm open source library để đọc và tạo chỉ mục thủ công. Mãi đến buổi chiều mới tìm được cái thằng LIUS này, nó làm gần hết những công việc mình đang cần, chỉ còn phải chỉnh lại một ít cấu hình và code của cái ví dụ cũ.

http://www.bibl.ulaval.ca/lius/index.en.html 

“LIUS – Lucene Index Update and Search

LIUS is an indexing Java framework based on the Jakarta Lucene project. The LIUS framework adds to Lucene many files format indexing fonctionalities as: Ms Word, Ms Excel, Ms PowerPoint, RTF, PDF, XML, HTML, TXT, Open Office suite and JavaBeans.

Indexing JavaBeans can be really useful when we want to index databases and more precisely when the user is programming the persistence layer (or the database connexion) while using ORM (Object Relational Mapping) like Hibernate, JDO, Torque, TopLink, etc.

LIUS also makes it possible to carry out a mixed indexing, (indexing) which the purpose is to integrate all the contents of a repertory (directory) under the same occurrence. This is very useful when the user want to index XML metadata, PDF plain text or in an other format. What makes it possible thereafter, for example, to carry out research on the title, author and the plain text at the same time.

LIUS is very easy to use; all the configuration of the indexing (types of files to be indexed, fields, etc…) as well as research is defined in a XML file, so the user only have to write few lines of code to carry out the indexing or research.

LIUS has been developed from a range of Java technologies and full open source applications.”