|
La première phase du projet consiste à mettre en place un moteur de recherche rapide et robuste de fichiers PDF / Word.
Pas de crawler, la base de ce moteur de recherche est la constitution d'une base de données communautaire.
Les fichiers PDF / Word passent ensuite dans des "moulinettes" (convertion au format image, html) pour être ensuite indexé pour permettre une recherche efficace.
Pourquoi ne pas avoir choisi d'utiliser une API quelconque (Google, Yahoo, ...) ?
Tout simplement parce que nous souhaitions avoir une grande souplesse sur les conversions, sur l'algorithme de classement des documents ainsi que la présentation des listes de résultat.
La seconde phase de ce projet consiste à classer les documents dans votre bibliothèque. En créant un compte utilisateur (en cours de développement), vous pourrez classer les documents comme bon vous semble et les retrouver facilement.
|
|