MyWebIntelligence

Le Web est historiquement un projet documentaire. On trouve sur ses pages toutes sortes d’informations sur des objets, des personnes, des concepts. Il est rapidement devenu difficile de parcourir cette immense bibliothèque vu le nombre, la diversité et le coût de l’indexation des documents. Les moteurs de recherche comme Google ou Bing disposent des ressources financières et materielles pour parcourir le web, de lien en lien, avec des robotos, afin de récolter l’adresse de toutes les pages. À chaque adresse ils dédient des métadonnées permettant de proposer le contenu de manière pertinence lors d’une demande. Ainsi, en fonction des requêtes de recherche que nous leur soumettons, ces moteurs de recherche nous soumettent des listes de pages à visiter. Libre à l’internaute d’exploiter cet index de documents dressé par un algorithme.

Ce système basé sur des relations commerciales montre rapidement ses limites pour des chercheurs. Lorsque l’on recherche l’exhaustivité, à rassembler toutes les pages et leurs liens portant sur un sujet précis, les moteurs de recherche ne sont plus suffisants. MyWebIntelligence va permettre au professionnels de l’informations de pallier ce manque. Il va être capable à partir d’une base de quelques centaines de liens de parcourir le Web comme le ferait un robot d’un moteur de recherche. Le logiciel va passer de page en page et les indexer si elles sont jugées pertinentes. À partir d’une série de mots-clés, chaque document va recevoir une note. La note est plus ou moins élevée selon le nombre d’occurences au sein de la page des termes définis. En trouvant avec un moteur de recherche quelques certaines de liens sur un sujet, il est possible de crawler des dizaines de milliers de pages en quelques journées.

Une fois les pages indexées et leurs liens établis, il est nécessaire pour l’utilisateur de nettoyer la base obtenue. Il va retirer les pages en-deçà d’un certain niveau et vérifier les résultats restants. L’objectif peut ensuite être de rendre une cartographie. C’est à dire de visualiser sur un digramme les pages les plus centrales. Ce sont celles disposant d’un grand nombre de liens (entrants ou sortants) dans le domaine de la recherche. Ce sont des pages, mais aussi des sites qui peuvent être repérées par les chercheurs pour des études supplémentaires. Leur impact dans le domaine d’étude peut ainsi être démontré.