Réseaux
La Découverte

Revue précédemment éditée par Lavoisier

I.S.B.N.sans
320 pages

p. 141 à 170
doi: en cours

Veille sur la revue
Veille sur l'auteur
Vous consultez

no 116 2002/6

2002 Réseaux

Les annuaires du web

Entre intermédiation neutre et choix éditorial marqué

Thomas Beauvisage Houssem Assadi
Une étude comparative de huit annuaires du web francophone du point de vue de leur organisation et de leur contenu, couplée à une étude de leur utilisation par un panel d’internautes français permet de montrer les divergences entre annuaires du web et la grande spécificité de chacun d’entre eux. Cette diversité qui est observée à tous les niveaux : choix éditoriaux et structurels, style des descriptifs de sites, regroupement et catégorisation des sites a un impact non négligeable sur les usages potentiels de ces sites. En effet, selon l’annuaire choisi par l’utilisateur, celui-ci n’aura pas accès aux mêmes informations et celles-ci ne seront pas regroupées de la même manière. Nous avons par ailleurs constaté que deux outils de conceptions aussi différentes que les annuaires et les moteurs de recherche classiques (tel que Google) étaient utilisés par les mêmes internautes, dans le cadre des mêmes sessions de recherche de contenus et de services. Ce qui est structurant ici, c’est le besoin et la tâche de l’internaute, à savoir la recherche d’information. Celui-ci a tendance à mobiliser sans distinction tous les outils disponibles. A comparative study of eight French-language Web directories, from the point of view of organization and content, coupled with a study of their use by a panel of French Internauts, shows differences between directories and a high level of specificity of each one. This diversity is observed in all respects. Editorial and structural choices, style of site descriptions, and grouping and categorization of sites all have a marked impact on potential uses of sites. Depending on the directory chosen, the information accessible to a user will differ, as will the way in which it is grouped together. We furthermore noted that two tools as different as directories and regular search engines (e.g. Google) were used by the same Internauts in the same search sessions. The structuring factor here is the user’s requirement and task, that is, the information search, for which all available tools are mobilized.
Les annuaires, répertoires de sites internet classés par catégories, sont largement connus et utilisés par les internautes : nous estimons, à partir de données que nous détenons sur les usages d’un panel représentatif d’internautes français, qu’environ 80 % de ces internautes ont utilisé au moins une fois un annuaire du web en 2000 [1].
La création des catégories de l’annuaire ainsi que les classements des sites sont réalisés par des humains : les catégories sont créées de manière systématique, et la validité et la pertinence des sites répertoriés sont en général garanties par le traitement humain. Cette intervention humaine constitue un avantage par rapport aux moteurs de recherche classiques (tels que Altavista, Google, etc.) qui sont alimentés par des robots, lesquels ont des difficultés à évaluer la pertinence des sites et à les classer selon leurs contenus. Les annuaires sont structurés de manière hiérarchique : l’utilisateur navigue dans les catégories en passant du général au particulier, jusqu’à atteindre l’information qu’il recherche. De plus, la plupart des annuaires enrichissent les possibilités de navigation en ajoutant des renvois entre catégories proches en termes de contenu.
L’étude présentée dans cet article s’inscrit dans le cadre du projet TypWeb, où nous nous sommes intéressés à une large palette d’usages d’internet, dont notamment la recherche d’information. Nous avons étudié l’usage des deux principaux services disponibles sur le web pour réaliser cette tâche : les moteurs de recherche, d’une part [2], et les annuaires ou guides du web, d’autre part.
Nous avons mené une étude comparative de huit annuaires totalement ou partiellement dédiés au web francophone : Looksmart, Lycos, MSN, Nomade, Open Directory, Voila, Voila Pages Perso et Yahoo. Cette étude concerne les données disponibles sur ces annuaires en février 2002, elle poursuit une étude similaire menée en mars 2001 sur les mêmes annuaires, à l’exception de Looksmart et Lycos. Nous avons développé un logiciel spécifique qui permet d’explorer la structure et le contenu d’un annuaire (catégories et liens entre elles, sites répertoriés et descriptifs qui y sont associés). Avec ces données, nous avons d’abord étudié, dans une approche qualitative, la « philosophie » d’organisation de l’information mise en œuvre par chaque annuaire. Nous avons ensuite complété ce travail par des investigations quantitatives : (1) calcul d’indicateurs statistiques permettant d’avoir des informations sur la structure et la complexité de chaque annuaire ; (2) calcul des spécificités des annuaires en termes de contenus (thèmes couverts, choix éditoriaux). Nous présentons ici les résultats de cette étude pour les annuaires en 2002, ainsi que les évolutions les plus notables observées d’une année sur l’autre. En outre, nous avons suivi les usages de ces annuaires par une cohorte de 1 140 internautes du panel français de NetValue (données d’usage de l’année 2000) utilisé dans le cadre du projet TypWeb mentionné ci-dessus, ce qui nous permet de croiser les points de vue des concepteurs des annuaires avec celui de leurs utilisateurs.
 
QU’EST-CE QU’UN ANNUAIRE DU WEB ?
 
 
S’inscrivant dans l’offre d’outils d’aide à la recherche de contenus et de services sur le web, un annuaire propose à l’internaute un classement hiérarchisé de sites regroupés dans des catégories thématiques. En termes structurels, l’ensemble de ces catégories forme un arbre dont la racine est la page d’accueil et les nœuds, les différentes catégories de l’annuaire ; dans ces catégories, sont placés les sites ou pages indexés, qui sont accompagnés d’une description plus ou moins détaillée de leur contenu.
Les annuaires diffèrent non seulement par leur taille, en nombre d’URL [3] présentées et indexées, mais également par leur structure. La structure d’un annuaire peut être définie par le croisement de trois éléments :
  • Multiindexation : certains annuaires indexent la même URL dans plusieurs catégories différentes ; une même adresse peut ainsi figurer plusieurs fois dans un annuaire, à des endroits différents.
  • Position des URL indexées dans l’arbre : certains annuaires proposent des URL dans l’ensemble de leurs catégories, d’autres ne les classent que dans les catégories terminales (qui n’ont pas de catégorie-fille).
  • Utilisation des renvois : des annuaires comme Yahoo proposent, à l’intérieur d’une catégorie, des liens vers des catégories qui ne sont pas situées directement en dessous dans l’arbre, mais situées à un tout autre endroit de l’annuaire.
Figure 1.
Un exemple d’annuaire : Yahoo France
IMGIMGUn exemple d’annuaire : Yahoo FranceIMGIMF
L’exemple présenté dans la figure 1 permet de montrer ces trois éléments :
  • multiindexation : le site « Hackers, bons ou mauvais élèves d’internet ? » est également indexé par Yahoo dans la catégorie « Technologies de l’information et de la communication » :
  • position des URL : dans Yahoo, les URL sont réparties tout au long de l’annuaire. La catégorie « Hacking » n’est pas terminale, puisqu’elle contient une sous-catégorie « Pages de Hackers », et propose quatre URL.
  • utilisation des renvois : Yahoo propose des renvois, signalés par le signe
  • @@ »à la fin du nom de la catégorie visée. Le lien noté « Magazines@ » pointe vers la catégorie « Hackers » dans :
IMGIMGIMGIMF
IMGIMGIMGIMF
Structurellement, chaque annuaire est ainsi une combinaison de ces trois éléments, ce que représente le tableau 1 pour les huit annuaires étudiés en 2002.

Tableau 1.
Description structurelle des annuaires
IMGIMGTableau 1. Description structurelle ...IMGIMF
Tableau 1. Description structurelle des annuaires Les URL ne sont indexées que dans Utilisation Multiindexation les catégories de renvois terminales Looksmart Lycos MSN Nomade Open Directory Voila Voila Pages Perso Yahoo Clé de lecture : Looksmart fait de la multiindexation, indexe à tous les niveaux de l’arborescence et n’utilise pas de renvois ( = oui, = non)

A ces différences de structure, s’ajoute une spécificité de conception pour Voila Pages Perso : cet annuaire est géré de manière complètement automatique par « auto-inscription [4] », tandis que pour les autres, chaque soumission de site par son concepteur est examinée manuellement par l’équipe éditoriale de l’annuaire ; en cas d’acceptation de la soumission, le site est inséré dans l’arborescence de l’annuaire accompagné d’un descriptif, selon des règles propres à chaque annuaire.
 
USAGES DES ANNUAIRES DU WEB
 
 
Dans le cadre du projet TypWeb, nous disposons des données d’usage d’internet par un panel de 1 140 internautes français durant toute l’année 2000 [5], au sein desquelles nous avons identifié et analysé l’usage des annuaires du web. Il en ressort que cet usage concerne une large partie des internautes de notre panel (901 sur 1 140, soit 79 %). En outre, environ 10 % des sessions web comportent un accès à un annuaire et ces sessions sont significativement plus longues que la moyenne : la durée moyenne d’une session avec accès à un annuaire est de 38 minutes, contre 25 minutes pour une session web en général. Dans la très grande majorité (92 %) des sessions comportant l’usage d’un annuaire, un seul annuaire est utilisé. En ce qui concerne les internautes, la grande majorité d’entre eux (62 %) se contente de l’usage d’un ou deux annuaires web sur l’ensemble de l’année 2000 (voir tableau 2).

Tableau 2.
Nombre d’annuaires différents utilisés par les panélistes en 2000
IMGIMGTableau 2. Nombre d’annuaires différ...IMGIMF
Tableau 2. Nombre d’annuaires différents utilisés par les panélistes en 2000 Nombre d’annuaires Part des panélistes différents utilisés en 2000 Nombre de panélistes utilisateurs d’annuaires 1 306 34 % 2 252 28 % 3 175 19 % 4 108 12 % 5 43 5 % 6 et plus 17 1 %

Etant donné les différences de conception et de contenus entre annuaires et moteurs de recherche classiques, on aurait pu s’attendre à des différences importantes entre les populations utilisant (ou pas) ces outils [6]. Mais ceci n’est pas vérifié dans nos données : 94 % des non-utilisateurs des moteurs sont également non utilisateurs d’annuaires, et 85 % des faibles utilisateurs de moteurs sont soit non utilisateurs, soit très faibles utilisateurs des annuaires. Pour les usages intensifs, nous constatons que 61 % des utilisateurs intensifs de moteurs sont également des utilisateurs intensifs d’annuaires [7].
Plus encore, quel que soit l’outil de recherche d’information sur internet utilisé, son intensité d’usage est corrélée avec l’intensité d’usage d’internet et reflète donc des usages avancés (les femmes les utilisent nettement moins que les hommes, les personnes âgées moins que les jeunes, les récents internautes moins que les anciens…). L’usage d’un outil de recherche d’information est donc lié à un usage intensif du web (sessions de navigation nombreuses et longues).
Ce constat est en définitive cohérent avec le fait que pour l’internaute, l’accès aux sites peut se faire soit par l’utilisation d’un moteur de recherche interne à l’annuaire, soit par la navigation de catégorie en catégorie, jusqu’à trouver, idéalement, celle qui correspond à la recherche. Dans la pratique, il existe un continuum entre ces deux voies d’accès aux sites indexés, et la plupart des annuaires proposent également un moteur de recherche « classique » (Lycos, Nomade, Voila, Yahoo). De ce fait, on comprend mieux qu’usage des moteurs et usage des annuaires soient entrelacés dans les pratiques de recherche sur le web.
 
DES DIFFERENCES DE TAILLE ET DE STRUCTURE
 
 
Multiindexation des sites
La multiindexation des sites dans les annuaires représente un avantage non négligeable pour l’utilisateur. En effet, le fait de pouvoir atteindre le même site en empruntant des chemins différents dans l’annuaire permet à l’utilisateur de s’affranchir d’un point de vue particulier (et unique, celui du documentaliste ayant classé le site en question) pour atteindre l’information recherchée. Ainsi, dans l’exemple du site « Hackers, bons ou mauvais élèves d’internet ? » cité ci-dessus, un premier chemin permet d’atteindre le site selon une classification thématique (point d’entrée : « Informatique et internet ») alors qu’un deuxième chemin permet de l’atteindre selon un point de vue de localisation géographique (point d’entrée : « Exploration géographique »).
Dans ce cadre, la description d’un annuaire du point de vue du nombre d’URL indexées doit tenir compte de la multiindexation (voir tableau 3). Si un annuaire peut en effet faire figurer la même URL à plusieurs endroits, il présentera à l’utilisateur plus d’adresses qu’il n’en indexe effectivement, c’est pourquoi il est important de distinguer le nombre d’URL présentées du nombre d’URL uniques indexées. Yahoo France présente ainsi davantage d’URL aux internautes que Nomade, mais il contient moins d’URL uniques que celui-ci. Looksmart est quant à lui l’annuaire utilisant le plus la multiindexation, puisqu’une URL y figure en moyenne plus de 9 fois ; ceci est dû au fait que, n’utilisant pas les renvois, Looksmart duplique des pans entiers de son annuaire, ce qui explique également sa taille en nombre d’URL présentées comme en nombre de catégories. Cela étant, Looksmart s’impose comme l’annuaire le plus important en nombre d’URL uniques, avec plus de 160 000 adresses répertoriées.

Tableau 3.
Nombre d’URL indexées et multiindexation en février 2002
IMGIMGTableau 3. Nombre d’URL indexées et ...IMGIMF
Tableau 3. Nombre d’URL indexées et multiindexation en février 2002 Nombre total d’URL Nombre d’URL Taux de répétition présentées uniques moyen des URL Looksmart 1 552 553 162 730 9,54 Lycos 75 401 67 168 1,12 MSN 137 097 76 773 1,78 Nomade 179 575 143 461 1,25 Open Directory 32 496 32 496 1 Voila 202 269 62 467 3,24 Voila PP 67 447 39 690 1,70 Yahoo 238 873 130 393 1,83

Les annuaires ont connu des taux de croissance très divers entre 2001 et 2002 (voir Tableau 4) : ainsi, si Open Directory, Nomade et Voila n’ont presque pas changé de taille, MSN, Yahoo et Voila Pages Perso ont sensiblement augmenté leur nombre d’URL indexées. La part des URL indexées en 2001 encore présente dans l’annuaire l’année suivante nous renseigne sur l’effort consacré à la mise à jour : MSN a ainsi supprimé 44 % de ses adresses de 2001, tandis que Yahoo n’en a supprimé que 14 %.

Tableau 4.
Nombre d’URL uniques en 2001 et évolution en 2002
IMGIMGTableau 4. Nombre d’URL uniques en 2...IMGIMF
Tableau 4. Nombre d’URL uniques en 2001 et évolution en 2002 Taux de répétition Evolution Part des URL Nombre d’URL moyen des URL du nombre d’URL de 2001 présentes uniques en 2001 en 2001 2001-2002 en 2002 MSN 46 137 1,35 + 66,4 % 56,5 % Nomade 138 832 1,32 + 3,3 % 71,9 % Open Dir. 32 496 1 pas d’évolution 100,0 % Voila 59 744 2,25 + 4,5 % 72,1 % Voila PP 27 923 1,81 + 42,1 % 58,0 % Yahoo 106 832 1,8 + 22,0 % 86,5 %

Profondeur des annuaires

Tableau 5.
Profondeur des annuaires en 2002
IMGIMGTableau 5. Profondeur des annuaires ...IMGIMF
Tableau 5. Profondeur des annuaires en 2002 Niveau moyen Nombre de Profondeur Profondeur des URL catégories maximum moyenne présentées Looksmart 122 576 17 8,10 8,04 Lycos 7 100 9 4,73 4,51 MSN 15 955 7 4,42 4,19 Nomade 12 318 9 4,96 4,88 Open Directory 5 243 10 5,07 4,36 Voila 12 245 9 4,67 4,66 Voila PP 636 5 2,99 2,70 Yahoo 58 362 16 7,61 6,70

Les annuaires varient beaucoup en termes de profondeur, c’est-à-dire de nombre et de position des catégories dans l’arbre, le niveau de profondeur « 1 » étant l’entrée générale d’un annuaire, équivalente à sa page d’accueil (voir tableau 5).
Une profondeur importante est le signe d’une division fine en domaines et sous-domaines, et garantit la précision des catégories de l’annuaire ; ceci assure à l’utilisateur de trouver ce qu’il recherche avec précision, mais au prix d’un nombre important de « clics » pour arriver à la catégorie qui l’intéresse. A l’inverse, un annuaire peu profond propose des catégories plus grossières, au contenu plus hétérogène, mais l’utilisateur parviendra plus rapidement à la catégorie pertinente pour sa recherche. Entre ces deux extrêmes, les annuaires tentent de trouver un compromis acceptable entre navigabilité et finesse des catégories.
La profondeur d’un annuaire n’est donc pas directement liée au fait d’avoir un nombre important d’URL à présenter, mais semble plutôt résulter d’un choix organisationnel. Cette hypothèse est confirmée par l’examen du nombre moyen d’URL indexées par catégorie comportant au moins une URL : tandis que Nomade et Voila proposent en moyenne près de 17 URL par catégorie contenant au moins une URL, Lycos, Open Directory, Yahoo et MSN en offrent entre 5 et 10 en moyenne, et Voila Pages Perso près de 112.
Sous-catégories et renvois
Les renvois modifient beaucoup la physionomie de l’annuaire : ils facilitent la navigation pour l’utilisateur, et permettent, pour les créateurs des annuaires, de pallier la rigidité de l’organisation hiérarchique. En introduisant ces renvois, les concepteurs des annuaires enrichissent les possibilités de navigation hypertextuelle au sein de l’annuaire.
Les cinq annuaires utilisant les renvois (Lycos, Nomade, Open Directory, Voila et Yahoo) n’en font pas le même usage (voir tableau 6) : tandis que Nomade et Voila en font un emploi modéré (seuls 1,6 % des catégories de Voila utilisent les renvois, proposant 1,4 renvois en moyenne), Lycos, Open Directory et Yahoo y font massivement appel : ce dispositif concerne près de 20 % des catégories de Yahoo, lesquelles comportent près de 4 renvois en moyenne.

Tableau 6.
Utilisation des renvois
IMGIMGTableau 6. Utilisation des renvois 
...IMGIMF
Tableau 6. Utilisation des renvois Part des Nombre Nombre moyen catégories avec Nombre total de catégories Nombre total de renvois renvoi dans de catégories avec renvoi de renvois par catégorie l’ensemble des avec renvoi catégories Looksmart 122 576 - - - - Lycos 7 100 1 058 3 421 3,23 14,9 % MSN 15 955 - - - - Nomade 12 318 666 1 084 1,63 5,4 % Open Dir. 5 243 527 1 829 3,47 10,0 % Voila 12 245 215 354 1,65 1,7 % Voila PP 636 - - - - Yahoo 58 362 12 847 48 001 3,74 22,0 %

Les renvois rendent les annuaires plus navigables, permettant de passer facilement d’une catégorie à une autre. Pour Yahoo, on constate que l’ajout des renvois fait passer de 15 900 à 23 300 le nombre de catégories permettant d’accéder à une autre catégorie, en suivant soit le lien hiérarchique (catégorie-fille), soit le lien de renvoi ; le nombre moyen de liens vers d’autres catégories passe alors de 3,7 à 4,6. Voila et Nomade, au contraire, utilisent très peu les renvois. Looksmart développe une toute autre stratégie, consistant à copier des parties entières de son annuaire à plusieurs endroits, ce qui explique son nombre très élevé de catégories ainsi que le fort taux de répétition des URL.
Des principes organisationnels variés
Dans cette partie de l’étude, nous nous sommes intéressés aux principes qui gouvernent l’organisation et la structuration des annuaires. Il existe plusieurs modèles d’organisation de l’information et des connaissances, qui proviennent de domaines aussi variés que la représentation des connaissances en Intelligence Artificielle, de la construction de thesaurus en documentation et en sciences de l’information, ou de la constitution de répertoires et autres annuaires pratiques (pages jaunes, annuaires professionnels…). Nous pouvons distinguer trois modes d’organisation prototypiques :
  • Catégorisation systématique de domaines des activités humaines, des objets de la vie quotidienne, etc. dans une approche de type ontologique. C’est l’approche classique en intelligence artificielle et en documentation
  • sciences de l’information).
  • Catalogage moins systématique, plus pratique, centré sur les activités humaines (activités marchandes, loisirs, formes diverses de sociabilité…), dans une approche du type « pages jaunes » ou annuaire professionnel.
  • Catégorisation du « monde d’internet » : cartographie des sites et des services disponibles sur internet, sans avoir de critères précis pour la classification et la catégorisation des objets du monde, des activités humaines, etc. Cette approche a été spontanément mise en œuvre sur différents portails pour organiser l’information selon des catégories propres à internet (exemples : chat, achat en ligne…).
Ces différents modèles ont été adoptés, de manière plus ou moins consciente et revendiquée, par les annuaires du web : aucun de ceux que nous avons étudiés ne correspond strictement à l’une ou l’autre de ces catégories et ils s’avèrent assez différents des objets classificatoires habituels : ontologies, thesaurus, etc.
A titre d’exemple, l’examen des annuaires Yahoo et Voila révèle des modes d’organisation bien différenciés. Yahoo a une approche de classification systématique, révélée par un grand nombre de catégories (58 000 contre 12 000 pour Voila), organisées dans un arbre ayant 16 niveaux de profondeur (contre 9 niveaux pour Voila). Yahoo présente également un réseau très dense formé par un système de renvois entre catégories (48 000 renvois, contre 350 dans Voila). Les catégories de premier niveau les plus importantes dans Yahoo sont « Exploration géographique » et « Commerce et économie », ce qui indique une démarche de classification systématique ; en effet, Yahoo classe de manière privilégiée un site dans l’une ou l’autre de ces deux grandes catégories, si d’autres classements thématiques sont pertinents pour ce site, le mécanisme des renvois est alors mis en œuvre pour rendre compte de cette multiclassification (voir tableau 7). Le côté encyclopédique de Yahoo se manifeste également par la présence de catégories telles que « Sciences humaines » dès le premier niveau. A l’opposé, Voila présente une approche pragmatique, centrée sur les services liés aux différentes activités humaines : activités économiques et sociales, sans oublier les loisirs. Le côté pratique de Voila est manifeste si l’on examine les catégories de premier niveau : nous relevons notamment la présence d’une catégorie « Achat, vie pratique », représentant 13,7 % des sites indexés, qui n’a pas d’équivalent au premier niveau chez Yahoo.

Tableau 7.
Répartition dans les catégories de premier niveau des URL présentées, et correspondance entre catégories : Voila et Yahoo
IMGIMGTableau 7. Répartition dans les caté...IMGIMF
Tableau 7. Répartition dans les catégories de premier niveau des URL présentées, et correspondance entre catégories : Voila et Yahoo Voila Yahoo 3 Exploration géographique 47,4 % 8,4 % Villes, régions, pays4,2 % Tourisme, voyages } 7,2 % Business, économie Commerce et économie 21,7 % 7,9 % Arts, culture Art et culture 8,9 % 5,0 % Sport, plein air } 5,5 % Loisirs, sorties Sports et loisirs 5,1 % 5,2 % Informatique, internet Informatique et internet 2,0 % 3,0 % Enseignement Enseignement et formation 0,7 % 1,8 % Administrations, politique Institutions et politique 0,2 % 1,8 % Sciences, recherche Sciences et technologies 2,8 % 1,8 % Sujets de société Société 5,4 % 1,6 % Santé, médecine Santé 1,2 % 1,4 % Actualités, médias Actualités et médias 2,0 % Sciences humaines 1,6 % Divertissement 0,8 % Références et annuaires 0,2 % 13,7 % Achats, vie pratique 1,4 % Emploi Clé de lecture : dans Voila, la catégorie de premier niveau « Achats, vie pratique » contient 13,7 % des URL présentées par cet annuaire, et n’a pas d’équivalent au premier niveau de Yahoo. La catégorie « Exploration géographique de Yahoo correspond aux catégories « Villes, régions, pays » et « Tourisme, voyages » de Voila.

Cette diversité des principes d’organisation des annuaires a déjà été mise en évidence par Van der Walt [8] : pour passer d’une catégorie à ses sous-catégories, un annuaire peut mettre en œuvre simultanément des principes très différents (lien générique-spécifique, lien partie-tout, liste alphabétique, etc.). De fait, les annuaires ne suivent pas rigoureusement les principes issus des disciplines classificatoires [9], et leurs principes organisationnels traduisent les contraintes qui ont régi leur mise en place dans un contexte de croissance rapide d’internet et avec l’obligation d’assurer une large couverture thématique.
Cela étant, les principes de structuration dépendant des tâches et des profils d’usage, il n’est pas évident qu’un principe universel d’organisation puisse répondre à tous les besoins des internautes. Les principes de type thesaurus ont été développés dans un contexte très particulier, celui des bibliothèques, et à destination de publics bien définis (élèves, étudiants, enseignants, chercheurs). Sur internet, les contenus accessibles sont de nature différente de ceux des bibliothèques, les tâches et les profils des utilisateurs sont très variés, de sorte que les modes d’accès à l’information structurée (sous forme d’annuaire de sites ou sous une autre forme d’ailleurs) devraient tenir compte de cette grande diversité.
Les annuaires se recoupent peu
L’ensemble des huit annuaires étudiés comporte près de 421 000 sites uniques indexés. Nous avons constaté que les annuaires se recoupent peu de manière générale : si l’on exclut Voila Pages Persos pour ne considérer que les sept annuaires généralistes, ceux-ci ont seulement 1 806 URL en commun (0,5 % de l’ensemble), tandis que 62,7 % de l’ensemble des URL indexées ne le sont que par un seul des sept annuaires. Chaque annuaire a donc ses spécificités, ce que vient confirmer l’examen des taux de recouvrement entre annuaires deux à deux [10] (voir tableau 8) : de manière générale, le taux de recouvrement moyen entre les différents annuaires est de 22 %, et de 24,3 % si l’on exclut le très spécifique Voila Pages Perso.
Dans le détail, nous notons en premier lieu que la spécificité de l’annuaire de sites personnels Voila Pages Perso est éminemment confirmée par les très faibles taux de recouvrement avec les autres annuaires, en particulier dans le sens VoilaPP autres annuaires (au maximum 10 % des URL de Voila Pages Perso sont indexées par un autre annuaire), alors même que Voila Pages Perso est le plus petit annuaire de tous.

Tableau 8.
Part des URL d’un annuaire A également présentes dans l’annuaire B
IMGIMGTableau 8. Part des URL d’un annuair...IMGIMF
Tableau 8. Part des URL d’un annuaire A également présentes dans l’annuaire B partage n % de ses URL Looksmart Lycos MSN Nomade Open Voila Voila PP Yahoo avec Directory Looksmart 100,0 % 18,6 % 16,1 % 31,1 % 7,0 % 18,3 % 2,4 % 33,5 % Lycos 45,8 % 100,0 % 27,4 % 44,5 % 11,5 % 28,1 % 3,1 % 43,2 % MSN 33,9 % 23,5 % 100,0 % 34,4 % 11,3 % 24,1 % 1,2 % 37,0 % Nomade 35,2 % 20,4 % 18,4 % 100,0 % 8,7 % 21,0 % 2,8 % 32,3 % Open Dir. 36,1 % 24,3 % 27,8 % 40,0 % 100,0 % 25,1 % 2,0 % 35,1 % Voila 47,6 % 29,7 % 29,7 % 48,2 % 12,6 % 100,0 % 3,3 % 42,1 % Voila PP 10,0 % 5,2 % 2,4 % 10,0 % 1,6 % 5,2 % 100,0 % 6,9 % Yahoo 41,7 % 21,9 % 21,8 % 35,5 % 8,5 % 20,2 % 2,1 % 100,0 % Clé de lecture : 35,2 % des URL de Nomade sont également indexées par Looksmart, tandis que 31,1 % des URL de Looksmart sont dans la base de Nomade.

D’autre part, la taille des annuaires ne semble pas être le facteur déterminant de leurs recoupements : entre les trois plus grands annuaires Looksmart, Nomade, Yahoo, le taux de recouvrement deux à deux varie de 30 à 40 %, tandis que les petits annuaires ne sont pas « inclus » dans les grands. Ainsi, Open Directory, de taille modeste, partage en moyenne moins d’un tiers de ses URL avec d’autres annuaires, pourtant jusqu’à quatre fois plus gros que lui, soit autant que Looksmart, Nomade et Yahoo entre eux. Il apparaît donc que chaque annuaire indexe des sites qui lui sont spécifiques.
Ceci est confirmé par l’examen, pour chaque annuaire, de la proportion d’URL qu’il est le seul à indexer (Tableau 9). A l’exclusion de Voila Pages Perso, dont le contenu est particulier (près de 80 % d’URL spécifiques), on constate ici que Looksmart, le plus gros des annuaires, est en même temps celui dont la spécificité est la plus importante (43,2 %), résultat que nous pouvions prévoir. Moins attendu est le taux de spécificité de MSN (40,2 % d’URL spécifiques), pourtant deux fois et demie plus petit que Looksmart, et de Yahoo (33,4 %), ce dernier étant relativement peu spécifique étant donné sa taille. Il semble qu’il y ait donc un double effet participant à la spécificité des annuaires : leur taille, qui augmente statistiquement leur chance d’indexer des sites que les autres n’ont pas, mais aussi leur positionnement éditorial, à travers le choix des sites indexés.

Tableau 9.
Part des sites indexés spécifiques à chaque annuaire
IMGIMGTableau 9. Part des sites indexés sp...IMGIMF
Tableau 9. Part des sites indexés spécifiques à chaque annuaire Nombre de sites Annuaire Nombre de sites spécifiques de Part des sites indexés l’annuaire spécifiques Looksmart 161 974 70 058 43,2 % Lycos 65 866 16 241 24,7 % MSN 76 712 30 862 40,2 % Nomade 143 274 55 122 38,5 % Open Directory 31 308 10 629 33,9 % Voila 62 411 14 261 22,8 % Voila PP 39 417 31 384 79,6 % Yahoo 130 101 43 525 33,4 %

Nous avons poursuivi notre analyse des sites présents dans deux ou plusieurs annuaires en nous posant la question suivante : si un annuaire A1 regroupe un ensemble de sites sous une catégorie donnée, jusqu’à quel point un annuaire A2 va-t-il rapprocher ce même ensemble de sites ? Cette question est d’une grande importance du point de vue des usages : la recherche d’information fonctionne souvent selon un principe de proximité et de similarité. Il suffit pour s’en convaincre de penser à la recherche d’un ouvrage dans une bibliothèque : nous avons en général une référence en tête (un auteur, un thème…), nous repérons cette référence à un endroit particulier de la bibliothèque (un rayon), et nous examinons ensuite ce rayon et son voisinage afin d’affiner notre recherche et repartir avec les ouvrages correspondant à notre requête. Dans un annuaire du web, c’est la catégorie qui jour le rôle du rayon. Il est donc important de mesurer la cohérence (ou la divergence) entre annuaire dans leur classement des sites (ouvrages) dans les catégories [11] (rayons).
En utilisant des calculs formels sur des graphes, nous avons construit des indicateurs numériques de l’accord entre annuaires. Si nous n’avons pas le loisir de développer ici les détails techniques de ce calcul, nous pouvons affirmer que les annuaires sont assez souvent en désaccord sur le regroupement et la classification des sites qu’ils indexent en commun : deux sites qui ont été regroupés sous la même catégorie dans un annuaire A1 se retrouvent assez souvent classés dans des catégories disjointes et éloignées dans un annuaire A2. Ceci s’explique par des facteurs structurels (multiindexation, taille et finesse des catégories…) mais également par des facteurs plus qualitatifs, liés aux principes de classement (coexistence des découpages géographiques et thématiques…) et aux choix éditoriaux spécifiques à chaque annuaire.
Des choix éditoriaux marqués
Dans cette partie, nous avons souhaité étudier la spécificité de chaque annuaire en termes éditoriaux : sur un thème donné (par exemple l’art, l’économie ou la politique), les annuaires présentent-ils des contenus différents et jusqu’à quel point ? Pour répondre à cette question, nous avons qualifié le contenu des annuaires à partir des titres et des descriptifs qu’ils donnent des sites indexés sur un thème donné. La méthode suivante a été adoptée :
  • nous avons d’abord choisi des catégories générales présentes au premier ou deuxième niveau pour les huit annuaires étudiés ;
  • ensuite, nous avons extrait pour chaque annuaire et pour l’ensemble des sites classés sous la catégorie choisie, les titres et descriptifs associés par l’annuaire à ces sites ;
  • le corpus ainsi constitué a été traité avec un outil d’analyse de données textuelles (le logiciel Alceste [12] ). Cet outil nous a permis d’identifier le vocabulaire spécifique à chaque annuaire en ce qui concerne la description des sites du thème traité. Nous sommes ainsi en mesure de dégager des
  • profils thématiques » de chaque annuaire.
Une première étude a été consacrée au thème « Art et culture », et une deuxième à la catégorie « Commerce et économie », dont nous présentons ici les résultats [13].
L’examen du vocabulaire spécifique de chaque annuaire montre une orientation très forte de Looksmart vers l’immobilier (vocabulaire spécifique : immeuble, locatif, résidentiel, maison, banlieue, annonce…) ; Nomade affiche un profil assez généraliste, avec une orientation marquée vers l’offre de services informatiques (solution, conception, informatique, internet, intranet, logiciel, hébergement…), tandis que Lycos présente une forte spécialisation dans le tourisme (gîte, hôtel, tourisme, camping, visiter, restaurant, réservation…), et Voila dans l’achat en ligne et les services bancaires et financiers (télécommerce, paiement sécurisé, et banque, boursier, financier, crédit, chèque…). MSN met en avant un classement géographique en privilégiant des sites nord-américains et francophones (Amérique, Canada, canadien, Québec, Suisse, Bruxelles…). Enfin, Yahoo et Open Directory affichent tous deux un positionnement assez diversifié, qui semble refléter un classement par corps de métier.
Figure 2.
Classification des 7 annuaires généralistes en 2002 sur la base des descriptifs des sites de la catégorie « Commerce et économie »
IMGIMGClassification des 7 annuaires généralistes en 200...IMGIMF
La classification des annuaires sur cette base, présentée dans la figure 2, oppose le très spécifique Looksmart à l’ensemble des autres annuaires, lesquels se répartissent en deux groupes : le premier semble privilégier l’offre de services en ligne (bancaires et financiers pour Voila, touristiques pour Lycos, informatique pour les entreprises en ce qui concerne Nomade), tandis que le second paraît plus orienté vers un présentation plus large incluant l’ensemble des métiers et des activités économiques (MSN, Open Directory, Yahoo).
Les annuaires ont des styles différents
Chaque annuaire a une manière spécifique de présenter les sites qu’il indexe. A titre d’exemple, les descriptions du site « Bandit Mania » ((http :// www. banditmania. com),répertorié par les 8 annuaires étudiés, sont :
Les variations entre descriptions de sites d’un annuaire à l’autre sont de plusieurs ordres : tout d’abord, la longueur des descriptifs proposés varie grandement d’un annuaire à l’autre. MSN propose les descriptifs les plus courts, avec près de 9 mots en moyenne, tandis que ceux de Nomade et de Voila sont trois fois plus longs (voir tableau 10).


IMGIMGAnnuaire Titre Description 
Banditma...IMGIMF
Annuaire Titre Description Banditmania – Ce Repaire des motards contient plus de 2 000 pages et Looksmart Portail de la 1 800 photos. Dossiers, reportages, essais de motos et moto d’accessoires, conseils, annonces. Site non officiel de la Suzuki GSF Bandit. Lycos Banditmania Caractéristiques, infos et actualité de la moto. Banditmania est entièrement consacré à la moto et aux Banditmania : le roadsters : mécanique, caractéristiques et technique, Nomade repère des chiffres et données brutes, sons et vidéos, manuel en motards ligne, conseils pour le pilote, opinions, forum technique, guide moto, etc. Bandit Mania, guide multithématique et conseils pour MSN Bandit Mania motards. Plusieurs centaines de pages de technique, conseils, BanditMania : le opinions et informations illustrées par un millier de Open site non officiel photos sur la moto et plus spécifiquement la Suzuki GSF Directory de la Suzuki Bandit dans toutes ses cylindrées : 250,400,600,750 et Bandit 1200 cm3. Webzine sur les motos – L’actualité moto (toutes marques), des dossiers, des reportages, des essais de Voila Banditmania motos, une lettre d’information gratuite et des services gratuits (petites annonces, moto puces, avis de recherche, achats groupés, etc.). 200 pages de technique, de conseils et d’infos motos illustrées par 700 photos sur le roadster phare de Suzuki BanditMania : dans toutes ses cylindrées : Bandit GSF 250,400,600, Voila Pages le site moto 750 et 1200 cm3. Une large part du site est consacrée à Persos non officiel de la la moto en général avec le guide du motard et les Suzuki Bandit informations indispensables : assurances, pilotage, circuits, bons plans, événements, aventures, humour, adresses pour tous les motards. Yahoo Banditmania Actualités, dossiers, reportages, essais et mécanique.


Tableau 10.
Longueur des descriptifs de sites
IMGIMGTableau 10. Longueur des descriptifs...IMGIMF
Tableau 10. Longueur des descriptifs de sites Nombre moyen de mots Nombre moyen de mots dans le titre dans le descriptif Tous Annuaires 3,5 19,1 Looksmart 6,2 21,4 Lycos 3,8 19,9 MSN 2,6 9,3 Nomade 3,0 28,5 Open Directory 3,2 15,2 Voila 2,8 29,3 Voila PP 3,7 18,5 Yahoo 3,1 10,4

A la longueur variable des descriptifs, correspond un style particulier à chaque annuaire : le fait de proposer un résumé concis des sites indexés se traduit souvent par un style « télégraphique », où les phrases sont essentiellement nominales et la parataxe l’emporte sur la syntaxe. Ces différences sont perceptibles à travers la répartition des catégories morpho-syntaxiques utilisées dans les descriptifs de sites (voir tableau 11).
L’analyse de la répartition des catégories grammaticales majeures (verbes, adverbes, noms, adjectifs) pour chaque annuaire fait apparaître une opposition forte entre Yahoo et MSN d’un côté, et Looksmart et Nomade de l’autre : chez les premiers, noms et adjectifs sont surreprésentés, ce qui constitue la marque d’un style haché et « télégraphique » ; dans les seconds, au contraire, les descriptifs sont beaucoup plus « verbalisés », ce que traduit la présence forte de verbes et d’adverbes. Ces observations ajoutées à celles sur la longueur des descriptifs laissent penser que si certains annuaires comme Looksmart et Yahoo sont peu loquaces, la quantité d’information qu’ils délivrent sur les sites n’est pas proportionnelle à la longueur de leurs descriptifs, car les tournures phrastiques d’ordre présentationnel (comme « Vous trouverez sur ce site » ou « Ce site vous propose ») comptent pour une bonne part dans la longueur des descriptifs de sites. De la sorte, si Looksmart ou Yahoo sont plus brefs dans leurs descriptifs que Nomade, ils n’en disent pas moins sur les sites, mais le disent différemment.


IMGIMGIMGIMF

C’est donc plus dans la façon de décrire que dans la précision de la description que les annuaires s’opposent, ce que traduit la répartition des personnes pronominales et verbales employées (tableau 11) : nous voyons une opposition très nette, autour de l’emploi de la 2e personne du pluriel, entre les annuaires qui présentent les sites en s’adressant directement au lecteur (Looksmart, Nomade, Voila, Voila Pages Persos) et ceux qui ne fournissent que des indications « neutres » à l’internaute (Yahoo, MSN, Open Directory). On note à cet égard, que ce sont les annuaires dont les descriptifs sont les plus longs (Nomade, Voila) qui ont le plus recours à l’emploi du « vous ».
L’analyse morpho-syntaxique des descriptifs des sites et celle des pronoms convergent, et nous voyons deux logiques présentationnelles s’opposer : d’un côté, l’« annuaire-interlocuteur » qui entend guider l’internaute et servir d’intermédiaire entre lui et les sites (Looksmart, Voila, Voila Pages Perso, Nomade) ; de l’autre, l’« annuaire relais d’information » adoptant une posture d’intermédiation plus neutre (Lycos, Open Directory, MSN, Yahoo). C’est la position de l’annuaire vis-à-vis de l’utilisateur qui est en jeu ici.
 
ANNUAIRES ET PARCOURS SUR LE WEB
 
 
Nous avons montré au début de cette étude comment le recours aux annuaires est inscrit dans les pratiques des utilisateurs ; à l’inverse, les sites indexés par les annuaires correspondent-ils aux pratiques ? Si les annuaires ne peuvent avoir la prétention de couvrir l’ensemble du web et opèrent une sélection des sites pour ne conserver que ceux de référence, il importe toutefois de voir s’ils couvrent réellement les sites et les pages visitées par les internautes.
Pour le savoir, nous avons confronté les informations recueillies sur les annuaires aux données de trafic issues de deux cohortes d’internautes, la première que nous avons déjà mobilisée dans la section précédente, est constituée de 1 140 internautes suivis sur l’année 2000, et la seconde est composée de 1 500 internautes observés durant l’année 2001. Nous disposons, pour l’ensemble des années 2000 et 2001, de la liste complète et horodatée des URL visitées sur le web par ces deux cohortes ; ceci nous permet de confronter de manière croisée les annuaires tels qu’ils apparaissent en mars 2001 et mars 2002, et les parcours sur les web effectués en 2000 et 2001.
Les annuaires indexant la plupart du temps des sites (c’est-à-dire les URL des pages d’accueil des sites) et non des pages, nous avons projeté les URL visitées par les panélistes sur les annuaires à différents niveaux de précision, allant de la page au site ; de ce point de vue, une page est décrite par un annuaire si celui-ci fournit a minima une description du site où figure cette page [14]. Ainsi, nous constatons que dans près de 73 % des cas l’annuaire décrit le site visité par l’utilisateur de manière générale, mais non les pages elles-mêmes.
Une bonne couverture des sites effectivement visités
Les URL indexées par les annuaires correspondent de manière inégale à des pages effectivement visitées (voir tableau 12).

Tableau 12.
Part des URL des annuaires correspondant à des URL visitées
IMGIMGTableau 12. Part des URL des annuair...IMGIMF
Tableau 12. Part des URL des annuaires correspondant à des URL visitées Annuaires 2001 – trafic 2000 Annuaires 2002 – trafic 2001 Looksmart n.c. 15,7 % Lycos n.c. 24,7 % MSN 28,5 % 25,9 % Nomade 16,3 % 16,0 % Open Dir. 22,1 % 23,8 % Voila 26,6 % 26,9 % Voila PP 5,7 % 2,1 % Yahoo 20,9 % 17,6 % Clé de lecture : 28,5 % des URL indexées par MSN au début 2001 correspondent à des sites effectivement visités durant l’année 2000, et 25,9 % des URL indexées par MSN en février 2002 correspondent à des sites visités en 2001.

Nous avions vu précédemment que près de 63 % de l’ensemble des URL des sept annuaires généralistes ne sont indexées que par un seul annuaire ; nous pouvions donc nous attendre à ce que les annuaires aient des taux de couverture des pages visitées par les internautes très variés. Malgré cela, nous constatons que les taux de couverture sont assez similaires, variant entre 26 % et 32 % pour les sept annuaires généralistes (voir tableau 13). Nous pouvons donc supposer que, dans l’ensemble, les annuaires indexent des sites « de référence », qui concentrent beaucoup de trafic, et qu’ils sont là en adéquation avec leur mission de sélection et de conseil de sites. Ceci est confirmé par le fait que, alors qu’un site vu en 2000 par notre panel est présent en moyenne dans 8,7 sessions, ceux indexés par les annuaires sont présents en moyenne dans 12,6 sessions.

Tableau 13.
Couverture des URL visitées dans les parcours par les annuaires
IMGIMGTableau 13. Couverture des URL visit...IMGIMF
Tableau 13. Couverture des URL visitées dans les parcours par les annuaires Annuaires mars 2001 Annuaires février 2002 Trafic 2000 Trafic 2001 Trafic 2000 Trafic 2001 Looksmart n.c. n.c. 32,8 % 36,6 % Lycos n.c. n.c. 28,8 % 27,1 % MSN 31,6 % 31,6 % 33,2 % 34,9 % Nomade 32,7 % 30,8 % 28,9 % 32,1 % Open Dir. 25,7 % 25,9 % 23,9 % 24,5 % Voila 28,6 % 27,3 % 27,4 % 33,9 % Voila PP 9,3 % 11,5 % 1,5 % 1,2 % Yahoo 32,3 % 31,8 % 30,6 % 33,7 %

Les annuaires évoluent avec la fréquentation du web
Les taux de couverture croisés présentés au tableau 13 nous montrent également un très fort effet de mise à jour des annuaires : non seulement les annuaires dans leur version 2001 couvrent mieux le trafic de l’année 2000 que celui de 2001, mais plus encore, un an plus tard, les annuaires de février 2002 couvrent moins bien le trafic 2000 que le trafic 2001, et ce malgré une augmentation moyenne de leur taille de 14 %. Les annuaires font donc un réel effort pour se mettre à jour et présenter une image fiable du web.
Si l’on considère maintenant l’ensemble des URL décrites par les annuaires, nous constatons que la couverture globale avec les parcours (annuaires 2001 trafic 2000, et annuaires 2002 trafic 2001) est constante, avec près de 49 % des URL visitées décrites par les annuaires. Cette couverture somme toute satisfaisante des pages visitées par les annuaires nous autorise à imaginer d’utiliser les annuaires pour décrire et caractériser les parcours des internautes sur le web. A partir d’une liste d’URL « à plat », il devient possible de disposer d’informations sur les contenus visités en utilisant les descriptifs des sites proposés par les annuaires, mais également la catégorie dans laquelle se situe le site dans la structure de l’annuaire. Voici à titre d’exemple, la description par Open Directory en 2001 d’une session, effectuée le 21 décembre 2000 et comportant 21 pages visitées sur 3 sites différents :
Si les disparités en termes de structure, de modes d’organisation et de style des différents annuaires considérés rend problématique leur utilisation conjointe pour la description des parcours sur le web, nous croyons qu’il s’agit néanmoins d’une méthode viable et efficace [15]. A terme, nous pouvons imaginer que, de la même manière que l’annuaire a vocation à diriger le parcours sur le web, il pourra être un outil pour la compréhension des parcours et des usages.


IMGIMG19:45:41 – 1 URL visitée sur www. li...IMGIMF
19:45:41 – 1 URL visitée sur www. libertysurf. fr Liberty Surf : gratuité totale : 4 heures - 4 heures gratuites par mois. Fournisseur d’accès gratuit à internet sur toute la France et illimité en nombre d’heures et d’utilisateurs. Accès gratuit et portail de services. Régional France Commerce et économie Internet Fournisseurs d’accès Gratuit 19:46:06 – 10 URL visitées sur www. boursorama. com Boursorama : actualité des marchés, informations financières et conseils, cours des plus grandes places boursières, indices et palmarès. Commerce et économie Finance Bourse 19:51:39 – 10 URL visitées sur www. anpe. fr ANPE – Agence nationale pour l’emploi : présentation des services de cette agence française. Consultation des offres d’emploi et informations générales sur le secteur, notamment en ce qui concerne les aides à l’embauche. Régional France Commerce_et_économie Emploi 19:52:49 Fin de la session.

 
QUELLES EVOLUTIONS DES ANNUAIRES POUR UNE MEILLEURE ADEQUATION AUX USAGES ?
 
 
La plupart des travaux antérieurs relatifs aux annuaires du web sont issus de la communauté des chercheurs et des professionnels en sciences de l’information et de la documentation [16]. D’autres études se sont intéressées aux annuaires en tant que systèmes de classification de référence et les ont utilisés comme ressource pour la classification automatique de documents [17]. Deux études, celles de Bertonèche et de Van der Walt, ont particulièrement attiré notre attention, dans la mesure où elles présentent une comparaison de plusieurs annuaires du web. Dans les deux cas, il s’agit d’approches purement qualitatives, qui ont abouti à des conclusions générales très proches de la nôtre, à savoir le constat d’une grande diversité, voire même d’une certaine hétérogénéité entre les annuaires étudiés.
Notre étude se distingue par la combinaison d’une approche qualitative (examen « manuel » des annuaires et de leurs modes d’organisation) et d’une approche quantitative s’appuyant sur les outils statistiques et formels : exploration du contenu textuel des descriptifs des sites par les annuaires et de la structure de l’annuaire en tant que graphe.
Les spécialistes du catalogage et des bibliothèques recommandent de tenir compte des différentes théories classificatoires et méthodologies qui sont issues de leurs disciplines, pour les réutiliser dans le contexte du catalogage de sites internet. Nous pensons que cette démarche classificatoire ne peut pas être transposée telle quelle dans le monde internet pour au moins deux raisons. La première est que le web n’est pas une encyclopédie des savoirs, il n’est pas comparable à une bibliothèque. On y trouve à la fois des contenus, des services, plus généralement des ressources de toute sorte, avec une très grande diversité thématique et qualitative. La deuxième raison réside dans la grande diversité des contextes d’usage d’internet et des profils et besoins des utilisateurs : nous sommes loin des lecteurs des bibliothèques et autres centres de documentation, dont on peut déterminer a priori les besoins et dont on connaît, grâce à une longue histoire de la pratique, la composition et les profils.
Nous retenons en revanche la proposition des spécialistes des bibliothèques d’introduire plus de rigueur et de systématicité dans la pratique de la construction d’annuaires du web. Par ailleurs, nous pensons que les annuaires généralistes du web, dans le contexte de la diversité des usages d’internet et de leur évolution rapide, ont probablement atteint leurs limites : la gestion d’un nombre élevé de sites et de catégories semble poser aujourd’hui des problèmes qui se manifestent par un manque de cohérence… Il nous semble que deux pistes se dégagent pour continuer à développer des annuaires du web adaptés aux évolutions actuelles des usages. D’une part, les annuaires spécialisés par secteur d’activité, par aire géographique ou culturelle, etc. D’autre part, les approches du type « communauté d’intérêt », qui impliquent fortement les internautes dans le processus de référencement, d’évaluation et de classification des sites, nous semblent appropriées car elles s’appuient sur le lien fort entre production et usage, une des caractéristiques fondamentales d’internet.
 
CONCLUSION ET PERSPECTIVES
 
 
Cette étude comparative détaillée a permis de montrer les divergences entre annuaires du web et la grande spécificité de chacun d’entre eux. Cette diversité est observée à tous les niveaux : choix éditoriaux et structurels, style des descriptifs de sites, choix de regroupement et de catégorisation des sites.
La grande diversité des annuaires a un impact non négligeable sur leurs usages potentiels, en effet, selon l’annuaire choisi par l’utilisateur pour effectuer ses recherches, celui-ci n’aura pas accès aux mêmes informations et celles-ci ne seront pas regroupées de la même manière. Sa vision des sites et de leurs regroupements (thématiques ou autres) sera très marquée par les choix éditoriaux faits par les concepteurs de l’annuaire. Ce constat sur la diversité des annuaires et sur l’importance de l’adéquation entre le profil éditorial de l’annuaire et les centres d’intérêt de l’utilisateur rejoint les conclusions du travail mené dans notre équipe sur les usages des moteurs de recherche [18].
Il est également frappant de constater que deux outils de conceptions aussi différentes que les annuaires et les moteurs de recherche classiques soient utilisés par les mêmes internautes, dans le cadre des mêmes sessions de recherche de contenus et de services. Ce qui est structurant ici, c’est le besoin et la tâche de l’internaute, à savoir la recherche d’information. Celui-ci a tendance à mobiliser sans distinction tous les outils disponibles pour accomplir cette tâche.
Ces éléments nous amènent à penser que le classement des sites internet, tel qu’il est pratiqué aujourd’hui par les annuaires généralistes, atteint sans doute ses limites. Contrairement à la classification des savoirs et des disciplines, pratiquée depuis des siècles par les bibliothécaires et documentalistes, l’activité de classification systématique dans le contexte général d’internet ne nous paraît pas tenable à long terme dans sa forme actuelle. Une évolution vers des annuaires spécialisés, d’une part, et des ressources fondées sur des « communauté d’intérêt », d’autre part, nous semble être plus adaptée à l’évolution des usages.
 
BIBLIOGRAPHIE
 
·  BEAUDOUIN V. et al. (2002), Parcours sur internet : analyse des traces d’usage, Rapport d’activité RP/FTR&D/7495, France Télécom R&D, NetValue, HEC.
·  BERTONECHE J. (2001), « Internet-bibliothèque : accéder au savoir ou se l’approprier ? », SPIRALE - Revue de Recherches en Education, n°28, p. 195-214.
·  CHAN L.M., XIA L. et al. (1999), “Structural and multilingual approaches to subject access on the Web”, 65th IFLA Council and General Conference, Bangkok, Thailand.
·  LABROU Y., FININ T. (1999), “Yahoo ! as an Ontology Using Yahoo ! Categories to Describe Documents”, Proceedings of the Eighth International Conference on Information Knowledge Management, Kansas City, Etats-Unis, p. 180-187.
·  MLADENIC D. (1998), “Turning Yahoo to Automatic Web-Page Classifier”, Proceedings of the 13th European Conference on Aritficial Intelligence ECAI’98, Kansas City, Etats-Unis, p. 473-474.
·  REINERT M. (1993), « Les "mondes lexicaux" et leur logique », Langage et société, n° 66, p. 5-39. VAN DER WALT M. (1998), “The Structure of Classification Schemes Used in Internet Search Engines”, Fifth International ISKO Conference, Lille, France, p. 379-387.
·  VIZINE-GOETZ D. (1996), “Using Library Classification Schemes for Internet Resources”, Proceedings of the OCLC Internet Cataloging Colloquium, San Antonio, Etats-Unis.
 
NOTES
 
[1]Données issues du projet TypWeb, qui s’appuie sur le panel résidentiel France de NetValue, société de mesure d’audience sur internet. Pour une description du projet et de ses résultats, voir BEAUDOUIN et al. 2002.
[2]Voir ASSADI, BEAUDOUIN, dans ce numéro.
[3]L’URL (Uniform Resource Locator) désigne l’adresse unique d’une page (plus généralement d’un contenu) sur le web. L’URL (ou l’adresse) d’un site désigne l’adresse de la page d’accueil, point d’entrée du site (par exemple, hhttp :// www. francetelecom. comest l’adresse du site du Groupe France Télécom).
[4]Voir http ://annuaire-pp.voila.fr/Info pour une description du fonctionnement de Voila Pages Perso.
[5]Ces données sont issues du panel français de NetValue, et mises à la disposition de France Télécom R&D dans le cadre d’un partenariat noué au sein des projets TypWeb (2000-2001) et SensNet (2002-2003).
[6]On pourrait notamment s’attendre à ce que les annuaires soient plus utiles (et utilisés) aux débutants et aux utilisateurs non avertis du web.
[7]Voir ASSADI, BEAUDOUIN dans ce numéro, pour une typologie des utilisateurs des moteurs de recherche en termes d’intensité d’usage.
[8]VAN DER WALT, 1998.
[9]Telles que les sciences de l’information et de la documentation ou la représentation des connaissances en intelligence artificielle.
[10]Les annuaires étant de tailles différentes, le calcul des recoupements deux à deux entre annuaires est dissymétrique, et doit être analysé pour chaque couple d’annuaires.
[11]Cette analogie et la métaphore du « livre à côté de celui qu’on cherche » a été inspirée par François Rastier.
[12]REINERT, 1993.
[13]L’annuaire Voila Pages Perso ne couvre pas le thème « Commerce et économie », c’est pour cela qu’il est absent de cette étude.
[14]L’identification d’un site n’est pas en elle-même triviale. Si techniquement il correspond la plupart du temps au host (par exemple : wwww. globz. net),plusieurs host peuvent renvoyer vers le même site (comme wwww. yahoo. fret fr.yahoo.com), ou le host peut ne pas être suffisant : c’est le cas pour bien des sites personnels, où l’adresse d’un site est de la forme http ://perso.wanadoo.fr/nom_du_site. Face à ce problème, nous avons mis en avant la notion de site éditorial, espace dont le contenu est géré par une seule personne ou entité, et élaboré un système à base de règles capable de reconnaître l’adresse de ces sites, en particulier en fonction de la syntaxe des adresses de chaque hébergeur de pages personnelles.
[15]Développer ce point plus avant nous écarterait trop du thème de cet article ; nous nous bornerons donc à signaler que les expériences que nous avons menées jusqu’alors sur la description de parcours par les annuaires nous permettent d’être optimistes.
[16]Voir en particulier : VIZINE-GOETZ, 1996 ; VAN DER WALT, 1998 ; CHAN, 1999 ; BERTONECHE, 2001.
[17]Voir LABROU, 1999 et MLADENIC, 1998.
[18]Voir ASSADI, BEAUDOUIN, dans ce numéro.
© Cairn.info 2009 Vie privée | Conditions d’utilisation | Conditions générales de vente
Cairn.info | Éditeurs | Bibliothèques | Aide à la navigation | Plan du site | Raccourcis
[1]
Données issues du projet TypWeb, qui s’appuie sur le panel ...
[suite] Suite de la note...
[2]
Voir ASSADI, BEAUDOUIN, dans ce numéro. Suite de la note...
[3]
L’URL (Uniform Resource Locator) désigne l’adresse unique d...
[suite] Suite de la note...
[4]
Voir http ://annuaire-pp.voila.fr/Info pour une description...
[suite] Suite de la note...
[5]
Ces données sont issues du panel français de NetValue, et m...
[suite] Suite de la note...
[6]
On pourrait notamment s’attendre à ce que les annuaires soi...
[suite] Suite de la note...
[7]
Voir ASSADI, BEAUDOUIN dans ce numéro, pour une typologie d...
[suite] Suite de la note...
[8]
VAN DER WALT, 1998. Suite de la note...
[9]
Telles que les sciences de l’information et de la documenta...
[suite] Suite de la note...
[10]
Les annuaires étant de tailles différentes, le calcul des r...
[suite] Suite de la note...
[11]
Cette analogie et la métaphore du « livre à côté de celui q...
[suite] Suite de la note...
[12]
REINERT, 1993. Suite de la note...
[13]
L’annuaire Voila Pages Perso ne couvre pas le thème « Comme...
[suite] Suite de la note...
[14]
L’identification d’un site n’est pas en elle-même triviale....
[suite] Suite de la note...
[15]
Développer ce point plus avant nous écarterait trop du thèm...
[suite] Suite de la note...
[16]
Voir en particulier : VIZINE-GOETZ, 1996 ; VAN DER WALT, 19...
[suite] Suite de la note...
[17]
Voir LABROU, 1999 et MLADENIC, 1998. Suite de la note...
[18]
Voir ASSADI, BEAUDOUIN, dans ce numéro. Suite de la note...
Un exemple d’annuaire : Yahoo France
Classification des 7 annuaires généralistes en 2002 sur la base des descriptifs des sites de la ca...
[suite]