2002
Réseaux
Les annuaires du web
Entre intermédiation neutre et choix éditorial marqué
Thomas Beauvisage
Houssem Assadi
Une étude comparative de huit annuaires du web francophone du point de
vue de leur organisation et de leur contenu, couplée à une étude de leur
utilisation par un panel d’internautes français permet de montrer les
divergences entre annuaires du web et la grande spécificité de chacun d’entre
eux. Cette diversité qui est observée à tous les niveaux : choix éditoriaux et
structurels, style des descriptifs de sites, regroupement et catégorisation des
sites a un impact non négligeable sur les usages potentiels de ces sites. En
effet, selon l’annuaire choisi par l’utilisateur, celui-ci n’aura pas accès aux
mêmes informations et celles-ci ne seront pas regroupées de la même
manière. Nous avons par ailleurs constaté que deux outils de conceptions
aussi différentes que les annuaires et les moteurs de recherche classiques (tel
que Google) étaient utilisés par les mêmes internautes, dans le cadre des
mêmes sessions de recherche de contenus et de services. Ce qui est
structurant ici, c’est le besoin et la tâche de l’internaute, à savoir la recherche
d’information. Celui-ci a tendance à mobiliser sans distinction tous les outils
disponibles.
A comparative study of eight French-language Web directories, from the
point of view of organization and content, coupled with a study of their use
by a panel of French Internauts, shows differences between directories and a
high level of specificity of each one. This diversity is observed in all
respects. Editorial and structural choices, style of site descriptions, and
grouping and categorization of sites all have a marked impact on potential
uses of sites. Depending on the directory chosen, the information accessible
to a user will differ, as will the way in which it is grouped together. We
furthermore noted that two tools as different as directories and regular search
engines (e.g. Google) were used by the same Internauts in the same search
sessions. The structuring factor here is the user’s requirement and task, that
is, the information search, for which all available tools are mobilized.
Les annuaires, répertoires de sites internet classés par catégories, sont
largement connus et utilisés par les internautes : nous estimons, à
partir de données que nous détenons sur les usages d’un panel
représentatif d’internautes français, qu’environ 80 % de ces internautes ont
utilisé au moins une fois un annuaire du web en 2000
[1].
La création des catégories de l’annuaire ainsi que les classements des sites
sont réalisés par des humains : les catégories sont créées de manière
systématique, et la validité et la pertinence des sites répertoriés sont en
général garanties par le traitement humain. Cette intervention humaine
constitue un avantage par rapport aux moteurs de recherche classiques (tels
que Altavista, Google, etc.) qui sont alimentés par des robots, lesquels ont
des difficultés à évaluer la pertinence des sites et à les classer selon leurs
contenus. Les annuaires sont structurés de manière hiérarchique :
l’utilisateur navigue dans les catégories en passant du général au particulier,
jusqu’à atteindre l’information qu’il recherche. De plus, la plupart des
annuaires enrichissent les possibilités de navigation en ajoutant des renvois
entre catégories proches en termes de contenu.
L’étude présentée dans cet article s’inscrit dans le cadre du projet TypWeb,
où nous nous sommes intéressés à une large palette d’usages d’internet, dont
notamment la recherche d’information. Nous avons étudié l’usage des deux
principaux services disponibles sur le web pour réaliser cette tâche : les
moteurs de recherche, d’une part
[2], et les annuaires ou guides du web, d’autre
part.
Nous avons mené une étude comparative de huit annuaires totalement ou
partiellement dédiés au web francophone : Looksmart, Lycos, MSN,
Nomade, Open Directory, Voila, Voila Pages Perso et Yahoo. Cette étude
concerne les données disponibles sur ces annuaires en février 2002, elle
poursuit une étude similaire menée en mars 2001 sur les mêmes annuaires, à
l’exception de Looksmart et Lycos. Nous avons développé un logiciel
spécifique qui permet d’explorer la structure et le contenu d’un annuaire
(catégories et liens entre elles, sites répertoriés et descriptifs qui y sont
associés). Avec ces données, nous avons d’abord étudié, dans une approche
qualitative, la « philosophie » d’organisation de l’information mise en œuvre
par chaque annuaire. Nous avons ensuite complété ce travail par des
investigations quantitatives : (1) calcul d’indicateurs statistiques permettant
d’avoir des informations sur la structure et la complexité de chaque
annuaire ; (2) calcul des spécificités des annuaires en termes de contenus
(thèmes couverts, choix éditoriaux). Nous présentons ici les résultats de cette
étude pour les annuaires en 2002, ainsi que les évolutions les plus notables
observées d’une année sur l’autre. En outre, nous avons suivi les usages de
ces annuaires par une cohorte de 1 140 internautes du panel français de
NetValue (données d’usage de l’année 2000) utilisé dans le cadre du projet
TypWeb mentionné ci-dessus, ce qui nous permet de croiser les points de
vue des concepteurs des annuaires avec celui de leurs utilisateurs.
QU’EST-CE QU’UN ANNUAIRE DU WEB ?
S’inscrivant dans l’offre d’outils d’aide à la recherche de contenus et de
services sur le web, un annuaire propose à l’internaute un classement
hiérarchisé de sites regroupés dans des catégories thématiques. En termes
structurels, l’ensemble de ces catégories forme un arbre dont la racine est la
page d’accueil et les nœuds, les différentes catégories de l’annuaire ; dans
ces catégories, sont placés les sites ou pages indexés, qui sont accompagnés
d’une description plus ou moins détaillée de leur contenu.
Les annuaires diffèrent non seulement par leur taille, en nombre d’URL
[3]
présentées et indexées, mais également par leur structure. La structure d’un
annuaire peut être définie par le croisement de trois éléments :
- Multiindexation : certains annuaires indexent la même URL dans plusieurs
catégories différentes ; une même adresse peut ainsi figurer plusieurs fois
dans un annuaire, à des endroits différents.
- Position des URL indexées dans l’arbre : certains annuaires proposent des
URL dans l’ensemble de leurs catégories, d’autres ne les classent que dans
les catégories terminales (qui n’ont pas de catégorie-fille).
- Utilisation des renvois : des annuaires comme Yahoo proposent, à
l’intérieur d’une catégorie, des liens vers des catégories qui ne sont pas
situées directement en dessous dans l’arbre, mais situées à un tout autre
endroit de l’annuaire.
Figure 1.
Un exemple d’annuaire : Yahoo France
L’exemple présenté dans la figure 1 permet de montrer ces trois éléments :
- multiindexation : le site « Hackers, bons ou mauvais élèves d’internet ? »
est également indexé par Yahoo dans la catégorie « Technologies de
l’information et de la communication » :
- position des URL : dans Yahoo, les URL sont réparties tout au long de
l’annuaire. La catégorie « Hacking » n’est pas terminale, puisqu’elle contient
une sous-catégorie « Pages de Hackers », et propose quatre URL.
- utilisation des renvois : Yahoo propose des renvois, signalés par le signe
- @@ »à la fin du nom de la catégorie visée. Le lien noté « Magazines@ »
pointe vers la catégorie « Hackers » dans :
Structurellement, chaque annuaire est ainsi une combinaison de ces trois
éléments, ce que représente le tableau 1 pour les huit annuaires étudiés en
2002.
Tableau 1.
Description structurelle des annuaires
Tableau 1. Description structurelle des annuaires
Les URL ne sont
indexées que dans Utilisation
Multiindexation les catégories de renvois
terminales
Looksmart
Lycos
MSN
Nomade
Open Directory
Voila
Voila Pages Perso
Yahoo
Clé de lecture : Looksmart fait de la multiindexation, indexe à tous les niveaux de l’arborescence et
n’utilise pas de renvois ( = oui, = non)
A ces différences de structure, s’ajoute une spécificité de conception pour
Voila Pages Perso : cet annuaire est géré de manière complètement
automatique par « auto-inscription
[4] », tandis que pour les autres, chaque
soumission de site par son concepteur est examinée manuellement par
l’équipe éditoriale de l’annuaire ; en cas d’acceptation de la soumission, le
site est inséré dans l’arborescence de l’annuaire accompagné d’un descriptif,
selon des règles propres à chaque annuaire.
USAGES DES ANNUAIRES DU WEB
Dans le cadre du projet TypWeb, nous disposons des données d’usage
d’internet par un panel de 1 140 internautes français durant toute l’année
2000
[5], au sein desquelles nous avons identifié et analysé l’usage des annuaires
du web. Il en ressort que cet usage concerne une large partie des internautes de
notre panel (901 sur 1 140, soit 79 %). En outre, environ 10 % des sessions
web comportent un accès à un annuaire et ces sessions sont significativement
plus longues que la moyenne : la durée moyenne d’une session avec accès à un
annuaire est de 38 minutes, contre 25 minutes pour une session web en
général. Dans la très grande majorité (92 %) des sessions comportant l’usage
d’un annuaire, un seul annuaire est utilisé. En ce qui concerne les internautes,
la grande majorité d’entre eux (62 %) se contente de l’usage d’un ou deux
annuaires web sur l’ensemble de l’année 2000 (voir tableau 2).
Tableau 2.
Nombre d’annuaires différents utilisés par les panélistes en 2000
Tableau 2. Nombre d’annuaires différents utilisés par les panélistes en 2000
Nombre d’annuaires Part des panélistes
différents utilisés en 2000 Nombre de panélistes utilisateurs d’annuaires
1 306 34 %
2 252 28 %
3 175 19 %
4 108 12 %
5 43 5 %
6 et plus 17 1 %
Etant donné les différences de conception et de contenus entre annuaires et
moteurs de recherche classiques, on aurait pu s’attendre à des différences
importantes entre les populations utilisant (ou pas) ces outils
[6]. Mais ceci
n’est pas vérifié dans nos données : 94 % des non-utilisateurs des moteurs
sont également non utilisateurs d’annuaires, et 85 % des faibles utilisateurs
de moteurs sont soit non utilisateurs, soit très faibles utilisateurs des
annuaires. Pour les usages intensifs, nous constatons que 61 % des
utilisateurs intensifs de moteurs sont également des utilisateurs intensifs
d’annuaires
[7].
Plus encore, quel que soit l’outil de recherche d’information sur internet
utilisé, son intensité d’usage est corrélée avec l’intensité d’usage d’internet
et reflète donc des usages avancés (les femmes les utilisent nettement moins
que les hommes, les personnes âgées moins que les jeunes, les récents
internautes moins que les anciens…). L’usage d’un outil de recherche
d’information est donc lié à un usage intensif du web (sessions de navigation
nombreuses et longues).
Ce constat est en définitive cohérent avec le fait que pour l’internaute,
l’accès aux sites peut se faire soit par l’utilisation d’un moteur de recherche
interne à l’annuaire, soit par la navigation de catégorie en catégorie, jusqu’à
trouver, idéalement, celle qui correspond à la recherche. Dans la pratique, il
existe un continuum entre ces deux voies d’accès aux sites indexés, et la
plupart des annuaires proposent également un moteur de recherche
« classique » (Lycos, Nomade, Voila, Yahoo). De ce fait, on comprend
mieux qu’usage des moteurs et usage des annuaires soient entrelacés dans les
pratiques de recherche sur le web.
DES DIFFERENCES DE TAILLE ET DE STRUCTURE
Multiindexation des sites
La multiindexation des sites dans les annuaires représente un avantage non
négligeable pour l’utilisateur. En effet, le fait de pouvoir atteindre le même
site en empruntant des chemins différents dans l’annuaire permet à
l’utilisateur de s’affranchir d’un point de vue particulier (et unique, celui du
documentaliste ayant classé le site en question) pour atteindre l’information
recherchée. Ainsi, dans l’exemple du site « Hackers, bons ou mauvais élèves
d’internet ? » cité ci-dessus, un premier chemin permet d’atteindre le site
selon une classification thématique (point d’entrée : « Informatique et
internet ») alors qu’un deuxième chemin permet de l’atteindre selon un point
de vue de localisation géographique (point d’entrée : « Exploration
géographique »).
Dans ce cadre, la description d’un annuaire du point de vue du nombre
d’URL indexées doit tenir compte de la multiindexation (voir tableau 3). Si
un annuaire peut en effet faire figurer la même URL à plusieurs endroits, il
présentera à l’utilisateur plus d’adresses qu’il n’en indexe effectivement,
c’est pourquoi il est important de distinguer le nombre d’URL présentées du
nombre d’URL uniques indexées. Yahoo France présente ainsi davantage
d’URL aux internautes que Nomade, mais il contient moins d’URL uniques
que celui-ci. Looksmart est quant à lui l’annuaire utilisant le plus la
multiindexation, puisqu’une URL y figure en moyenne plus de 9 fois ; ceci
est dû au fait que, n’utilisant pas les renvois, Looksmart duplique des pans
entiers de son annuaire, ce qui explique également sa taille en nombre
d’URL présentées comme en nombre de catégories. Cela étant, Looksmart
s’impose comme l’annuaire le plus important en nombre d’URL uniques,
avec plus de 160 000 adresses répertoriées.
Tableau 3.
Nombre d’URL indexées et multiindexation en février 2002
Tableau 3. Nombre d’URL indexées et multiindexation en février 2002
Nombre total d’URL Nombre d’URL Taux de répétition
présentées uniques moyen des URL
Looksmart 1 552 553 162 730 9,54
Lycos 75 401 67 168 1,12
MSN 137 097 76 773 1,78
Nomade 179 575 143 461 1,25
Open Directory 32 496 32 496 1
Voila 202 269 62 467 3,24
Voila PP 67 447 39 690 1,70
Yahoo 238 873 130 393 1,83
Les annuaires ont connu des taux de croissance très divers entre 2001 et
2002 (voir Tableau 4) : ainsi, si Open Directory, Nomade et Voila n’ont
presque pas changé de taille, MSN, Yahoo et Voila Pages Perso ont
sensiblement augmenté leur nombre d’URL indexées. La part des URL
indexées en 2001 encore présente dans l’annuaire l’année suivante nous
renseigne sur l’effort consacré à la mise à jour : MSN a ainsi supprimé 44 %
de ses adresses de 2001, tandis que Yahoo n’en a supprimé que 14 %.
Tableau 4.
Nombre d’URL uniques en 2001 et évolution en 2002
Tableau 4. Nombre d’URL uniques en 2001 et évolution en 2002
Taux de répétition Evolution Part des URL
Nombre d’URL moyen des URL du nombre d’URL de 2001 présentes
uniques en 2001 en 2001 2001-2002 en 2002
MSN 46 137 1,35 + 66,4 % 56,5 %
Nomade 138 832 1,32 + 3,3 % 71,9 %
Open Dir. 32 496 1 pas d’évolution 100,0 %
Voila 59 744 2,25 + 4,5 % 72,1 %
Voila PP 27 923 1,81 + 42,1 % 58,0 %
Yahoo 106 832 1,8 + 22,0 % 86,5 %
Profondeur des annuaires
Tableau 5.
Profondeur des annuaires en 2002
Tableau 5. Profondeur des annuaires en 2002
Niveau moyen
Nombre de Profondeur Profondeur des URL
catégories maximum moyenne présentées
Looksmart 122 576 17 8,10 8,04
Lycos 7 100 9 4,73 4,51
MSN 15 955 7 4,42 4,19
Nomade 12 318 9 4,96 4,88
Open Directory 5 243 10 5,07 4,36
Voila 12 245 9 4,67 4,66
Voila PP 636 5 2,99 2,70
Yahoo 58 362 16 7,61 6,70
Les annuaires varient beaucoup en termes de profondeur, c’est-à-dire de
nombre et de position des catégories dans l’arbre, le niveau de profondeur
« 1 » étant l’entrée générale d’un annuaire, équivalente à sa page d’accueil
(voir tableau 5).
Une profondeur importante est le signe d’une division fine en domaines et
sous-domaines, et garantit la précision des catégories de l’annuaire ; ceci
assure à l’utilisateur de trouver ce qu’il recherche avec précision, mais au
prix d’un nombre important de « clics » pour arriver à la catégorie qui
l’intéresse. A l’inverse, un annuaire peu profond propose des catégories plus
grossières, au contenu plus hétérogène, mais l’utilisateur parviendra plus
rapidement à la catégorie pertinente pour sa recherche. Entre ces deux
extrêmes, les annuaires tentent de trouver un compromis acceptable entre
navigabilité et finesse des catégories.
La profondeur d’un annuaire n’est donc pas directement liée au fait d’avoir un
nombre important d’URL à présenter, mais semble plutôt résulter d’un choix
organisationnel. Cette hypothèse est confirmée par l’examen du nombre
moyen d’URL indexées par catégorie comportant au moins une URL : tandis
que Nomade et Voila proposent en moyenne près de 17 URL par catégorie
contenant au moins une URL, Lycos, Open Directory, Yahoo et MSN en
offrent entre 5 et 10 en moyenne, et Voila Pages Perso près de 112.
Sous-catégories et renvois
Les renvois modifient beaucoup la physionomie de l’annuaire : ils facilitent
la navigation pour l’utilisateur, et permettent, pour les créateurs des
annuaires, de pallier la rigidité de l’organisation hiérarchique. En
introduisant ces renvois, les concepteurs des annuaires enrichissent les
possibilités de navigation hypertextuelle au sein de l’annuaire.
Les cinq annuaires utilisant les renvois (Lycos, Nomade, Open Directory,
Voila et Yahoo) n’en font pas le même usage (voir tableau 6) : tandis que
Nomade et Voila en font un emploi modéré (seuls 1,6 % des catégories de
Voila utilisent les renvois, proposant 1,4 renvois en moyenne), Lycos, Open
Directory et Yahoo y font massivement appel : ce dispositif concerne près de
20 % des catégories de Yahoo, lesquelles comportent près de 4 renvois en
moyenne.
Tableau 6.
Utilisation des renvois
Tableau 6. Utilisation des renvois
Part des
Nombre Nombre moyen catégories avec
Nombre total de catégories Nombre total de renvois renvoi dans
de catégories avec renvoi de renvois par catégorie l’ensemble des
avec renvoi catégories
Looksmart 122 576 - - - -
Lycos 7 100 1 058 3 421 3,23 14,9 %
MSN 15 955 - - - -
Nomade 12 318 666 1 084 1,63 5,4 %
Open Dir. 5 243 527 1 829 3,47 10,0 %
Voila 12 245 215 354 1,65 1,7 %
Voila PP 636 - - - -
Yahoo 58 362 12 847 48 001 3,74 22,0 %
Les renvois rendent les annuaires plus navigables, permettant de passer
facilement d’une catégorie à une autre. Pour Yahoo, on constate que l’ajout
des renvois fait passer de 15 900 à 23 300 le nombre de catégories
permettant d’accéder à une autre catégorie, en suivant soit le lien
hiérarchique (catégorie-fille), soit le lien de renvoi ; le nombre moyen de
liens vers d’autres catégories passe alors de 3,7 à 4,6. Voila et Nomade, au
contraire, utilisent très peu les renvois. Looksmart développe une toute autre
stratégie, consistant à copier des parties entières de son annuaire à plusieurs
endroits, ce qui explique son nombre très élevé de catégories ainsi que le fort
taux de répétition des URL.
Des principes organisationnels variés
Dans cette partie de l’étude, nous nous sommes intéressés aux principes qui
gouvernent l’organisation et la structuration des annuaires. Il existe plusieurs
modèles d’organisation de l’information et des connaissances, qui
proviennent de domaines aussi variés que la représentation des
connaissances en Intelligence Artificielle, de la construction de thesaurus en
documentation et en sciences de l’information, ou de la constitution de
répertoires et autres annuaires pratiques (pages jaunes, annuaires
professionnels…). Nous pouvons distinguer trois modes d’organisation
prototypiques :
- Catégorisation systématique de domaines des activités humaines, des
objets de la vie quotidienne, etc. dans une approche de type ontologique.
C’est l’approche classique en intelligence artificielle et en documentation
- sciences de l’information).
- Catalogage moins systématique, plus pratique, centré sur les activités
humaines (activités marchandes, loisirs, formes diverses de sociabilité…),
dans une approche du type « pages jaunes » ou annuaire professionnel.
- Catégorisation du « monde d’internet » : cartographie des sites et des
services disponibles sur internet, sans avoir de critères précis pour la
classification et la catégorisation des objets du monde, des activités
humaines, etc. Cette approche a été spontanément mise en œuvre sur
différents portails pour organiser l’information selon des catégories propres à
internet (exemples : chat, achat en ligne…).
Ces différents modèles ont été adoptés, de manière plus ou moins consciente
et revendiquée, par les annuaires du web : aucun de ceux que nous avons
étudiés ne correspond strictement à l’une ou l’autre de ces catégories et ils
s’avèrent assez différents des objets classificatoires habituels : ontologies,
thesaurus, etc.
A titre d’exemple, l’examen des annuaires Yahoo et Voila révèle des modes
d’organisation bien différenciés. Yahoo a une approche de classification
systématique, révélée par un grand nombre de catégories (58 000 contre
12 000 pour Voila), organisées dans un arbre ayant 16 niveaux de
profondeur (contre 9 niveaux pour Voila). Yahoo présente également un
réseau très dense formé par un système de renvois entre catégories (48 000
renvois, contre 350 dans Voila). Les catégories de premier niveau les plus
importantes dans Yahoo sont « Exploration géographique » et « Commerce
et économie », ce qui indique une démarche de classification systématique ;
en effet, Yahoo classe de manière privilégiée un site dans l’une ou l’autre de
ces deux grandes catégories, si d’autres classements thématiques sont
pertinents pour ce site, le mécanisme des renvois est alors mis en œuvre pour
rendre compte de cette multiclassification (voir tableau 7). Le côté
encyclopédique de Yahoo se manifeste également par la présence de
catégories telles que « Sciences humaines » dès le premier niveau. A
l’opposé, Voila présente une approche pragmatique, centrée sur les services
liés aux différentes activités humaines : activités économiques et sociales,
sans oublier les loisirs. Le côté pratique de Voila est manifeste si l’on
examine les catégories de premier niveau : nous relevons notamment la
présence d’une catégorie « Achat, vie pratique », représentant 13,7 % des
sites indexés, qui n’a pas d’équivalent au premier niveau chez Yahoo.
Tableau 7.
Répartition dans les catégories de premier niveau des URL
présentées, et correspondance entre catégories : Voila et Yahoo
Tableau 7. Répartition dans les catégories de premier niveau des URL
présentées, et correspondance entre catégories : Voila et Yahoo
Voila Yahoo
3 Exploration géographique 47,4 %
8,4 % Villes, régions, pays4,2 % Tourisme, voyages }
7,2 % Business, économie Commerce et économie 21,7 %
7,9 % Arts, culture Art et culture 8,9 %
5,0 % Sport, plein air }
5,5 % Loisirs, sorties Sports et loisirs 5,1 %
5,2 % Informatique, internet Informatique et internet 2,0 %
3,0 % Enseignement Enseignement et formation 0,7 %
1,8 % Administrations, politique Institutions et politique 0,2 %
1,8 % Sciences, recherche Sciences et technologies 2,8 %
1,8 % Sujets de société Société 5,4 %
1,6 % Santé, médecine Santé 1,2 %
1,4 % Actualités, médias Actualités et médias 2,0 %
Sciences humaines 1,6 %
Divertissement 0,8 %
Références et annuaires 0,2 %
13,7 % Achats, vie pratique
1,4 % Emploi
Clé de lecture : dans Voila, la catégorie de premier niveau « Achats, vie pratique » contient 13,7 % des
URL présentées par cet annuaire, et n’a pas d’équivalent au premier niveau de Yahoo. La catégorie
« Exploration géographique de Yahoo correspond aux catégories « Villes, régions, pays » et « Tourisme,
voyages » de Voila.
Cette diversité des principes d’organisation des annuaires a déjà été mise en
évidence par Van der Walt
[8] : pour passer d’une catégorie à ses sous-catégories,
un annuaire peut mettre en œuvre simultanément des principes très différents
(lien générique-spécifique, lien partie-tout, liste alphabétique, etc.). De fait, les
annuaires ne suivent pas rigoureusement les principes issus des disciplines
classificatoires
[9], et leurs principes organisationnels traduisent les contraintes qui
ont régi leur mise en place dans un contexte de croissance rapide d’internet et
avec l’obligation d’assurer une large couverture thématique.
Cela étant, les principes de structuration dépendant des tâches et des profils
d’usage, il n’est pas évident qu’un principe universel d’organisation puisse
répondre à tous les besoins des internautes. Les principes de type thesaurus
ont été développés dans un contexte très particulier, celui des bibliothèques,
et à destination de publics bien définis (élèves, étudiants, enseignants,
chercheurs). Sur internet, les contenus accessibles sont de nature différente
de ceux des bibliothèques, les tâches et les profils des utilisateurs sont très
variés, de sorte que les modes d’accès à l’information structurée (sous forme
d’annuaire de sites ou sous une autre forme d’ailleurs) devraient tenir
compte de cette grande diversité.
Les annuaires se recoupent peu
L’ensemble des huit annuaires étudiés comporte près de 421 000 sites
uniques indexés. Nous avons constaté que les annuaires se recoupent peu de
manière générale : si l’on exclut Voila Pages Persos pour ne considérer que
les sept annuaires généralistes, ceux-ci ont seulement 1 806 URL en
commun (0,5 % de l’ensemble), tandis que 62,7 % de l’ensemble des URL
indexées ne le sont que par un seul des sept annuaires. Chaque annuaire a
donc ses spécificités, ce que vient confirmer l’examen des taux de
recouvrement entre annuaires deux à deux
[10] (voir tableau 8) : de manière
générale, le taux de recouvrement moyen entre les différents annuaires est de
22 %, et de 24,3 % si l’on exclut le très spécifique Voila Pages Perso.
Dans le détail, nous notons en premier lieu que la spécificité de l’annuaire de
sites personnels Voila Pages Perso est éminemment confirmée par les très
faibles taux de recouvrement avec les autres annuaires, en particulier dans le
sens VoilaPP autres annuaires (au maximum 10 % des URL de Voila
Pages Perso sont indexées par un autre annuaire), alors même que Voila
Pages Perso est le plus petit annuaire de tous.
Tableau 8.
Part des URL d’un annuaire A également présentes
dans l’annuaire B
Tableau 8. Part des URL d’un annuaire A également présentes
dans l’annuaire B
partage n %
de ses URL Looksmart Lycos MSN Nomade Open Voila Voila PP Yahoo
avec Directory
Looksmart 100,0 % 18,6 % 16,1 % 31,1 % 7,0 % 18,3 % 2,4 % 33,5 %
Lycos 45,8 % 100,0 % 27,4 % 44,5 % 11,5 % 28,1 % 3,1 % 43,2 %
MSN 33,9 % 23,5 % 100,0 % 34,4 % 11,3 % 24,1 % 1,2 % 37,0 %
Nomade 35,2 % 20,4 % 18,4 % 100,0 % 8,7 % 21,0 % 2,8 % 32,3 %
Open Dir. 36,1 % 24,3 % 27,8 % 40,0 % 100,0 % 25,1 % 2,0 % 35,1 %
Voila 47,6 % 29,7 % 29,7 % 48,2 % 12,6 % 100,0 % 3,3 % 42,1 %
Voila PP 10,0 % 5,2 % 2,4 % 10,0 % 1,6 % 5,2 % 100,0 % 6,9 %
Yahoo 41,7 % 21,9 % 21,8 % 35,5 % 8,5 % 20,2 % 2,1 % 100,0 %
Clé de lecture : 35,2 % des URL de Nomade sont également indexées par Looksmart, tandis que 31,1 %
des URL de Looksmart sont dans la base de Nomade.
D’autre part, la taille des annuaires ne semble pas être le facteur déterminant
de leurs recoupements : entre les trois plus grands annuaires Looksmart,
Nomade, Yahoo, le taux de recouvrement deux à deux varie de 30 à 40 %,
tandis que les petits annuaires ne sont pas « inclus » dans les grands. Ainsi,
Open Directory, de taille modeste, partage en moyenne moins d’un tiers de
ses URL avec d’autres annuaires, pourtant jusqu’à quatre fois plus gros que
lui, soit autant que Looksmart, Nomade et Yahoo entre eux. Il apparaît donc
que chaque annuaire indexe des sites qui lui sont spécifiques.
Ceci est confirmé par l’examen, pour chaque annuaire, de la proportion
d’URL qu’il est le seul à indexer (Tableau 9). A l’exclusion de Voila Pages
Perso, dont le contenu est particulier (près de 80 % d’URL spécifiques), on
constate ici que Looksmart, le plus gros des annuaires, est en même temps
celui dont la spécificité est la plus importante (43,2 %), résultat que nous
pouvions prévoir. Moins attendu est le taux de spécificité de MSN (40,2 %
d’URL spécifiques), pourtant deux fois et demie plus petit que Looksmart, et
de Yahoo (33,4 %), ce dernier étant relativement peu spécifique étant donné
sa taille. Il semble qu’il y ait donc un double effet participant à la spécificité
des annuaires : leur taille, qui augmente statistiquement leur chance
d’indexer des sites que les autres n’ont pas, mais aussi leur positionnement
éditorial, à travers le choix des sites indexés.
Tableau 9.
Part des sites indexés spécifiques à chaque annuaire
Tableau 9. Part des sites indexés spécifiques à chaque annuaire
Nombre de sites
Annuaire Nombre de sites spécifiques de Part des sites
indexés l’annuaire spécifiques
Looksmart 161 974 70 058 43,2 %
Lycos 65 866 16 241 24,7 %
MSN 76 712 30 862 40,2 %
Nomade 143 274 55 122 38,5 %
Open Directory 31 308 10 629 33,9 %
Voila 62 411 14 261 22,8 %
Voila PP 39 417 31 384 79,6 %
Yahoo 130 101 43 525 33,4 %
Nous avons poursuivi notre analyse des sites présents dans deux ou plusieurs
annuaires en nous posant la question suivante : si un annuaire A
1 regroupe
un ensemble de sites sous une catégorie donnée, jusqu’à quel point un
annuaire A
2 va-t-il rapprocher ce même ensemble de sites ? Cette question
est d’une grande importance du point de vue des usages : la recherche
d’information fonctionne souvent selon un principe de proximité et de
similarité. Il suffit pour s’en convaincre de penser à la recherche d’un
ouvrage dans une bibliothèque : nous avons en général une référence en tête
(un auteur, un thème…), nous repérons cette référence à un endroit
particulier de la bibliothèque (un rayon), et nous examinons ensuite ce rayon
et son voisinage afin d’affiner notre recherche et repartir avec les ouvrages
correspondant à notre requête. Dans un annuaire du web, c’est la catégorie
qui jour le rôle du rayon. Il est donc important de mesurer la cohérence (ou
la divergence) entre annuaire dans leur classement des sites (ouvrages) dans
les catégories
[11] (rayons).
En utilisant des calculs formels sur des graphes, nous avons construit des
indicateurs numériques de l’accord entre annuaires. Si nous n’avons pas le
loisir de développer ici les détails techniques de ce calcul, nous pouvons
affirmer que les annuaires sont assez souvent en désaccord sur le
regroupement et la classification des sites qu’ils indexent en commun : deux
sites qui ont été regroupés sous la même catégorie dans un annuaire A1 se
retrouvent assez souvent classés dans des catégories disjointes et éloignées
dans un annuaire A2. Ceci s’explique par des facteurs structurels
(multiindexation, taille et finesse des catégories…) mais également par des
facteurs plus qualitatifs, liés aux principes de classement (coexistence des
découpages géographiques et thématiques…) et aux choix éditoriaux
spécifiques à chaque annuaire.
Des choix éditoriaux marqués
Dans cette partie, nous avons souhaité étudier la spécificité de chaque
annuaire en termes éditoriaux : sur un thème donné (par exemple l’art,
l’économie ou la politique), les annuaires présentent-ils des contenus
différents et jusqu’à quel point ? Pour répondre à cette question, nous avons
qualifié le contenu des annuaires à partir des titres et des descriptifs qu’ils
donnent des sites indexés sur un thème donné. La méthode suivante a été
adoptée :
- nous avons d’abord choisi des catégories générales présentes au premier ou
deuxième niveau pour les huit annuaires étudiés ;
- ensuite, nous avons extrait pour chaque annuaire et pour l’ensemble des
sites classés sous la catégorie choisie, les titres et descriptifs associés par
l’annuaire à ces sites ;
- le corpus ainsi constitué a été traité avec un outil d’analyse de données
textuelles (le logiciel Alceste
[12] ). Cet outil nous a permis d’identifier le
vocabulaire spécifique à chaque annuaire en ce qui concerne la description
des sites du thème traité. Nous sommes ainsi en mesure de dégager des
- profils thématiques » de chaque annuaire.
Une première étude a été consacrée au thème « Art et culture », et une
deuxième à la catégorie « Commerce et économie », dont nous présentons ici
les résultats
[13].
L’examen du vocabulaire spécifique de chaque annuaire montre une
orientation très forte de Looksmart vers l’immobilier (vocabulaire
spécifique : immeuble, locatif, résidentiel, maison, banlieue, annonce…) ;
Nomade affiche un profil assez généraliste, avec une orientation marquée
vers l’offre de services informatiques (solution, conception, informatique,
internet, intranet, logiciel, hébergement…), tandis que Lycos présente une
forte spécialisation dans le tourisme (gîte, hôtel, tourisme, camping, visiter,
restaurant, réservation…), et Voila dans l’achat en ligne et les services
bancaires et financiers (télécommerce, paiement sécurisé, et banque,
boursier, financier, crédit, chèque…). MSN met en avant un classement
géographique en privilégiant des sites nord-américains et francophones
(Amérique, Canada, canadien, Québec, Suisse, Bruxelles…). Enfin, Yahoo
et Open Directory affichent tous deux un positionnement assez diversifié,
qui semble refléter un classement par corps de métier.
Figure 2.
Classification des 7 annuaires généralistes en 2002 sur la base des
descriptifs des sites de la catégorie « Commerce et économie »
La classification des annuaires sur cette base, présentée dans la figure 2,
oppose le très spécifique Looksmart à l’ensemble des autres annuaires,
lesquels se répartissent en deux groupes : le premier semble privilégier
l’offre de services en ligne (bancaires et financiers pour Voila, touristiques
pour Lycos, informatique pour les entreprises en ce qui concerne Nomade),
tandis que le second paraît plus orienté vers un présentation plus large
incluant l’ensemble des métiers et des activités économiques (MSN, Open
Directory, Yahoo).
Les annuaires ont des styles différents
Chaque annuaire a une manière spécifique de présenter les sites qu’il indexe.
A titre d’exemple, les descriptions du site « Bandit Mania »
((http :// www. banditmania. com),répertorié par les 8 annuaires étudiés, sont :
Les variations entre descriptions de sites d’un annuaire à l’autre sont de
plusieurs ordres : tout d’abord, la longueur des descriptifs proposés varie
grandement d’un annuaire à l’autre. MSN propose les descriptifs les plus
courts, avec près de 9 mots en moyenne, tandis que ceux de Nomade et de
Voila sont trois fois plus longs (voir tableau 10).
Annuaire Titre Description
Banditmania – Ce Repaire des motards contient plus de 2 000 pages et
Looksmart Portail de la 1 800 photos. Dossiers, reportages, essais de motos et
moto d’accessoires, conseils, annonces.
Site non officiel de la Suzuki GSF Bandit.
Lycos Banditmania Caractéristiques, infos et actualité de la moto.
Banditmania est entièrement consacré à la moto et aux
Banditmania : le roadsters : mécanique, caractéristiques et technique,
Nomade repère des chiffres et données brutes, sons et vidéos, manuel en
motards ligne, conseils pour le pilote, opinions, forum technique,
guide moto, etc.
Bandit Mania, guide multithématique et conseils pour
MSN Bandit Mania motards.
Plusieurs centaines de pages de technique, conseils,
BanditMania : le opinions et informations illustrées par un millier de
Open site non officiel photos sur la moto et plus spécifiquement la Suzuki GSF
Directory de la Suzuki Bandit dans toutes ses cylindrées : 250,400,600,750 et
Bandit 1200 cm3.
Webzine sur les motos – L’actualité moto (toutes
marques), des dossiers, des reportages, des essais de
Voila Banditmania motos, une lettre d’information gratuite et des services
gratuits (petites annonces, moto puces, avis de
recherche, achats groupés, etc.).
200 pages de technique, de conseils et d’infos motos
illustrées par 700 photos sur le roadster phare de Suzuki
BanditMania : dans toutes ses cylindrées : Bandit GSF 250,400,600,
Voila Pages le site moto 750 et 1200 cm3. Une large part du site est consacrée à
Persos non officiel de la la moto en général avec le guide du motard et les
Suzuki Bandit informations indispensables : assurances, pilotage,
circuits, bons plans, événements, aventures, humour,
adresses pour tous les motards.
Yahoo Banditmania Actualités, dossiers, reportages, essais et mécanique.
Tableau 10.
Longueur des descriptifs de sites
Tableau 10. Longueur des descriptifs de sites
Nombre moyen de mots Nombre moyen de mots
dans le titre dans le descriptif
Tous Annuaires 3,5 19,1
Looksmart 6,2 21,4
Lycos 3,8 19,9
MSN 2,6 9,3
Nomade 3,0 28,5
Open Directory 3,2 15,2
Voila 2,8 29,3
Voila PP 3,7 18,5
Yahoo 3,1 10,4
A la longueur variable des descriptifs, correspond un style particulier à
chaque annuaire : le fait de proposer un résumé concis des sites indexés se
traduit souvent par un style « télégraphique », où les phrases sont
essentiellement nominales et la parataxe l’emporte sur la syntaxe. Ces
différences sont perceptibles à travers la répartition des catégories morpho-syntaxiques utilisées dans les descriptifs de sites (voir tableau 11).
L’analyse de la répartition des catégories grammaticales majeures (verbes,
adverbes, noms, adjectifs) pour chaque annuaire fait apparaître une opposition
forte entre Yahoo et MSN d’un côté, et Looksmart et Nomade de l’autre : chez
les premiers, noms et adjectifs sont surreprésentés, ce qui constitue la marque
d’un style haché et « télégraphique » ; dans les seconds, au contraire, les
descriptifs sont beaucoup plus « verbalisés », ce que traduit la présence forte
de verbes et d’adverbes. Ces observations ajoutées à celles sur la longueur des
descriptifs laissent penser que si certains annuaires comme Looksmart et
Yahoo sont peu loquaces, la quantité d’information qu’ils délivrent sur les
sites n’est pas proportionnelle à la longueur de leurs descriptifs, car les
tournures phrastiques d’ordre présentationnel (comme « Vous trouverez sur ce
site » ou « Ce site vous propose ») comptent pour une bonne part dans la
longueur des descriptifs de sites. De la sorte, si Looksmart ou Yahoo sont plus
brefs dans leurs descriptifs que Nomade, ils n’en disent pas moins sur les sites,
mais le disent différemment.
C’est donc plus dans la façon de décrire que dans la précision de la
description que les annuaires s’opposent, ce que traduit la répartition des
personnes pronominales et verbales employées (tableau 11) : nous voyons
une opposition très nette, autour de l’emploi de la 2e personne du pluriel,
entre les annuaires qui présentent les sites en s’adressant directement au
lecteur (Looksmart, Nomade, Voila, Voila Pages Persos) et ceux qui ne
fournissent que des indications « neutres » à l’internaute (Yahoo, MSN,
Open Directory). On note à cet égard, que ce sont les annuaires dont les
descriptifs sont les plus longs (Nomade, Voila) qui ont le plus recours à
l’emploi du « vous ».
L’analyse morpho-syntaxique des descriptifs des sites et celle des pronoms
convergent, et nous voyons deux logiques présentationnelles s’opposer :
d’un côté, l’« annuaire-interlocuteur » qui entend guider l’internaute et servir
d’intermédiaire entre lui et les sites (Looksmart, Voila, Voila Pages Perso,
Nomade) ; de l’autre, l’« annuaire relais d’information » adoptant une
posture d’intermédiation plus neutre (Lycos, Open Directory, MSN, Yahoo).
C’est la position de l’annuaire vis-à-vis de l’utilisateur qui est en jeu ici.
ANNUAIRES ET PARCOURS SUR LE WEB
Nous avons montré au début de cette étude comment le recours aux
annuaires est inscrit dans les pratiques des utilisateurs ; à l’inverse, les sites
indexés par les annuaires correspondent-ils aux pratiques ? Si les annuaires
ne peuvent avoir la prétention de couvrir l’ensemble du web et opèrent une
sélection des sites pour ne conserver que ceux de référence, il importe
toutefois de voir s’ils couvrent réellement les sites et les pages visitées par
les internautes.
Pour le savoir, nous avons confronté les informations recueillies sur les
annuaires aux données de trafic issues de deux cohortes d’internautes, la
première que nous avons déjà mobilisée dans la section précédente, est
constituée de 1 140 internautes suivis sur l’année 2000, et la seconde est
composée de 1 500 internautes observés durant l’année 2001. Nous
disposons, pour l’ensemble des années 2000 et 2001, de la liste complète et
horodatée des URL visitées sur le web par ces deux cohortes ; ceci nous
permet de confronter de manière croisée les annuaires tels qu’ils
apparaissent en mars 2001 et mars 2002, et les parcours sur les web effectués
en 2000 et 2001.
Les annuaires indexant la plupart du temps des sites (c’est-à-dire les URL
des pages d’accueil des sites) et non des pages, nous avons projeté les URL
visitées par les panélistes sur les annuaires à différents niveaux de précision,
allant de la page au site ; de ce point de vue, une page est décrite par un
annuaire si celui-ci fournit
a minima une description du site où figure cette
page
[14]. Ainsi, nous constatons que dans près de 73 % des cas l’annuaire
décrit le site visité par l’utilisateur de manière générale, mais non les pages
elles-mêmes.
Une bonne couverture des sites effectivement visités
Les URL indexées par les annuaires correspondent de manière inégale à des
pages effectivement visitées (voir tableau 12).
Tableau 12.
Part des URL des annuaires correspondant à des URL visitées
Tableau 12. Part des URL des annuaires correspondant à des URL visitées
Annuaires 2001 – trafic 2000 Annuaires 2002 – trafic 2001
Looksmart n.c. 15,7 %
Lycos n.c. 24,7 %
MSN 28,5 % 25,9 %
Nomade 16,3 % 16,0 %
Open Dir. 22,1 % 23,8 %
Voila 26,6 % 26,9 %
Voila PP 5,7 % 2,1 %
Yahoo 20,9 % 17,6 %
Clé de lecture : 28,5 % des URL indexées par MSN au début 2001 correspondent à des sites
effectivement visités durant l’année 2000, et 25,9 % des URL indexées par MSN en février
2002 correspondent à des sites visités en 2001.
Nous avions vu précédemment que près de 63 % de l’ensemble des URL des
sept annuaires généralistes ne sont indexées que par un seul annuaire ; nous
pouvions donc nous attendre à ce que les annuaires aient des taux de
couverture des pages visitées par les internautes très variés. Malgré cela,
nous constatons que les taux de couverture sont assez similaires, variant
entre 26 % et 32 % pour les sept annuaires généralistes (voir tableau 13).
Nous pouvons donc supposer que, dans l’ensemble, les annuaires indexent
des sites « de référence », qui concentrent beaucoup de trafic, et qu’ils sont
là en adéquation avec leur mission de sélection et de conseil de sites. Ceci
est confirmé par le fait que, alors qu’un site vu en 2000 par notre panel est
présent en moyenne dans 8,7 sessions, ceux indexés par les annuaires sont
présents en moyenne dans 12,6 sessions.
Tableau 13.
Couverture des URL visitées dans les parcours par les annuaires
Tableau 13. Couverture des URL visitées dans les parcours par les annuaires
Annuaires mars 2001 Annuaires février 2002
Trafic 2000 Trafic 2001 Trafic 2000 Trafic 2001
Looksmart n.c. n.c. 32,8 % 36,6 %
Lycos n.c. n.c. 28,8 % 27,1 %
MSN 31,6 % 31,6 % 33,2 % 34,9 %
Nomade 32,7 % 30,8 % 28,9 % 32,1 %
Open Dir. 25,7 % 25,9 % 23,9 % 24,5 %
Voila 28,6 % 27,3 % 27,4 % 33,9 %
Voila PP 9,3 % 11,5 % 1,5 % 1,2 %
Yahoo 32,3 % 31,8 % 30,6 % 33,7 %
Les annuaires évoluent avec la fréquentation du web
Les taux de couverture croisés présentés au tableau 13 nous montrent
également un très fort effet de mise à jour des annuaires : non seulement les
annuaires dans leur version 2001 couvrent mieux le trafic de l’année 2000
que celui de 2001, mais plus encore, un an plus tard, les annuaires de février
2002 couvrent moins bien le trafic 2000 que le trafic 2001, et ce malgré une
augmentation moyenne de leur taille de 14 %. Les annuaires font donc un
réel effort pour se mettre à jour et présenter une image fiable du web.
Si l’on considère maintenant l’ensemble des URL décrites par les annuaires,
nous constatons que la couverture globale avec les parcours (annuaires 2001
trafic 2000, et annuaires 2002 trafic 2001) est constante, avec près de
49 % des URL visitées décrites par les annuaires. Cette couverture somme
toute satisfaisante des pages visitées par les annuaires nous autorise à
imaginer d’utiliser les annuaires pour décrire et caractériser les parcours des
internautes sur le web. A partir d’une liste d’URL « à plat », il devient
possible de disposer d’informations sur les contenus visités en utilisant les
descriptifs des sites proposés par les annuaires, mais également la catégorie
dans laquelle se situe le site dans la structure de l’annuaire. Voici à titre
d’exemple, la description par Open Directory en 2001 d’une session,
effectuée le 21 décembre 2000 et comportant 21 pages visitées sur 3 sites
différents :
Si les disparités en termes de structure, de modes d’organisation et de style
des différents annuaires considérés rend problématique leur utilisation
conjointe pour la description des parcours sur le web, nous croyons qu’il
s’agit néanmoins d’une méthode viable et efficace
[15]. A terme, nous pouvons
imaginer que, de la même manière que l’annuaire a vocation à diriger le
parcours sur le web, il pourra être un outil pour la compréhension des
parcours et des usages.
19:45:41 – 1 URL visitée sur www. libertysurf. fr
Liberty Surf : gratuité totale : 4 heures - 4 heures gratuites par mois.
Fournisseur d’accès gratuit à internet sur toute la France et illimité en
nombre d’heures et d’utilisateurs. Accès gratuit et portail de services.
Régional France Commerce et économie Internet Fournisseurs
d’accès Gratuit
19:46:06 – 10 URL visitées sur www. boursorama. com
Boursorama : actualité des marchés, informations financières et conseils,
cours des plus grandes places boursières, indices et palmarès.
Commerce et économie Finance Bourse
19:51:39 – 10 URL visitées sur www. anpe. fr
ANPE – Agence nationale pour l’emploi : présentation des services
de cette agence française. Consultation des offres d’emploi et informations
générales sur le secteur, notamment en ce qui concerne les aides
à l’embauche.
Régional France Commerce_et_économie Emploi
19:52:49 Fin de la session.
QUELLES EVOLUTIONS DES ANNUAIRES POUR UNE MEILLEURE
ADEQUATION AUX USAGES ?
La plupart des travaux antérieurs relatifs aux annuaires du web sont issus de
la communauté des chercheurs et des professionnels en sciences de
l’information et de la documentation
[16]. D’autres études se sont intéressées
aux annuaires en tant que systèmes de classification de référence et les ont
utilisés comme ressource pour la classification automatique de documents
[17].
Deux études, celles de Bertonèche et de Van der Walt, ont particulièrement
attiré notre attention, dans la mesure où elles présentent une comparaison de
plusieurs annuaires du web. Dans les deux cas, il s’agit d’approches
purement qualitatives, qui ont abouti à des conclusions générales très
proches de la nôtre, à savoir le constat d’une grande diversité, voire même
d’une certaine hétérogénéité entre les annuaires étudiés.
Notre étude se distingue par la combinaison d’une approche qualitative
(examen « manuel » des annuaires et de leurs modes d’organisation) et d’une
approche quantitative s’appuyant sur les outils statistiques et formels :
exploration du contenu textuel des descriptifs des sites par les annuaires et
de la structure de l’annuaire en tant que graphe.
Les spécialistes du catalogage et des bibliothèques recommandent de tenir
compte des différentes théories classificatoires et méthodologies qui sont
issues de leurs disciplines, pour les réutiliser dans le contexte du catalogage
de sites internet. Nous pensons que cette démarche classificatoire ne peut pas
être transposée telle quelle dans le monde internet pour au moins deux
raisons. La première est que le web n’est pas une encyclopédie des savoirs, il
n’est pas comparable à une bibliothèque. On y trouve à la fois des contenus,
des services, plus généralement des ressources de toute sorte, avec une très
grande diversité thématique et qualitative. La deuxième raison réside dans la
grande diversité des contextes d’usage d’internet et des profils et besoins des
utilisateurs : nous sommes loin des lecteurs des bibliothèques et autres
centres de documentation, dont on peut déterminer a priori les besoins et
dont on connaît, grâce à une longue histoire de la pratique, la composition et
les profils.
Nous retenons en revanche la proposition des spécialistes des bibliothèques
d’introduire plus de rigueur et de systématicité dans la pratique de la
construction d’annuaires du web. Par ailleurs, nous pensons que les
annuaires généralistes du web, dans le contexte de la diversité des usages
d’internet et de leur évolution rapide, ont probablement atteint leurs limites :
la gestion d’un nombre élevé de sites et de catégories semble poser
aujourd’hui des problèmes qui se manifestent par un manque de cohérence…
Il nous semble que deux pistes se dégagent pour continuer à développer des
annuaires du web adaptés aux évolutions actuelles des usages. D’une part,
les annuaires spécialisés par secteur d’activité, par aire géographique ou
culturelle, etc. D’autre part, les approches du type « communauté d’intérêt »,
qui impliquent fortement les internautes dans le processus de référencement,
d’évaluation et de classification des sites, nous semblent appropriées car
elles s’appuient sur le lien fort entre production et usage, une des
caractéristiques fondamentales d’internet.
CONCLUSION ET PERSPECTIVES
Cette étude comparative détaillée a permis de montrer les divergences entre
annuaires du web et la grande spécificité de chacun d’entre eux. Cette
diversité est observée à tous les niveaux : choix éditoriaux et structurels,
style des descriptifs de sites, choix de regroupement et de catégorisation des
sites.
La grande diversité des annuaires a un impact non négligeable sur leurs
usages potentiels, en effet, selon l’annuaire choisi par l’utilisateur pour
effectuer ses recherches, celui-ci n’aura pas accès aux mêmes informations
et celles-ci ne seront pas regroupées de la même manière. Sa vision des sites
et de leurs regroupements (thématiques ou autres) sera très marquée par les
choix éditoriaux faits par les concepteurs de l’annuaire. Ce constat sur la
diversité des annuaires et sur l’importance de l’adéquation entre le profil
éditorial de l’annuaire et les centres d’intérêt de l’utilisateur rejoint les
conclusions du travail mené dans notre équipe sur les usages des moteurs de
recherche
[18].
Il est également frappant de constater que deux outils de conceptions aussi
différentes que les annuaires et les moteurs de recherche classiques soient
utilisés par les mêmes internautes, dans le cadre des mêmes sessions de
recherche de contenus et de services. Ce qui est structurant ici, c’est le
besoin et la tâche de l’internaute, à savoir la recherche d’information. Celui-ci
a tendance à mobiliser sans distinction tous les outils disponibles pour
accomplir cette tâche.
Ces éléments nous amènent à penser que le classement des sites internet, tel
qu’il est pratiqué aujourd’hui par les annuaires généralistes, atteint sans
doute ses limites. Contrairement à la classification des savoirs et des
disciplines, pratiquée depuis des siècles par les bibliothécaires et
documentalistes, l’activité de classification systématique dans le contexte
général d’internet ne nous paraît pas tenable à long terme dans sa forme
actuelle. Une évolution vers des annuaires spécialisés, d’une part, et des
ressources fondées sur des « communauté d’intérêt », d’autre part, nous
semble être plus adaptée à l’évolution des usages.
·
BEAUDOUIN V. et al. (2002), Parcours sur internet : analyse des traces d’usage,
Rapport d’activité RP/FTR&D/7495, France Télécom R&D, NetValue, HEC.
·
BERTONECHE J. (2001), « Internet-bibliothèque : accéder au savoir ou se
l’approprier ? », SPIRALE - Revue de Recherches en Education, n°28, p. 195-214.
·
CHAN L.M., XIA L. et al. (1999), “Structural and multilingual approaches to
subject access on the Web”, 65th IFLA Council and General Conference, Bangkok,
Thailand.
·
LABROU Y., FININ T. (1999), “Yahoo ! as an Ontology Using Yahoo ! Categories
to Describe Documents”, Proceedings of the Eighth International Conference on
Information Knowledge Management, Kansas City, Etats-Unis, p. 180-187.
·
MLADENIC D. (1998), “Turning Yahoo to Automatic Web-Page Classifier”,
Proceedings of the 13th European Conference on Aritficial Intelligence ECAI’98,
Kansas City, Etats-Unis, p. 473-474.
·
REINERT M. (1993), « Les "mondes lexicaux" et leur logique », Langage et
société, n° 66, p. 5-39.
VAN DER WALT M. (1998), “The Structure of Classification Schemes Used in
Internet Search Engines”, Fifth International ISKO Conference, Lille, France,
p. 379-387.
·
VIZINE-GOETZ D. (1996), “Using Library Classification Schemes for Internet
Resources”, Proceedings of the OCLC Internet Cataloging Colloquium, San
Antonio, Etats-Unis.
[1]
Données issues du projet TypWeb, qui s’appuie sur le panel résidentiel France de
NetValue, société de mesure d’audience sur internet. Pour une description du projet et de ses
résultats, voir BEAUDOUIN
et al. 2002.
[2]
Voir ASSADI, BEAUDOUIN, dans ce numéro.
[3]
L’URL (
Uniform Resource Locator) désigne l’adresse unique d’une page (plus
généralement d’un contenu) sur le web. L’URL (ou l’adresse) d’un site désigne l’adresse de la
page d’accueil, point d’entrée du site (par exemple, h
http :// www. francetelecom. comest
l’adresse du site du Groupe France Télécom).
[4]
Voir http ://annuaire-pp.voila.fr/Info pour une description du fonctionnement de Voila
Pages Perso.
[5]
Ces données sont issues du panel français de NetValue, et mises à la disposition de France
Télécom R&D dans le cadre d’un partenariat noué au sein des projets TypWeb (2000-2001) et
SensNet (2002-2003).
[6]
On pourrait notamment s’attendre à ce que les annuaires soient plus utiles (et utilisés) aux
débutants et aux utilisateurs non avertis du web.
[7]
Voir ASSADI, BEAUDOUIN dans ce numéro, pour une typologie des utilisateurs des
moteurs de recherche en termes d’intensité d’usage.
[8]
VAN DER WALT, 1998.
[9]
Telles que les sciences de l’information et de la documentation ou la représentation des
connaissances en intelligence artificielle.
[10]
Les annuaires étant de tailles différentes, le calcul des recoupements deux à deux entre
annuaires est dissymétrique, et doit être analysé pour chaque couple d’annuaires.
[11]
Cette analogie et la métaphore du « livre à côté de celui qu’on cherche » a été inspirée par
François Rastier.
[13]
L’annuaire Voila Pages Perso ne couvre pas le thème « Commerce et économie », c’est
pour cela qu’il est absent de cette étude.
[14]
L’identification d’un site n’est pas en elle-même triviale. Si techniquement il correspond
la plupart du temps au
host (par exemple : w
www. globz. net),plusieurs
host peuvent renvoyer
vers le même site (comme w
www. yahoo. fret fr.yahoo.com), ou le
host peut ne pas être
suffisant : c’est le cas pour bien des sites personnels, où l’adresse d’un site est de la forme
http ://perso.wanadoo.fr/nom_du_site. Face à ce problème, nous avons mis en avant la notion
de
site éditorial, espace dont le contenu est géré par une seule personne ou entité, et élaboré
un système à base de règles capable de reconnaître l’adresse de ces sites, en particulier en
fonction de la syntaxe des adresses de chaque hébergeur de pages personnelles.
[15]
Développer ce point plus avant nous écarterait trop du thème de cet article ; nous nous
bornerons donc à signaler que les expériences que nous avons menées jusqu’alors sur la
description de parcours par les annuaires nous permettent d’être optimistes.
[16]
Voir en particulier : VIZINE-GOETZ, 1996 ; VAN DER WALT, 1998 ; CHAN, 1999 ;
BERTONECHE, 2001.
[17]
Voir LABROU, 1999 et MLADENIC, 1998.
[18]
Voir ASSADI, BEAUDOUIN, dans ce numéro.