Réseaux 2002/6
Réseaux
2002/6 (no 116)
320 pages
Editeur
Revue précédemment éditée par Lavoisier

Numéros antérieurs disponibles sur www.persee.fr

DOI 10.3917/res.116.0019
A propos de cette revue Site Web
Acheter en ligne

Un abonnement.

Ajouter au panier Ajouter au panier - Réseaux
abonnement annuel 2013 160 €

Tous les numéros en ligne sont immédiatement accessibles.

ATTENTION : cette offre d'abonnement est exclusivement réservée
aux particuliers. Pour un abonnement institutionnel, veuillez
vous adresser à l'éditeur de la revue ou à votre agence d'abonnements.

Cairn.info respecte votre vie privée
Alertes e-mail

Recevez des alertes automatiques relatives à cet article.

S'inscrire Alertes e-mail - Réseaux

Être averti par courriel à chaque nouvelle parution :
d'un numéro de cette revue
d'une publication de Valérie Beaudouin
d'une publication de Serge Fleury
d'une publication de Marie Pasquier
d'une publication de Benoît Habert
d'une publication de Christian Licoppe
d'une citation de cet article

Votre adresse e-mail

Gérer vos alertes sur Cairn.info

Cairn.info respecte votre vie privée

Vous consultezDecrire la toile pour mieux comprendre les parcours

Sites personnels et sites marchands

AuteursValérie Beaudouin du même auteur



Dans une perspective d’étude des usages d’internet, l’analyse des caractéristiques des objets rencontrés sur le web est une étape indispensable. En effet, il apparaît nécessaire d’avoir une représentation formelle de la structure des sites et de leurs contenus avant de pouvoir comprendre la logique des parcours sur ces sites[1] [1] Nous remercions pour leur relecture critique Thomas Beauvisage,...
suite
.

2 Si l’on se place sur le poste de l’utilisateur, les systèmes de recueil de traces d’utilisation d’internet permettent de récupérer les adresses des fichiers constituant la page ( URL ), ce qui ne nous dit rien ou pas grand-chose sur leur contenu. Il est donc nécessaire, pour donner sens à une navigation sur le web, d’explorer la matière formelle et sémantique qui se cache derrière une URL, autrement dit de retourner sur la page visitée pour en explorer la forme et le contenu. L’étude des parcours est donc indissociable de l’étude des productions de la toile, à la fois pour donner sens aux parcours et pour montrer comment la structure et les contenus des sites agissent sur les visites. Typer les contenus et les formes constitue un préalable indispensable. Une telle approche permet de nourrir l’étude des parcours, mais aussi d’apporter des indications sur les modes de publication présents sur le web et de voir comment est organisée la circulation à travers un site donné et quelles sont les formes et structures des documents qui s’offrent aux visiteurs. Elle permet d’aborder la question du sens donné aux parcours par les acteurs, à la fois pour ceux qui naviguent, car se sont le contenu et la forme qui vont guider leur activité, et pour ceux qui créent les sites, qu’ils soient marchands ou non marchands, car ils cherchent, à travers le contenu et la forme à orienter l’activité des visiteurs.

3 Nous avons sélectionné deux types de production sur le web : les sites marchands et les sites personnels qui forment deux catégories socialement constituées et diamétralement opposées. Le choix de ces deux catégories de sites répond d’abord à un souci de diversification de l’échantillon. Il répond aussi à un désir de valider les hypothèses sur l’articulation du web marchand et du web non marchand[2] [2] Voir GENSOLLEN, 1999, qui le premier avait annoncé :...
suite
, qui posent que l’existence du second serait indispensable à la survie du premier. Les sites personnels présentent à nos yeux un intérêt supplémentaire. De nombreux travaux ont tenté de montrer que ces derniers constituaient un genre à part entière[3] [3] Voir AMITAY, 1999 ; REHM, 2002. ...
suite
, voire le premier genre exclusivement numérique[4] [4] DILLON, GUSHROWSKI, 2000. ...
suite
. Il nous semble au contraire que la catégorie des sites personnels est la plus hétérogène de la toile et la plus opaque. Hétérogène, car s’y côtoient des sites ayant atteint un haut degré d’élaboration en termes de contenu et de structure et des pages embryonnaires ; opaque, car les adresses des sites, qui correspondent le plus souvent au nom de leur concepteur, donnent en fait peu d’indications sur le contenu du site. Pour l’analyse des parcours sur le web, la qualification des sites personnels par leurs contenus devient particulièrement cruciale.

4 Nous avons adopté une double perspective pour décrire les objets de la toile. La première, qui se situe clairement du côté de la production, consiste à montrer les caractéristiques propres à ces deux grandes catégories de sites et vise à proposer des critères qui pourront permettre de « reconnaître » automatiquement les genres. La seconde se situe dans une perspective de réception, puisque nous analysons un corpus de pages personnelles visitées[5] [5] Les pages personnelles visitées sont des pages appartenant...
suite
par une cohorte d’internautes. Cette cohorte est extraite du panel résidentiel France de NetValue[6] [6] NetValue est une société de mesure d’audience sur internet :...
suite
. Cette approche vise à montrer comment la nature des pages varie selon l’endroit où celles-ci sont hébergées, et par conséquent visitées, et comment elle joue sur la manière dont les sites sont visités.

5 Dans une perspective comme dans l’autre, la page est le lieu de contact entre la production et la réception, puisque, d’une part, elle se situe dans le processus de création d’un site et, d’autre part, elle prend place dans un parcours de navigation.

6 Nous commençons par décrire la chaîne de traitement mise en place pour décrire les documents web, puis nous présentons les traits qui distinguent les sites marchands et les sites personnels, pour finalement analyser le champ des pages personnelles visitées.

LE DISPOSITIF DE TRAITEMENT

7 Nous présenterons tout d’abord la logique de sélection et de constitution des corpus de sites et de pages web, puis nous décrirons sommairement la chaîne de traitement mise en place pour l’analyse[7] [7] Pour une présentation détaillée de la chaîne de traitements,...
suite
, en insistant sur deux moments-clés de la chaîne : la sélection de traits descriptifs et les démarches de traitement.

8 Cette démarche s’apparente aux travaux de Ivory et Hearst[8] [8] IVORY, HEARST, 2002. ...
suite
. Ces auteurs proposent en effet une batterie de 157 traits formels et structurels pour différencier les mauvais, moyens et bons sites, en prenant comme référence les sites récompensés par des prix. Leur objectif est différent du nôtre, puisque leurs travaux visent à aider les concepteurs à améliorer leur site, en reprenant les critères dominants, tandis que nous voudrions rendre compte des caractéristiques des objets qui sont effectivement visités par les internautes. Cependant, les démarches ont un point commun en ce qu’elles s’appuient sur des traits formels et structurels.

Logiques de constitution des corpus

9 La première étape consiste à sélectionner des sites ou pages à collecter sur le web. Une fois les corpus sélectionnés, ils sont recopiés localement grâce à des logiciels d’aspiration de sites, ou « aspirateurs », ce qui permet de constituer des corpus de « sites miroirs ».

10 Deux logiques ont présidé à la constitution des corpus, celle de la production et celle de la réception. Du côté de la production, nous avons retenu les sites personnels et les sites marchands. Un site est constitué d’un ensemble de documents interconnectés relevant d’une même entité éditoriale[9] [9] Voir note 14 de BEAUVISAGE et ASSADI, dans ce numéro. ...
suite
. Nous considérons qu’un site personnel est un site hébergé par un fournisseur d’accès à internet. Cette définition est restrictive, puisqu’elle se situe du côté de l’offre et n’intègre pas les sites personnels hébergés par des sites d’université, d’entreprise ou sur des serveurs autonomes. Elle ne recouvre pas forcément le point de vue des concepteurs ou visiteurs de sites personnels[10] [10] Voir LICOPPE, BEAUDOUIN dans ce numéro. ...
suite
.

11 Un premier corpus est constitué par les sites personnels de participants actifs dans un forum Wanadoo (wanadoo.abonnes.entraide). Une précédente étude sur les interactions électroniques a montré comment les différents supports de communication (pages personnelles, forums, mail, chat…) étaient entrelacés par les pratiques des acteurs et comment les liens d’amitié entre les participants du forum étaient reflétés par les liens entre leurs pages personnelles[11] [11] BEAUDOUIN, VELKOVSKA, 1999. ...
suite
. Ainsi, en déployant l’aspiration à partir du site du « leader », les sites des habitués du forum sont rapatriés grâce aux connexions hypertextuelles. Au total, ce corpus, constitué en 1999, contient 539 sites personnels (Corpus PPWanadooForum-été99).

12 Le deuxième corpus est composé de sites personnels hébergés chez Wanadoo et dont une page au moins a été visitée par la cohorte d’internautes en mars 2000. Le corpus, aspiré en 2000, se compose de 568 sites (Corpus PPWanadoo-mars00).

13 Nous avons, d’une part, un corpus de sites étroitement interconnectés, reflet d’un collectif réduit d’internautes actifs sur un forum et, d’autre part, un corpus de sites personnels qui ont atteint un niveau d’audience élevé, puisqu’ils ont été visités par une cohorte d’internautes. Ces deux corpus diffèrent par l’audience qu’ils recueillent et nous montrerons que leur forme et leur structure sont corrélées à leur situation dans le champ des sites personnels (sites ouverts versus sites fermés).

14 Le troisième corpus rassemble des sites marchands (45 sites) pour lesquels des entretiens approfondis ont été menés auprès des responsables et des prestataires de technologies[12] [12] Voir LICOPPE, 2000. ...
suite
. Deux vagues d’entretiens ont été faites à un an d’intervalle et les sites ont été aspirés parallèlement aux entretiens, ce qui nous permet de mesurer leur évolution dans le temps. Deux sous-corpus ont donc été constitués : le premier corpus (Marchands-99-00) contient 29 sites marchands aspirés entre août 1999 et février 2000 ; le second (Marchands-été 2000) en contient 16, aspirés pendant l’été 2000.

15 La seconde logique qui a présidé à la constitution des corpus est celle de la réception. Nous avons retenu des pages visitées appartenant à des sites personnels. Le dernier corpus est constitué de pages personnelles visitées au moins une fois par la cohorte d’internautes entre janvier et juin 2000. Dans ce cas, l’unité minimale d’analyse n’est plus le site mais la page. Constitué en 2001, ce corpus contient 100 000 pages (Corpus 100 000 PP).

16 Les approches « sites » et « pages visitées » ne sont pas déconnectées, puisque nous pouvons mettre en relation la structure de certains sites aspirés avec la manière dont ils ont été visités.

17 Une fois les sites et les pages sélectionnés et aspirés, il faut normaliser les corpus, c’est-à-dire convertir tous les documents aspirés dans un même format, ce qui permet de manipuler de manière uniforme les différents composants des pages et des sites (texte, structure, liens, images, applets, etc.). Pour ce faire, nous avons converti pages et sites au format XML, format qui permet notamment de s’affranchir des incohérences et de la mauvaise qualité du code HTML des pages aspirées. Les corpus manipulés sont volumineux et, pour permettre de se faire une idée de leur taille, nous en donnons les principales caractéristiques dans le tableau ci-dessous.

Tableau 1.  - Caractéristiques des corpus de sites

Tableau 1. Caractéristiques des corpus de sites PPWanadoo PPWanadoo- Marchands- Marchands Forum-été-99 mars-00 99-00 été-00 Total Nb de sites 539 568 29 16 1 162 Nb de pages 11 006 24 938 29 199 5 726 96 885 Moyenne pages/site 20 44 1 007 358 83 Nb d’occurrences (mots) 3 878 647 10 577 421 3 090 399 1 284 664 18 831 131 Nb de formes (mots) 148 360 348 092 66 635 53 805 616 892 Nb d’éléments HTML 13 882 836 Nb de formes HTML 349 Taille des fichiers XML (en ko) 292 074 1 029 274 450 433 159 434

18 Ensuite, vient la phase d’identification, puis de sélection de traits pertinents pour décrire les documents. Cette phase conduit à l’élaboration de matrices de description des pages qui sont ensuite soumises à des traitements statistiques. Le travail d’interprétation consiste enfin à articuler les résultats obtenus avec l’observation manuelle des pages[13] [13] C’est pourquoi il est important de conserver une photographie...
suite
et avec les entretiens auprès des concepteurs de sites. A partir de configurations de traits syntaxiques (syntaxe du français et syntaxe du langage $ ), nous construisons une interprétation sémantique guidée par l’analyse sémiotique manuelle des documents.

Identification de traits

19 L’objectif est de soumettre des sites (et des pages) différents à un même projet de description systématique. Le cœur du dispositif de traitement consiste à décrire les documents web à l’aide d’un ensemble de traits. Plusieurs familles de traits ont été identifiées : les indicateurs lexicaux, portant sur le vocabulaire utilisé dans les pages, les indicateurs hypertextuels (liens, images…), les indicateurs sémantiques (identification de la langue, thématiques), les indicateurs présentationnels (polices de caractère, couleurs, fond d’écran…).

20 Les indicateurs retenus sont pour certains d’entre eux propres aux documents du web et diffèrent de ceux qui sont habituellement retenus pour l’étude des documents textuels. Les traits doivent en effet intégrer les phénomènes propres aux écrits du web :

  • la structure joue un rôle primordial dans le mode d’interaction, associée à la dimension multimédia et hypertextuelle, il est donc indispensable d’en tenir compte et de ne pas se limiter à l’analyse du texte ;
  • les textes comportent de nombreuses scories : ils passent brutalement d’une langue à l’autre, et sont « bruités » par les balisages de mise en forme ou de structure. Le français employé (smileys, onomatopées, orthographe
  • souple », « oralismes ») est moins contrôlé que dans des écrits plus classiques témoignant d’une forte empreinte du travail éditorial, ce qui rend plus difficile l’utilisation des outils de traitement automatique de la langue.

21 Ne travailler que sur la dimension textuelle des pages web est une démarche insuffisante, mais l’élaboration de traits adaptés à ces documents hypertextuels ne va pas de soi. Pour identifier les traits pertinents, nous avons exploité les éléments de codage des documents du web (le langage HTML ). Le nombre de traits disponibles à partir de l’analyse fine du code HTML est quasiment inépuisable. Traiter sans discernement une telle quantité de traits dont la signification et la valeur sont très variables n’aurait pas de sens. C’est pourquoi l’analyse sémiotique des pages nous a guidés pour sélectionner des traits-candidats.

22 Le travail de sélection et de définition des traits est une étape cruciale et pose des problèmes de différentes natures. L’analyse de la répartition du trait candidat dans le corpus conduit à le retenir ou à l’exclure. Ainsi par exemple, le trait « outil de conception du site » s’est révélé être non pertinent pour nos analyses. Ensuite, le choix du niveau de granularité retenu constitue également une étape décisive : par exemple, faut-il conserver l’indication de la police de caractère choisie, de sa taille et de sa couleur ou simplement le fait qu’il y ait eu un choix éditorial portant sur les caractères utilisés ? Plus on retient un niveau fin de granularité, plus la question du regroupement des valeurs devient aiguë. Ainsi, sur un corpus de 50 000 pages, nous avons identifié 2 021 polices de caractère et 7 068 couleurs différentes, ce qui témoigne d’un effort de distinction de la part des concepteurs dans un champ aussi concurrentiel que les pages personnelles[14] [14] DANET, 2000 a montré la créativité des concepteurs de...
suite
. Cette variabilité est difficile à organiser et à interpréter : quel sens donner au choix d’une police particulière ? Comme par ailleurs, dans 52 % des pages, il n’y a aucune indication de police de caractère, le type de police choisi nous a paru être un critère moins pertinent que le simple fait d’introduire un marquage de police.

Deux démarches d’analyse

23 Nous avons adopté deux approches distinctes pour explorer nos corpus. L’approche déductive consiste, à partir de catégories de sites ou de pages définies a priori, à identifier les traits spécifiques de chacune d’elles. Certains genres semblent constitués, comme les sites personnels et les sites marchands. Nous cherchons alors à montrer comment cette existence sociale produit des spécificités formelles et discursives. Dans la même logique, nous avons identifié les spécificités des pages personnelles selon leur lieu d’hébergement ou selon le nombre de pages vues par site.

24 Dans la seconde approche, inductive, à partir d’un ensemble de documents décrits par des traits, nous avons identifié des types de documents qui présentent des configurations de traits similaires. Nous nous situons dans le prolongement des travaux de Biber[15] [15] BIBER, 1995. ...
suite
qui tente d’identifier des types de textes en s’appuyant sur la répartition de traits morphosyntaxiques très fins[16] [16] Il ne s’agit pas de retrouver des styles prédéfinis...
suite
. Les typologies obtenues ne coïncident pas forcément avec des genres, qui sont des formes de cristallisation de pratiques sociales. Cette approche a été reprise dans le cadre du projet TyPTex[17] [17] Voir ILLOUZ et al. , 1999 et FOLCH et al. , 2000. ...
suite
piloté par B. Habert[18] [18] Voir HABERT et al. , 1997 pour une présentation globale...
suite
et trouve des applications sur les corpus du web dans les travaux de J. Karlgren[19] [19] KARLGREN, 1999. ...
suite
.

25 Ces deux démarches se nourrissent des entretiens menés auprès des concepteurs de sites comme de l’observation fine de tels sites, qui ont permis d’émettre et de valider des hypothèses. Le travail d’interprétation des faisceaux de traits typiques de certains sites ou de types de pages a été guidé par l’examen des pages présentant ces configurations de traits, telles qu’elles se présentent aux visiteurs.

SITES MARCHANDS, SITES PERSONNELS : DES PRODUCTIONS CONTRASTEES

26 Les internautes distinguent sans difficultés les sites marchands des sites personnels. Nous cherchons à mettre au jour les traits formels qui permettent de montrer en quoi ils s’opposent. Commençons donc par contraster le profil des sites marchands et des sites personnels, à partir de traits simples comme la distribution des pronoms personnels, la taille des sites et la structure des liens.

Sites personnels centrés sur la relation, sites marchands centrés sur le client

27 Nous retenons les marques de la première et deuxième personne (du singulier et du pluriel) et laissons de côté la troisième personne, que Benvéniste désignait comme la non-personne, puisque seules la première et deuxième mettent en scène la relation[20] [20] Nous avons défini 4 catégories de pronoms fondées sur...
suite
. Près de la moitié des sites (42 %) ne cherchent pas à mettre en scène la relation entre émetteur et récepteur : le site se présente alors comme centré sur le référent (le contenu) et n’invite pas au dialogue : la relation est anonyme. Nous ne traitons dans la suite que des sites qui rendent visible cette relation fictive entre l’auteur et ses visiteurs. La répartition des pronoms est donnée dans le tableau 2.

Tableau 2.  - Répartition des pronoms aux 1re et 2e personnes (en %)

Tableau 2. Répartition des pronoms aux 1re et 2e personnes (en %) Corpus PPWanadoo PPWanadoo- Marchands-total Forum-été99 mars00 0999 Marchands-0800 (665 sites) (219 sites) (410 sites) (22 sites) (14 sites) je, me, moi 41 46 41 18 21 tu, te, toi 8 8 9 3 9 nous, 17 17 17 16 18 vous 34 29 33 63 52 Σ 100 100 100 100 100

28 L’examen des pronoms aux 1re et 2e personnes met en évidence une séparation très nette entre sites personnels et sites marchands. En effet, l’utilisation de la première personne du singulier (je, me, moi) est caractéristique des sites personnels, tandis que la deuxième personne du pluriel (vous) est spécifique des sites marchands. Ainsi, un site personnel est un lieu de présentation de soi centré sur un individu (le concepteur du site qui se présente et se raconte). Il existe cependant une forme d’équilibre entre l’émetteur (moi) et le destinataire (toi ou vous) qui montre bien que la page personnelle tend vers l’échange. Au contraire, les sites marchands sont résolument adressés à un visiteur qui peut devenir un acheteur potentiel au fil des consultations : l’émetteur s’efface au profit du destinataire. Nous voyons donc que l’analyse des occurrences des pronoms est capable de caractériser empiriquement des classes de sites, y compris dans des corpus de sites web très volumineux.

29 A partir de cette répartition de pronoms, il est aussi possible d’affiner les analyses par type de corpus. Il est d’abord intéressant de constater que les sites personnels des participants du forum contiennent légèrement plus de pronoms à la première personne du singulier (46 %) que les sites personnels visités (41 %) : les concepteurs de ces derniers sites tendent à s’effacer au profit de leurs visiteurs, ce qui tempère l’apparition directe du je. L’observation de la répartition des couples de pronom je/nous et tu/vous accentue d’autant plus la spécificité des deux corpus de sites personnels : le premier est davantage centré sur le concepteur (63 % de je/nous contre 37 % de tu/vous), tandis que le second présente un équilibre entre la présence du concepteur de site et celle du visiteur (58 % de je/nous contre 42 % de tu/vous).

30 En parallèle, nous observons la présence massive du vous dans les deux corpus de sites marchands (63 % et 52 %) et du couple tu/vous (66 % et 61 % de tu/vous contre seulement 34 % et 39 % de je/nous). Au sein des sites marchands, des distinctions doivent cependant être faites. Ainsi, l’examen de la répartition des pronoms dans un corpus thématique de voyage fait apparaître des stratégies de marketing nettement différenciées. La majorité des sites utilisent massivement le vous en considérant le visiteur soit comme un acteur (vous découvrirez, vous traverserez, vous survolerez), soit comme un spectateur[21] [21] Cette distinction entre acteur et spectateur a été construite...
suite
(nous vous ferons découvrir, nous vous ferons traverser, etc.). Néanmoins, quelques sites se positionnent différemment en privilégiant l’utilisation des pronoms je et nous indépendamment ou le couple je/nous.

31 La répartition des pronoms personnels permet donc de différencier les sites personnels des sites marchands. Elle pourrait constituer un critère opératoire de distinction. La prise en charge par un locuteur de ce qui est dit est clairement affirmée dans les pages personnelles. A l’inverse, dans les sites marchands, le discours est orienté vers le destinataire ou client potentiel : l’utilisation de la première personne est nettement plus rare et relève d’une stratégie de marketing marquée.

Sites personnels versus sites marchands : logiques d’ouverture ou de fermeture

32 Par-delà la répartition des pronoms personnels, en quoi les éléments de structure permettent-ils de distinguer les sites personnels des sites marchands[22] [22] Outre le nombre de pages par site et le nombre de liens...
suite
 ?

33 La première opposition majeure entre pages personnelles et sites marchands se construit autour du nombre de pages du site : les sites marchands ont en moyenne 20 fois plus de pages que les sites personnels. Ils ont globalement beaucoup plus de liens, mais il n’y a pas de différence très marquée dans le nombre moyen de liens par page entre sites personnels et marchands.

34 Des différences sensibles existent entre les deux corpus de sites personnels. Les sites visités par des internautes sont en moyenne plus gros que les sites des participants au forum (44 pages par site contre 25). Ils ont davantage de liens externes (1,9 par page contre 1,2) et surtout davantage de liens internes (10 par page contre 6). La taille d’un site, l’importance des liens internes qui facilitent la navigation, l’insertion dans un réseau d’interconnexion de sites semblent être des conditions nécessaires pour pouvoir bénéficier de visites. Les sites personnels des participants du forum sont plus simples et moins ouverts sur l’extérieur. Nous avons montré[23] [23] BEAUDOUIN, VELKOVSKA, 1999. ...
suite
que le réseau des sites personnels du forum était le reflet des relations amicales au sein du forum : les sites constituent alors un réseau dense mais assez fermé.

35 Sur les sites marchands, nous observons un contraste important entre la page d’accueil et les autres pages. Alors qu’il y a en moyenne 4 liens internes par page, il y en a 11 sur la page d’accueil. Pour les liens externes, il y en a 3 sur la page d’accueil contre 0,1 sur les autres. Ce contraste est beaucoup plus faible pour les pages personnelles et signale donc une spécificité des sites marchands.

36 La page d’accueil du site marchand est donc un concentré de liens hypertextuels internes et externes. De plus, les liens y sont particulièrement redondants : une même rubrique peut être atteinte en cliquant en divers endroits de la page d’accueil : tantôt sur une zone de texte, tantôt sur une petite icône, tantôt sur une bannière… Nous avons constitué un indicateur de redondance (nombre de liens total divisé par le nombre de liens différents) qui vaut 1 si aucun lien n’est redondant et dont la valeur augmente avec la redondance. Cet indicateur vaut 1,25 sur les pages d’accueil contre 1,1 sur les autres pages.

37 La densité en liens et la redondance des liens dans les pages d’accueil constituent autant de points d’entrée dans le site selon le niveau d’expertise du visiteur ou de son approche cognitive : certains visiteurs privilégient les liens sous forme de listes, d’autres sous forme d’icônes. Tous les moyens sont mis en œuvre pour faire entrer le visiteur dans le site et pour éviter qu’il s’en échappe (peu de liens externes dans les pages intérieures).

38 Contrairement aux sites personnels, le site marchand ne pointe pas vers ses concurrents : au mieux il pointe vers ses partenaires commerciaux sur la page d’accueil. La force d’un site personnel tient au contraire à sa capacité à être insérée dans un réseau de sites consacrés à un sujet donné ou dans un réseau d’amis. Tandis que le site marchand cherche à maintenir ses visiteurs dans son espace une fois que ceux-ci ont franchi la page d’accueil, le site personnel, au contraire, joue l’ouverture en pointant vers d’autres sites. Cette ouverture est payée de retour, puisqu’en général les liens entre sites personnels sont réciproques.

A L’ARTICULATION DE LA PRODUCTION ET DE LA RECEPTION : LES PAGES PERSONNELLES VISITEES

39 Quelles sont les caractéristiques des documents que rencontrent les internautes dans leur parcours de navigation ? Comment les internautes s’orientent-ils dans ces sites ? Nous avons cherché à répondre à cette question en nous limitant à l’espace des pages personnelles visitées par une cohorte de 1 140 internautes au premier semestre 2000. Les pages personnelles ne constituent qu’une part réduite de la navigation sur le web, mais cette part est à peu près constante chez tous les internautes (entre 4 % et 5 % du trafic de chaque utilisateur). Nous explorons ici les caractéristiques de ces écrits électroniques, c’est-à-dire les caractéristiques de la production dans une perspective de lecture et de réception, puisque le champ des documents retenus est défini par la réception : un ensemble de pages visitées.

40 A travers l’examen de ce corpus et du suivi ethnographique d’un certain nombre de sites personnels sur plusieurs années, nous montrons comment ces sites sont des objets qui se transforment et qui constituent des lieux d’expérimentation de l’écriture électronique, le changement de lieu d’hébergement étant un des éléments de la trajectoire. Cela nous a conduits à explorer les spécificités des pages selon le lieu où elles étaient hébergées. Nous montrons ainsi comment les pages adoptent une forme et un contenu spécifique selon leur espace de publication, ce qui nous permet de montrer comment l’offre et la demande s’ajustent pour créer des territoires cohérents.

41 Dans la même perspective, nous identifions dans la masse des pages vues des types de documents en fonction de leur structure et de leur contenu, ce qui nous autorise à distinguer des pages fonctionnelles et des pages à contenu et, pour ces dernières, à identifier des degrés d’élaboration des documents et des postures d’auteur nettement différenciées.

42 Les degrés divers d’élaboration, les choix éditoriaux et les façons d’articuler dans un site des modes d’énonciation contrastés ont une incidence directe sur la manière dont les sites sont explorés. C’est ce que nous cherchons à montrer dans les dernières sections.

Les pages personnelles : des objets en transformation

43 Nous considérons la page personnelle comme un terrain d’expérimentation de l’écriture hypertextuelle : lieu d’apprentissage de l’écriture multimédia et lieu de confrontation immédiate avec le public. Pour valider cette hypothèse, nous avons étudié comment évoluaient les pages personnelles de notre corpus avec le temps.

44 Un an après avoir été visitées par notre cohorte, 40 % des pages personnelles avaient disparu du réseau. Beaucoup de pages visitées sont des brouillons, des tentatives sans suite. En fonction des serveurs d’hébergement, la disparition de pages personnelles varie considérablement (voir tableau 3). Chez Free, le taux de pages exploitables est particulièrement faible. Nous verrons que chez cet hébergeur, les sites sont nettement plus sophistiqués qu’ailleurs et savent en particulier mieux se protéger contre la copie. Certains lieux d’hébergement ont des durées de vie plus longues que d’autres (en fonction de leur notoriété). Inversement, lorsqu’un serveur d’hébergement n’existe plus, toutes les pages disparaissent avec lui. C’est le cas de citeweb.net disparu entre 2000 et 2001. Par ailleurs, dans les pages aspirées, nous avons aussi relevé des pages d’erreurs ou des pages vides qui indiquaient aussi une disparition des pages.

45 La brièveté de leur existence caractérise donc une bonne part des pages personnelles. Inversement, les sites marchands ou institutionnels semblent ainsi avoir une existence plus durable que les pages personnelles[24] [24] En effet, au cours de la constitution de corpus de sites...
suite
.

46 Parmi les pages encore accessibles un an après la visite (57 000 sur 101 000 visitées), nous avons identifié 6 % de pages redirigées, qui correspondent explicitement à une évolution de la page personnelle. Il peut alors s’agir d’une migration vers un autre service d’hébergement, dont le style convient mieux aux attentes du concepteur, ou d’un désir d’autonomisation qui se concrétise par l’acquisition d’un nom de domaine. L’analyse minutieuse des pages redirigées révèle que, dans la moitié des cas, la redirection correspond à l’acquisition d’un nom de domaine, tandis que les autres migrations se font chez un fournisseur d’accès concurrent.

Tableau 3.  - Taux de pages analysables en fonction du serveur d’hébergement

Tableau 3. Taux de pages analysables en fonction du serveur d’hébergement Répartition % nb Pages pages de pages % des pages de pages visitées visitées aspirées analysables analysables w www.multimania.com20 864 21 % 73 % 66 % 13 773 Free_fr 19 192 19 % 49 % 46 % 8 753 Perso.wanadoo.fr 16 791 17 % 77 % 70 % 11 827 w www.chez.com11 082 11 % 68 % 63 % 6 943 w www.geocities.com9 068 9 % 70 % 69 % 6 236 Ifrance.com 6 662 7 % 44 % 40 % 2 675 Perso.club-internet 4 785 5 % 66 % 65 % 3 134 w www.citeWeb.net1 638 2 % 0 % 0 % 0 Autres 11 365 11 % 39 % 37 % 4 150 Total 10 1447 100 % 61 % 53 % 53 341 Clé de lecture : 20 864 pages ont été visitées chez Multimania, soit 21 % des pages visitées. Un an après, 73 % des pages ont pu être aspirées. Après examen de ces pages aspirées, il apparaît que 66 % des pages visitées, soit 13 773, sont de fait exploitables.

47 Il est donc possible d’opposer différentes trajectoires dans le cycle de vie de la page personnelle : soit la page disparaît du réseau sans laisser de trace, ainsi 40 % des pages ne sont plus accessibles ; soit la page est abandonnée : elle se maintient alors sur le réseau, mais perd ses visiteurs et semble condamnée à disparaître ; soit la page évolue, mûrit et le plus souvent le développement de l’objet s’accompagne d’une migration vers d’autres lieux d’hébergement (acquisition de nom de domaine ou changement de serveur d’hébergement). On se situe dès lors dans des trajectoires d’expansion qui s’accompagnent par le développement de stratégies de communication (listes de discussion, forums…) et de visibilité (référencement dans les moteurs, annuaires…).

48 Nous avons reconstitué la trajectoire de quelques-uns de ces sites choisis pour leur caractère archétypal. Cet examen nous conduit à poser que la transformation des pages personnelles se fait dans une triple direction, que nous illustrerons par deux exemples. Premièrement, l’évolution de la page personnelle s’accompagne d’une disparition ou d’une mise en arrière-plan du moi. Ainsi, le titre de la page (figure 1) comportait dans son premier état le nom de son auteur : « La page de Frédéric Grillot » ; un an plus tard, le titre est devenu : « La buticulamicrophilie ou la passion d’un collectionneur ».

49 Le second mouvement de transformation est une autonomisation du site qui passe par l’acquisition d’un nom de domaine. Ce mouvement permet de s’affranchir de l’image du serveur d’hébergement. Ainsi, le site de François Bon a-t-il d’abord été hébergé chez Wanadoo, puis chez Free, avant d’acquérir son propre nom de domaine (Remue.net). Au fil de cette trajectoire, l’auteur s’est peu à peu effacé au bénéfice du thème de son site (littérature contemporaine et ateliers d’écriture).

50 Enfin, les sites tendent à se centrer sur un seul sujet. La page d’accueil du site de la figure 1 est symptomatique de ce mouvement. Dans son premier état, elle présente trois centres d’intérêt : la ville de Carcassonne, le Canal du Midi et la collection de petites bouteilles. Un an plus tard, le site est uniquement centré sur la collection de petites bouteilles. La cohérence thématique du site est devenue prioritaire sur la présentation de l’ensemble des centres d’intérêt de l’auteur. Là encore nous observons un glissement du sujet vers le thème, contrainte sans doute imposée par la logique de l’audience[25] [25] Voir LICOPPE, BEAUDOUIN dans ce numéro. ...
suite
.

...
Page d’accueil d’un site personnel en 1999

Page d’accueil d’un site personnel en 1999

...
Page d’accueil du même site en 2001

Page d’accueil du même site en 2001

Des territoires marqués

51 Si l’on observe des phénomènes de migration d’un serveur d’hébergement à l’autre, c’est que les offres d’hébergement sont sensiblement différentes et que ces différences sont perçues par les concepteurs. Les spécificités tiennent aux caractéristiques techniques de l’offre, mais aussi à l’identité que cherche à se donner chaque fournisseur d’espace. Les pages personnelles visitées ont-elles des caractéristiques de forme et de contenu spécifiques selon le lieu où elles sont hébergées ?

52 Commençons par la structure hypertextuelle. Le tableau ci-dessous, qui présente la répartition de quelques traits selon le serveur d’hébergement, montre effectivement que la forme des sites varie selon leurs territoires. Les pages chez Free et Chez ont beaucoup plus de liens internes, ce qui est lié, d’une part, à la taille des sites, d’autre part, au mode d’organisation du site voulu par le concepteur : privilégier les pages courtes et les liens de page à page. Les pages de Geocities ont un profil nettement différent. En premier lieu, le nombre de pages visitées par site est particulièrement faible. Nous pouvons supposer que la présence de l’anglais (dans près de la moitié des pages) est un frein à une visite approfondie du site : la barrière linguistique jouerait ainsi pleinement son effet. Mais l’autre particularité des pages chez Geocities tient au faible nombre de liens internes et au nombre élevé de liens externes par page. Il semble que les sites personnels chez Geocities soient fortement reliés entre eux par le biais de pages de liens et d’anneaux[26] [26] Les anneaux de sites sont des ensemble de sites volontairement...
suite
, ce qui favorise des sauts de site en site et pourrait expliquer le plus faible nombre de pages visitées par site.

53 Il est difficile de trancher entre l’argument de la langue et celui de la structure pour expliquer que les sites de Geocities soient si peu visités dans leur profondeur. Les contrastes entre les pages de Wanadoo et celles de Free tiennent en grande partie aux caractéristiques de l’offre au moment de l’observation : l’espace disque offert chez Free était dix fois plus élevé et Free acceptait l’utilisation de scripts sur les sites, contrairement à Wanadoo. Il s’ensuit que Free accueille des sites plus élaborés et sophistiqués que Wanadoo.

Tableau 4.  - Répartition de traits par page selon les hébergeurs

Tableau 4. Répartition de traits par page selon les hébergeurs Nb moyen de Lien vers Serveur pages visitées Images Liens Liens boîte aux d’hébergement par site internes externes lettres w www.multimania.com5,0 7,1 8,5 4,7 0,26 free.fr 10,1 8,6 22,5 3,8 0,20 perso.wanadoo.fr 5,8 7,0 12,5 2,3 0,27 w www.chez.com6,9 7,2 21,7 4,7 0,27 w www.geocities.com3,3 10,1 6,5 6,5 0,27 ifrance.com 6,5 8,2 8,0 4,2 0,29 perso.club-internet. 5,9 8,6 13,9 3,6 0,31 autres 4,6 7,3 8,4 5,0 0,22 Ensemble 4,3 7,8 13,1 4,2 0,26

54 Voyons à présent les mots spécifiques des pages personnelles vues selon leur serveur d’hébergement[27] [27] Nous avons constitué un sous-échantillon aléatoire d’environ...
suite
. Dans les pages personnelles de Free visitées, quelques domaines sémantiques peuvent clairement être identifiés : les messages renvoyés par les serveurs d’interdiction d’accès ou de redirection (you don’t have permission, forbidden, click here), le champ sémantique du sexe (y compris les mises en garde pour les visiteurs), celui des logiciels (cracks, download…) et celui de la gratuité. Chez Free, nous observons un entrelacement intéressant entre la liberté (sexuelle et logicielle) et la gratuité, portée par le double sens du mot free. Dans les sites visités sur le serveur Chez.com, la thématique sexe-pornographie est surreprésentée, le discours promotionnel y étant plus marqué et le positionnement plus proche de la sphère marchande. La gratuité n’est plus revendiquée, les sponsors sont mis en avant. Chez Wanadoo, le contenu des pages visitées a diverses caractéristiques : forte présence des verbes dire, parler, penser ; mise en scène de l’échange (moi, nous/toi, vous) ; thèmes du gravage de CD ; le travail (bureau, directeur, patron, licenciement…) ; l’amour (rencontrer, regard, plaire) ; la vie (vieillir, mourir…) et autres préoccupations existentielles. Le site est alors un lieu d’expression intime du moi qui s’adresse à l’autre. Les pages visitées hébergées par Club-internet présentent des caractéristiques proches de celles de Wanadoo. Les pages visitées de Multimania ont un profil assez différent : le nom de l’hébergeur y apparaît fréquemment (sans doute à cause de l’affichage du bandeau publicitaire) ; les références aux « objets » internet, en particulier aux messageries instantanées (IRC, ICQ, chat…), aux loisirs (BD, musique), aux études (formation, école, bac) sont spécifiques de ces sites. Enfin, la moitié des pages de Geocities est en anglais ou au moins bilingue : c’est donc la différence de langue que fait ressortir les calculs statistiques.

55 Les pages personnelles visitées relèvent donc globalement de tonalités différentes selon leur serveur d’hébergement : le domaine, au sens de terroir, donne un style aux productions de ses habitants. Cela est à mettre en relation avec l’image que cherche à véhiculer l’hébergeur (campagnes de publicité, portail…), ainsi qu’avec l’offre d’hébergement proposée et avec la manière dont sont référencées dans les annuaires les pages en question.

56 Reprenons le cas de Free. Ce fournisseur axe son discours sur la gratuité et la liberté (son slogan publicitaire fut longtemps : « la liberté n’a pas de prix ») : ces thématiques reviennent dans les sites. Free propose à la fois un espace d’hébergement beaucoup plus important que les autres fournisseurs et la possibilité d’installer des scripts sur les pages personnelles, ce qui tend à attirer des sites avec images et vidéos très consommatrices d’espace et des sites à contenu dynamique, pourvus d’une forte interactivité. Enfin, Free affiche dès le premier niveau de son annuaire de sites une rubrique « charme ». Il se constitue donc une sorte d’adéquation entre l’idéologie portée par le fournisseur d’accès et ce que mettent en scène les clients dans leur site. Cette adéquation se construit par le biais des collectifs d’utilisateurs qui, d’une part, tendent à ancrer leurs sites dans les mêmes espaces et, d’autre part, en s’échangeant les caractéristiques de chaque lieu d’hébergement, peuvent déplacer ensemble leurs sites vers d’autres lieux de publication. Ainsi, les participants actifs du forum Wanadoo avaient tous publié leur site chez Wanadoo ; quelques années plus tard, une partie de ces sites avaient migré chez d’autres hébergeurs comme Free. La notion de territoire se constitue par la médiation des concepteurs de sites qui, en partageant leurs commentaires sur les lieux de publication et en s’installant dans les lieux qui leur correspondent le mieux, contribuent à l’élaboration d’un caractère propre à chaque territoire, d’un « habitus social[28] [28] Une enquête auprès des concepteurs de sites permettrait...
suite
 ».

Des pages aux profils contrastés

57 A quels types de documents sont confrontés les visiteurs de sites personnels, quels types de pages s’affichent dans leur navigateur[29] [29] Nous avons construit une typologie de pages en utilisant...
suite
 ?

58 Les sciences cognitives distinguent la mémoire de la métamémoire celle-ci recouvrant l’ensemble des procédures pour retrouver l’information[30] [30] Dan Sperber : www. dan. sperber. com/ memoire. htm...
suite
. Dans un contexte de mémoire extériorisée sur le support numérique, la métamémoire correspond à toutes les ressources, services qui peuvent être mobilisés pour accéder au contenu, les moteurs de recherche et annuaires étant les exemples les plus significatifs. Cette distinction nous paraît également pertinente pour les pages personnelles : nous pouvons en effet identifier dans notre corpus une ligne de partage entre les pages à contenu et les pages qui facilitent la navigation à l’intérieur du site. Dans l’ensemble de ces pages d’orientation (qui correspondent à 15 % des pages visitées), peuvent être distinguées : les pages de redirection qui pointent vers la nouvelle localisation du site (nous avons vu que cette pratique est loin d’être négligeable) ; les pages de menu qui donnent accès aux différentes rubriques du site (elles peuvent se présenter comme une page autonome ou être inscrites dans une page à contenu) ; les pages de listes qui regroupent des pointeurs vers d’autres pages du site. Ainsi une page d’un site de musique présente la liste des albums avec un lien vers chaque album ou bien sur les sites pornographiques, les photo-vignettes présentées sous forme de mosaïque renvoient à des photos en grande taille.

59 Dans une perspective d’analyse des contenus sur le web, il est utile de pouvoir différencier ces pages de navigation des autres : elles se définissent davantage par leur fonction que par leur contenu, il est donc peu pertinent d’en analyser le contenu.

60 Du côté des documents ou pages à contenu, nous observons une assez grande différenciation dans la forme des documents, qui traduit des degrés d’élaboration très différenciés : 44 % des documents visités peuvent être considérés comme des pages élaborées, parce qu’elles spécifient le cadre de l’écriture hypertextuelle (présence de cadre, définition du fond de la page, choix de polices de caractère, de couleurs), elles présentent un ensemble de liens hypertextuels et articulent le texte et les images. A l’inverse, 28 % de documents présentent une syntaxe très simplifiée, avec peu de liens, peu d’images, peu de spécifications sur la mise en forme : ceux-ci peuvent être interprétés comme des brouillons peu travaillés. Cette distinction est liée à l’expertise et à l’engagement du concepteur dans l’animation de son site. Les experts exploitent toutes les possibilités de l’écriture hypertextuelle, les contenus textuels y étant plus riches et la relation au visiteur souvent mise en scène. La figure ci-dessous donne un exemple de page très peu élaborée, à côté d’une page qui s’apparente à un site professionnel : la première présente peu de liens, peu d’images et un texte sans mise en forme particulière, la situation de la page dans le site n’est pas très claire. A l’inverse, la seconde page propose une organisation structurée pour l’accès aux documents et les liens entre texte, images et liens y sont fortement motivés.

...
Page de contenu rudimentaire d’un site personnel

Page de contenu rudimentaire d’un site personnel

...
Page de contenu sophistiquée d’un site personnel

Page de contenu sophistiquée d’un site personnel

...
Page d’accueil et page de liens d’un site personnel

Page d’accueil et page de liens d’un site personnel

61 Au sein des pages les plus élaborées (44 % des pages visitées), deux postures éditoriales peuvent être distinguées : sur certains documents, il y a une présence forte de l’émetteur et du récepteur (28 % des pages), la page se centre sur la relation en rendant présent le moi et en s’adressant directement au visiteur ; tandis que dans d’autres documents (16 % des pages), les pronoms sont absents et le discours est centré sur le thème de la page. Quand la relation émetteur-récepteur n’est pas mise en scène, il y a au contraire une exploitation approfondie des propriétés de l’écriture hypertextuelle : le texte est moins bavard, mais il s’articule plus savamment aux images et aux autres documents du site (liens hypertextuels très développés).

62 Dans un même site, il est courant que la posture d’auteur change selon le type de page. Ainsi dans le site de la figure 5, la page d’accueil adopte un ton impersonnel centré sur le thème, alors que dans la page de liens il y a des commentaires personnels, voire intimes, sur les sites recommandés : ainsi, en bas du document de liens, trouve-t-on une rubrique « ami(e)s ». La vitrine du site garde une forme d’anonymat tandis que l’intérieur du site offre des espaces plus personnels.

63 La diversité des documents que l’on trouve sur la toile, du moins dans l’espace des pages personnelles, tient à plusieurs éléments. Le premier relève des spécificités de l’écriture hypertextuelle, qui rend nécessaire la présence de pages de navigation, le deuxième du degré d’expertise des concepteurs de sites qui fabriquent des documents plus ou moins élaborés et le troisième aux choix de représentation de la relation au lecteur sur le site, lesquelles vont d’une posture anonyme, centrée sur le thème, à une mise en scène sophistiquée de la relation au visiteur, en passant par des représentations très narcissiques. Sur ce dernier point, ce qu’on observe sur le réseau n’est pas fondamentalement différent de ce que montre la littérature qui parcourt tout l’éventail : de l’objectivité du récit (absence de référence au narrateur) jusqu’à la subjectivité du discours[31] [31] GENETTE, 1969, p.  61-69. ...
suite
(présence marquée du narrateur).

64 Maintenant que nous avons décrit le type de documents rencontrés par les internautes dans leurs visites de sites personnels, nous allons voir comment ces derniers s’orientent dans l’espace de ces pages.

Le local prime sur le lointain

65 Dans les travaux consacrés à la fracture numérique, il est courant de souligner la domination des productions américaines, en particulier à travers l’utilisation de l’anglais[32] [32] DIMAGGIO et al. , 2001. ...
suite
. Cette domination devient toute relative si l’on se situe du côté des pratiques. Ainsi, dans l’ensemble des pages personnelles que nous avons visitées, 86 % des pages étaient en français, sans texte dans une autre langue étrangère. Les pages avec présence d’anglais ou d’autres langues sont le plus souvent des pages bilingues, où en-dessous ou à côté de chaque proposition figure la traduction. Les internautes résidant en France consultent majoritairement des contenus dans la langue du pays. Les pratiques de navigation et d’exploration échappent peu aux barrières linguistiques. Elles sont également ancrées dans des territoires géographiques : la majorité des pages personnelles visitées sont hébergées en France, à l’exception de Geocities, serveur de pages personnelles américain. Même chez Geocities, la part des pages francophones visitées par notre panel est particulièrement élevée au regard du serveur dans son ensemble où les productions anglaises doivent largement dominer. Ce propos est sans doute à nuancer si l’on met en regard les pratiques d’internet avec des pratiques plus traditionnelles. Dans la lecture sous forme papier (presse, livre…), la part des productions francophones n’est-elle pas en effet encore plus majoritaire que sur le réseau ? Internet offre de réelles ouvertures vers les autres langues, opportunités qui sont en partie explorées.

66 Cette préférence pour la proximité se lit aussi dans la manière dont les sites sont visités. Les internautes marquent une très nette préférence pour ce qui est à portée de clic et s’ils naviguent de lien en lien, c’est rarement pour explorer les sites dans leur profondeur et dans toutes leurs ramifications. Grâce à nos différentes campagnes d’aspiration, nous pouvons comparer le nombre moyen de pages visitées par site avec le nombre moyen de pages composant un site chez Wanadoo[33] [33] Nous avons en effet aspiré un corpus de sites Wanadoo dont...
suite
. Alors qu’un site personnel Wanadoo comprend en moyenne 44 pages, le nombre moyen de pages visitées par site est de 6. Des pans entiers des sites restent donc inexplorés et la navigation sur la toile s’apparente à un rapide survol. Les métaphores de la navigation, du surf traditionnellement utilisées pour décrire les usages du web rendent bien compte de pratiques qui, le plus souvent, restent à la surface de ces sites personnels[34] [34] Une comparaison avec d’autres catégories de sites permettra...
suite
. Nous pouvons supposer que dans ces parcours, les pages d’accueil et les pages de liens jouent des rôles pivots, les premières comme point d’entrée, les secondes comme portes de sortie.

67 Ancrage dans le territoire et exploration de surface, telles semblent être les caractéristiques de la fréquentation des pages personnelles.

Tableau 5.  - Taux de pages visitées francophones selon les hébergeurs

Tableau 5. Taux de pages visitées francophones selon les hébergeurs Pages en français Taux de pages en français w www.multimania.com12 413 90 % perso.wanadoo.fr 10 986 93 % free_fr 8 130 93 % w www.chez.com6 219 90 % w www.geocities.com2 996 48 % perso.club-internet 2 869 92 % ifrance.com 2 471 92 % autres 3 406 82 % Total 49 490 86 %

Le contenu et la forme des pages favorise-t-elle l’exploration des sites ?

68 Les 57 000 pages visitées proviennent de 13 685 sites différents. Le nombre de pages visitées par site est très variable, puisque, pour 43 % des sites, seule une page a été visitée, que, dans 33 % des sites de deux à quatre pages l’ont été et dans 24 % des cas, plus de cinq pages[35] [35] Pour 1 % des sites, plus de 34 pages ont été visitées,...
suite
. Peut-on identifier certaines spécificités propres à la page qui expliqueraient que la visite n’aille pas au-delà d’une page ? Nous avons retenu trois facteurs d’explication : la langue utilisée dans la page, la structure des liens et le caractère peu élaboré des pages.

69 La langue employée dans la page semble avoir un effet sur l’approfondissement de la visite du site. Quand les pages ne sont pas en français (essentiellement en anglais), la visite tend en effet significativement à se limiter à une seule page. Les pages en langue étrangère représentent 14 % de notre corpus global, elles sont deux fois plus nombreuses dans les sites dont une seule page a été visitée.

70 En ce qui concerne la structure des liens hypertextuels, les sites dont un grand nombre de pages a été visité sont également ceux qui proposent le plus de liens internes par page. Autrement dit, plus la navigation est aisée, plus les internautes visitent de pages sur le site. Nous observons le phénomène inverse pour les liens externes qui pointent vers d’autres sites. Une structure dense de liens vers les rubriques internes du site favorise l’exploration en profondeur du site, ce qui est cohérent avec ce que nous avons observé sur les sites marchands. Inversement, les liens externes entraînent les visiteurs hors du site.

...
Nombre moyen de liens selon le nombre de pages visitées par site

Nombre moyen de liens selon le nombre de pages visitées par site

71 Enfin, la part des pages peu élaborées est sensiblement plus élevée sur les sites dont une seule page a été visitée (33 % contre 28 % en moyenne). Les internautes, lors des entretiens qualitatifs, soulignent l’effet de répulsion produit par ces « pages perso de base », sans contenu spécifique, au design peu élaboré.

72 Nous avons montré que la structure et le contenu des pages étaient sensiblement différents selon le nombre de pages visitées par site. Nous pouvons donc poser que la nature des pages visitées a une incidence sur la manière dont les sites sont explorés : en superficie ou en profondeur. Dans une perspective d’étude des parcours sur internet, il paraît opportun d’intégrer les caractéristiques de ces écrits d’écran dans la compréhension de la logique des parcours. L’appréciation de la qualité d’une page peut infléchir un parcours thématique, même si la page en question s’inscrit bien dans la logique de la recherche : évaluée comme une page personnelle peu élaborée, cette branche du parcours sera abandonnée.

CONCLUSION ET PERSPECTIVES

73 L’analyse des productions du web nous a conduits à mettre au point une chaîne de traitement des documents web, qui pourra être réexploitée dans d’autres contextes (pour d’autres types de sites et pages visités, pour des documents web liés à des intranets…), à montrer les traits de forme et de structure qui suffisent à distinguer les sites personnels des sites marchands ; à identifier les types de documents que les internautes rencontrent dans leurs visites de pages personnelles. Ainsi avons-nous montré comment les acteurs marchands et non marchands produisent des objets en cohérence avec leurs projets et comment acteurs et objets se structurent réciproquement.

74 La spécificité de notre approche tient au fait que nous posons un regard sur la production du point de vue de la réception : nous étudions les documents web qui ont été visités. A l’articulation entre production et réception, la page web joue un rôle central puisque de sa forme et de son contenu dépendent sans doute la poursuite de l’exploration du site ou un retour arrière vers d’autres itinéraires. C’est pourquoi nous avons cherché à mettre en évidence la diversité des documents offerts aux lecteurs (langue, niveau d’expertise, place de l’auteur) pour souligner comment les caractéristiques de ces documents peuvent jouer sur les parcours. Il ne s’agit pas à proprement parler de parcours, puisque nous considérons les pages personnelles visitées pendant un an par mille personnes, comme si la cohorte constituait un grand visiteur.

75 Nous avons passé sous silence la lourdeur des dispositifs techniques mis en place pour aboutir aux résultats présentés et les innombrables questionnements qui ont accompagné ce travail. L’objet – les pages et les sites de la toile – est nouveau, leurs formes sont en transformation, et les modèles de référence changent au fil des innovations de la technique et du design. Les outils sont également à construire et à adapter en fonction des évolutions de l’objet.

76 Par-delà ces traits qui ont principalement à voir avec le design du site et les modes de navigation, il nous reste aussi à traiter la question des référents : comment rendre compte des contenus qui sont visités ? Plusieurs démarches sont testées en parallèle : l’exploitation des annuaires du web pour qualifier les documents[36] [36] Voir BEAUVISAGE, ASSADI dans ce numéro. ...
suite
, l’analyse des contenus aspirés avec des outils d’analyse sémantique comme Tropes, les traitements de statistique textuelle appliqués aux corpus textuels…, sans qu’il nous soit possible aujourd’hui de dire quelle voie sera la plus efficace. Il y a fort à parier que c’est en combinant ces différentes démarches que nous pourrons mieux décrire ce que les internautes lisent sur le web, autrement dit, donner un sens aux trois millions de pages distinctes qu’une cohorte de 1 000 personnes a pu voir en 2000.

Bibliographie

RÉFÉRENCES

AMITAY E. (1999), “Anchors in context”, Words on the Web – Computer Mediated Communication, Lynn Pemberton & Simon Shurville eds., Intellect Books, UK.

BEAUDOUIN V., FLEURY S., HABERT B., ILLOUZ G., LICOPPE C.,

PASQUIER M. (2001), « TyPWeb : décrire la toile pour mieux comprendre les parcours », CIUST’01 (Colloque International sur les Usages et les Services des Télécommunications -- e-Usages), Paris, ENST, p. 492-503.

BEAUDOUIN V. VELKOVSKA J. (1999), « Constitution d’un espace de communication sur Internet (forums, pages personnelles, courrier électronique…) », Réseaux, vol. 17, n° 97, p. 121-177.

BIBER D. (1995), Dimensions of register variation : a cross-linguistic comparison, Cambridge University Press, Cambridge.

DANET B. (2001), C Cyberpl@y :Communicating Online, Oxford, Berg Publishers.

DILLON A., GUSHROWSKI B. (2000), “Genres and the Web : Is the personal home page the first uniquely digital genre ?”, Journal of the American Society for Information Science, 51,2, p. 202-205.

DIMAGGIO P., HARGITTAI E., RUSSELL N.W., ROBINSON J.P. (2001), “Social Implications of the Internet”, Annual Review of Sociology, 27, p. 307-336.

FOLCH H., HEIDEN S., HABERT B., FLEURY S., LAFON P., NIOCHE J., PRÉVOST S., ILLOUZ G. (2000), “TyPTex : Inductive typological text classification analysis for NLP systems tuning/evaluation”, Second International Conference on Language Resources and Evaluation, p. 141-148, vol. 1, Athens (Greece), 31 May-2 June.

GENETTE G. (1969), Figures II, Paris, Le Seuil.

GENSOLLEN M. (1999), « La création de valeur sur Internet », Réseaux, vol. 17, n° 97, p. 15-76.

HABERT A., SALEM B., NAZARENKO A. (1997), Les linguistiques de corpus, Armand Colin-Masson, Paris.

ILLOUZ G., HABERT B., FLEURY S., HEIDEN S., LAFON P. (1999), « Maîtriser les déluges de données hétérogènes », in Condamines A., Fabre C., Pery-Woodley M.-P., eds., « Corpus et traitement automatique des langues : pour une réflexion méthodologique », TALN’99, Cargèse, Corse, p. 37-46.

IVORY M.Y., HEARST M.A. (2002), Statistical Profiles of Highly-Rated Web Sites. CHI 2002, Minneapolis, Minnesota, Etats-Unis.

KARLGREN J. (1999), “Stylistic experiments in information retrieval”, in Strzalkowski T., Natural language information retrieval, Dordrecht, Kluwer, p. 147-166.

LICOPPE C. (2000), « Commerce électronique, la question de la vente aux particuliers sur internet (« Business to Consumers ») », Réseaux, vol. 18, n° 100, p. 359-384.

REHM G. (2002), “Toward Automatic Web Genre identification. A Corpus-Based Approach in the Domain of Academia by Example of the Academic’s Personal Homepage”, 35th Hawaii International Conference on System Sciences, Hawaii.

 

Notes

[ 1] Nous remercions pour leur relecture critique Thomas Beauvisage, Dominique Cardon, Alain Rallet et Patrice Flichy.Retour

[ 2] Voir GENSOLLEN, 1999, qui le premier avait annoncé : « Le moteur de la valeur [sur internet] résidera principalement dans les externalités entre les sites bénévoles et les sites marchands. »Retour

[ 3] Voir AMITAY, 1999 ; REHM, 2002.Retour

[ 4] DILLON, GUSHROWSKI, 2000.Retour

[ 5] Les pages personnelles visitées sont des pages appartenant à des sites personnels ayant été visitées par la cohorte d’internautes en 2000.Retour

[ 6] NetValue est une société de mesure d’audience sur internet : les données du panel ont été mises à notre disposition dans le cadre d’un partenariat entre France Télécom R&D et NetValue.Retour

[ 7] Pour une présentation détaillée de la chaîne de traitements, voir BEAUDOUIN et al., 2001.Retour

[ 8] IVORY, HEARST, 2002.Retour

[ 9] Voir note 14 de BEAUVISAGE et ASSADI, dans ce numéro.Retour

[ 10] Voir LICOPPE, BEAUDOUIN dans ce numéro.Retour

[ 11] BEAUDOUIN, VELKOVSKA, 1999.Retour

[ 12] Voir LICOPPE, 2000.Retour

[ 13] C’est pourquoi il est important de conserver une photographie des sites tels qu’ils étaient au moment de l’aspiration : le web est un médium en perpétuel changement.Retour

[ 14] DANET, 2000 a montré la créativité des concepteurs de polices de caractères sur le web. A travers la forme graphique que les concepteurs donnent aux lettres, celles-ci véhiculent un sens fort. Dans notre approche portant sur des grands corpus, nous avons de fait laissé de côté cette diversité.Retour

[ 15] BIBER, 1995.Retour

[ 16] Il ne s’agit pas de retrouver des styles prédéfinis (narratif, descriptif, explicatif, argumentatif, poétique, etc.) mais de regrouper des documents (ou des portions de documents) en fonction de l’emploi qu’ils font de l’outillage grammatical (pronoms, temps et modes...) et de certains marqueurs lexicaux spécifiques (par exemple, types sémantiques d’adverbes : négation, possibilité, temps et espace...). La classification des documents se fait donc sur la base de traits linguistiques fins articulant étiquetage grammatical et projection de dictionnaires spécifiques (classes sémantiques d’adverbes ou de conjonctions de subordination, par exemple).Retour

[ 17] Voir ILLOUZ et al., 1999 et FOLCH et al., 2000.Retour

[ 18] Voir HABERT et al., 1997 pour une présentation globale du champ des linguistiques de corpus, dans lequel s’inscrit ce travail.Retour

[ 19] KARLGREN, 1999.Retour

[ 20] Nous avons défini 4 catégories de pronoms fondées sur le nombre (singulier/pluriel) et la personne grammaticale qui est désignée : p1={je/j, me/m, moi}, p2={tu, t, toi}, p4={nous} et p5={vous}. Les pronoms on et soi n’apparaissent pas dans cette catégorisation de pronoms car nous avons choisi de les classer avec les pronoms de la 3e personne du singulier. Ensuite, pour obtenir des résultats significatifs, nous avons uniquement pris en compte les sites dans lesquels apparaissent au moins 10 pronoms : nous réduisons ainsi notre corpus à 665 sites, soit 58 % du corpus initial.Retour

[ 21] Cette distinction entre acteur et spectateur a été construite à partir d’une analyse fine des pages des sites.Retour

[ 22] Outre le nombre de pages par site et le nombre de liens par page, nous avons construit les indicateurs suivants : nombre de liens hypertextuels internes (pointant vers une autre page du site) et externes (pointant vers un autre site), nombre de liens vers des images internes et externes, nombre de liens vers une boîte aux lettres ou vers un fichier FTP pour le téléchargement.Retour

[ 23] BEAUDOUIN, VELKOVSKA, 1999.Retour

[ 24] En effet, au cours de la constitution de corpus de sites personnels et marchands, nous nous sommes aperçus que les sites marchands « vivaient » beaucoup plus longtemps que les pages personnelles. Pour illustrer ce point, nous nous appuyons sur l’observation d’une quinzaine de sites marchands aspirés et archivés tous les ans depuis 1999, soit quatre états différents des mêmes sites. Du côté marchand, les rares changements observés proviennent soit de la fusion de deux sites (ex. des sites de voyage lastminute et degriftour), soit de l’intégration d’un site dans un autre (ex. de l’intégration du site de voyage expedia dans le site de la SNCF), soit de sa disparition (ex. le site de vente de biens culturels bol). Dans les deux premiers cas, les deux URL coexistent sur le web et l’utilisateur est automatiquement redirigé vers le site principal : l’opération de redirection est alors transparente pour le visiteur ; tandis que, dans le dernier cas, l’URL disparaît : le visiteur est alors confronté, dans le meilleur des cas, à une page qui l’informe de la disparition du site ou, dans le pire, à une page d’erreur.Retour

[ 25] Voir LICOPPE, BEAUDOUIN dans ce numéro.Retour

[ 26] Les anneaux de sites sont des ensemble de sites volontairement interconnectés via un dispositif ergonomique et technique spécifique et extérieur au site : les concepteurs intègrent dans leurs pages un élément permettant de naviguer au sein de l’anneau et le glissement d’un site à l’autre est possible dès la page d’accueil.Retour

[ 27] Nous avons constitué un sous-échantillon aléatoire d’environ 4 000 pages que nous avons exploitées avec différents outils de statistique textuelle (Lexico, Alceste), pour identifier les spécificités lexico-sémantiques des pages personnelles visitées selon leur serveur d’hébergement.(Lexico w www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/ ;Alceste : http ://www.image.cict.fr/Index_Alceste.htm).Retour

[ 28] Une enquête auprès des concepteurs de sites permettrait sans doute d’identifier des différences de profil selon les hébergeurs.Retour

[ 29] Nous avons construit une typologie de pages en utilisant comme traits de description : le nombre de liens internes et externes, de liens vers la boîte aux lettres, le nombre d’images, le nombre d’occurrences de mots sur la page, le nombre de pronoms de chaque personne, la présence d’une image en fond d’écran ou la définition d’une couleur de fond, la présence d’indications sur la police. Huit types de pages ont ainsi été identifiés. Les frontières entre catégories sont particulièrement floues et chaque classe doit plutôt être interprétée en termes de modèle ou d’idéal type.Retour

[ 30] Dan Sperber : www.dan.sperber.com/memoire.htmRetour

[ 31] GENETTE, 1969, p. 61-69.Retour

[ 32] DIMAGGIO et al., 2001.Retour

[ 33] Nous avons en effet aspiré un corpus de sites Wanadoo dont au moins une page avait été visitée en mars 2000 par notre cohorte.Retour

[ 34] Une comparaison avec d’autres catégories de sites permettra de voir si cette navigation de surface est propre aux sites personnels ou si elle est valable pour toutes les productions du web.Retour

[ 35] Pour 1 % des sites, plus de 34 pages ont été visitées, le maximum étant atteint pour un site dont 284 pages ont été vues.Retour

[ 36] Voir BEAUVISAGE, ASSADI dans ce numéro.Retour

Résumé

L’analyse des parcours sur internet ne peut être faite sans passer par une description fine des pages visitées. Nous proposons une méthodologie d’analyse des documents hypertextuels qui s’appuie sur l’identification de traits de structure (structure des liens, description des éléments de la page), de présentation (polices utilisées, fonds d’écran...) et de contenus (pronoms personnels, contenu textuel...). Cette méthode de description appliquée à des corpus de sites permet de mettre au jour les spécificités des sites personnels par rapport aux sites marchands, ce qui vise à mieux comprendre l’articulation de la sphère non marchande avec la sphère marchande. Ensuite, sur un corpus des pages personnelles visitées, cette méthode conduit à différencier des types de documents et à comprendre l’articulation entre les caractéristiques des pages et la manière dont s’organisent les visites.



ANALYSING INTERNET USES THROUGH A DESCRIPTION OF WEB PAGES VISITED Personal and commercial sites
Any analysis of paths on the Internet has to include a detailed description of the pages visited. We propose a methodology for analysing hypertext documents, based on an identification of structural features (structure of links, description of elements of the page), presentation (characters used, screen background, etc.) and content (personal pronouns, text content, etc.). By applying this method to corpuses of sites we are able to identify the specific characteristics of personal sites compared to commercial sites and thus further our understanding of the articulation between the non-commercial and commercial spheres. If we then apply the method to a corpus of personal pages visited, we can differentiate between types of documents and understand the link between page characteristics and the way in which visits are organized.

PLAN DE L'ARTICLE


POUR CITER CET ARTICLE

Valérie Beaudouin et al. « Decrire la toile pour mieux comprendre les parcours », Réseaux 6/2002 (no 116), p. 19-51.
URL :
www.cairn.info/revue-reseaux-2002-6-page-19.htm.
DOI : 10.3917/res.116.0019.