Accueil Revues Revue Numéro Article

Réseaux

2008/1 (n° 147)

  • Pages : 292
  • Affiliation : Revue précédemment éditée par Lavoisier

    Revue soutenue par l'Institut des Sciences Humaines et Sociales du CNRS

    Numéros antérieurs disponibles sur www.persee.fr

  • ISBN : 9782746221642
  • DOI : 10.3917/res.147.0229
  • Éditeur : Lavoisier

ALERTES EMAIL - REVUE Réseaux

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 229 - 257 Article suivant
1

(Article publié dans le numéro 144/2007 sans les trois figures reproduites ici)

2

Le 31 mai 2005, les Français ont rejeté le traité constitutionnel européen (TCE) par un non massif au référendum. Quelques mois avant celui-ci un tel résultat semblait inenvisageable tant la nécessité de voter oui ne faisait aucun débat dans les milieux politiques et les grands médias. Le web, de son côté, présentait une importante diversité de points de vue et voyait se constituer un important réseau dragué par la « nébuleuse » alter-mondialiste appelant à ne pas accepter ce projet de constitution accusé de mener droit à une Europe ultra-libérale. Il semblait alors que suivant de peu ce qu’il s’était passé aux Etats-Unis pour la présidentielle de 2004, le débat politique allait être porté sur le web et y trouver un véritable lieu d’expression et d’exposition.

3

Le caractère fortement dynamique du web, son hétérogénéité technique, sa taille démesurée et sa constante croissance font qu’il n’en existe aucun archivage exhaustif. On ne peut cependant pas rester sur ce constat d’échec et laisser des pans entiers de la mémoire collective du web disparaître au prétexte que cet objet est inapréhendable dans sa globalité. Une démarche locale d’archivage du web à vocation historiographique est nécessaire, ce travail a déjà été amorcé en France par la Bibliothèque nationale de France à l’occasion des élections présidentielles de 2002, action qui sera renouvelée en 2007. L’Institut national de l’Audiovisuel a pour sa part en charge le « Dépôt légal du Web » prolongeant son action sur le patrimoine audiovisuel français aux contenus web attenants. Concernant le référendum pour le TCE, aucune initiative de ce type n’a été menée et il est donc aujourd’hui impossible d’étudier rigoureusement l’évolution du débat sur le web sur les mois ayant précédé le vote.

4

Ce constat nous a décidé à réaliser une photographie des sites traitant du TCE sur le web français au moment du référendum. L’infrastructure humaine et matérielle mobilisée dans le cadre de l’étude présentée ici ne nous a pas permis de mener une campagne longitudinale ce qui évidemment nous aurait permis de pousser plus avant notre analyse.

5

L’archive constituée au moment de cette exploration du web peut être éclairée selon de multiples angles et un tel corpus mériterait assurément une approche pluridisciplinaire pour en révéler tous les aspects. Nous nous situons ici dans le prolongement des travaux américains réalisés sur les blogs dans le champ du social data mining notamment (Kumar Novak Raghavan, 2003), (Adamic Glance, 2005) et (Herring Cooper Paolillo Scheidt, 2005), c’est-à-dire au croisement de l’analyse des réseaux sociaux et du web mining (fouille de données sur le web). Il s’agit de révéler les propriétés morphologiques d’une localité du web (ensemble de sites en proximité tant hypertextuelle que thématique) c’est-à-dire la structuration hypertextuelle (partition communautaire) mais aussi de replacer cette localité dans son environnement (approche écologique) et d’étudier les principes d’organisation et d’interdépendances de la localité étudiée et de son environnement hypertextuel.

RECUEIL DES DONNÉES

6

L’angle choisi pour cette étude et donc pour le recueil des données fut le suivant : les sites web abordant le sujet du traité constitutionnel européen ou simplement prenant explicitement position pour le oui ou le non et leur environnement hypertextuel proche (sites web situés à quelques clics de souris). Pour réussir à se constituer notre corpus, nous n’avons pas fait appel aux moteurs de recherche ou aux annuaires qui sont un prisme déformant de la structure du web. Une telle posture relève d’une question d’intégrité scientifique quant à la maîtrise des sources de données et d’une autonomie stratégique souhaitable pour toute équipe de recherche engagée dans des travaux de social data mining sur le web.

7

Le recours fait à un dispositif propre d’extraction et d’indexation des données (dispositif de crawling) est un défi technique de poids, ne sont présentés ci-après que les éléments techniques permettant de comprendre comment la nature du dispositif technique ainsi que sa configuration jouent un rôle prépondérant sur la photographie du web prise. C’est là aussi l’occasion de présenter les limites et le caractère malgré tout non exhaustif de l’exploration menée (même si celle-ci présente un grain d’une grande finesse au regard de ce qu’il aurait été possible de réaliser en ne faisant appel qu’aux moteurs de recherche classiques).

Crawl : principe général de fonctionnement

8

La technologie de crawling utilisée est développée en partenariat avec l’INA (institut national de l’audiovisuel) [1][1] DRUGEON, 2004.. Ce dispositif est en fait celui qui sera utilisé pour le « Dépôt légal du Web ». Un crawler est un programme informatique capable d’explorer le web en se déplaçant de page en page par le suivi des hyperliens puis d’en indexer le contenu. L’unité documentaire utilisée est celle du site web. Hors un site web n’existe pas techniquement c’est-à-dire qu’il n’existe pas pour tout site un invariant technique calculable par un dispositif technique qui permette à coup sur à partir des pages crawlées de reconstruire le site web. Le crawler doit donc traiter de la diversité des cas possibles par des heuristiques particulières qui permettent dans la plus grande majorité des cas de reconstruire correctement le site.

9

Le crawler possède en conséquence une architecture à deux niveaux :

  • un crawler de sites web qui collecte les pages à l’intérieur d’un site web et qui décide quels liens sont internes au site et quels liens sortent du site, ces derniers sont listés pour être explorés consécutivement ;

  • un ordonnanceur qui décide quels sites doivent être explorés dans la liste de ceux à explorer en fonction du profilage (voir ci-après) et des principes d’orientation de ce dernier.

10

Le choix du site web comme unité documentaire va à l’encontre de la logique des moteurs de recherche qui fonctionnent par pages cependant les internautes se constituent des repères sur le Web selon une logique de sites et non de pages. Le site intègre une véritable dimension sociale en ce qu’il marque une présence, soutient une ligne éditoriale, peut rassembler une communauté, il incarne en quelque sorte, dans le champ du numérique, une raison sociale.

11

Le crawler explore tout type de contenus mais se limite à une certaine quantité de données par site web pour ne pas avoir à indexer des sites « léviathan » qui rendraient le traitement des données problématiques.

12

Cependant pour une étude telle que celle ci, l’objectif n’est pas d’aspirer la totalité du web mais bien une localité donnée, celle ayant pour thématique le traité constitutionnel européen ainsi que son proche environnement. Il est donc nécessaire de donner des instructions d’exploration au crawler quant à ses points de départ mais aussi pour qu’il ne soit pas sujet à une « dérive thématique » ou topical drifting[2][2] CHAKRABARTI, DOM et KUMAR, 1999., on parle alors du profilage du crawl.

Profilage du crawl

13

Les portes par lesquelles les robots du crawler entrent sur le web sont déterminantes dans le processus d’exploration. En effet, c’est à partir de ce set d’url que le crawler va pouvoir se constituer une archive de la localité du web explorée. Il est donc préférable pour ne pas avoir à gérer des masses de données trop importantes de faire partir les robots du cœur même de la localité visée. Cela signifie proposer en points d’entrée des sites qui sont thématiquement centrés et surtout qui offrent une connectivité importante (d’où le terme de cœur). En effet, si nos sites de départ ne proposent aucun lien externe, l’exploration sera stoppée dès les sites de départ archivés.

14

Le choix des points d’entrée se fait non pas en recourant à des moteurs de recherche mais en se basant sur l’expérience de navigation d’experts du domaine. Nous appelons « expert » d’un domaine thématique, un individu qui maîtrise cette thématique sur différents supports et qui maîtrise les chaînes matérielles de traitement de ces supports. C’est donc aussi un usager du web ayant une pratique de navigation du domaine de connaissance. Cela signifie l’avoir arpenté, s’y repérer, s’y être constitué des repères – qui sont aussi des points de rayonnement dans l’activité de navigation – et se l’être approprié [3][3] GHITALLA et BOULLIER, 2004.. Ces experts nous fournissent une liste d’adresses qui sont selon eux une bonne porte d’entrée sur le domaine. A partir de ces données nous avons lancé plusieurs crawls exploratoires avec différentes listes de points d’entrée et avons pu constater une certaine stabilité dans les résultats (ressources les plus connectées identiques d’un crawl à l’autre) ce qui tend à confirmer l’intuition selon laquelle il existe des régularités topologiques au sein des localités hypertextuelles explorées qui sont indépendantes de l’entrée choisie [4][4] Ces questions relèvent d’une question plus générale... (hypothèse qui devrait être testée pour une épistémologie de nos outils d’exploration). Le crawl exploratoire final à partir duquel nous avons réalisé l’étude a pris pour points d’entrée les 13 sites qui nous avaient été données par nos experts [5][5] wwww. ouisocialiste. net,clubdi.typepad.com, wwww.....

15

L’autre aspect important du profilage de crawl est celui du typage de contenu que nous appelons « typage sémantique ». Le typage sémantique permet de calculer pour tout site exploré un score de similarité sémantique avec notre typage, plus les mots ou expressions du typage seront présents dans le site plus le score de celui ci sera élevé. Pour réaliser ceci on mobilise encore les experts, car ce sont eux qui maîtrisent les concepts et le vocabulaire spécifique à leur domaine de connaissance. On leur demande d’identifier les termes représentatifs du domaine et de pondérer ces derniers en fonction de leur usage exclusif au domaine et non polysémique. Le typage utilisé est reproduit en note de bas de page [6][6] Constitution (8), constitution europeenne (10), europeen....

16

Enfin le profilage du crawl permet de choisir ou non une contrainte linguistique, ce qui a été le cas ici, en se limitant aux sites français, la profondeur d’exploration par site dont nous avons parlé précédemment a été fixée à deux ceci signifie que le crawler explore la page d’accueil du site, l’intégralité de ses fils ainsi que les fils de ses fils, c’est là un choix heuristique que nous ne pouvons justifier de façon définitive, cependant une règle de base en conception de site consiste à rendre l’information accessible en le moins de clics possibles ; nos robots n’explorent donc pas l’information cachée au fin fond d’un site web mais seulement celle qui « affleure » à sa surface, surface définie dans ce cas par l’ensemble des pages du site accessibles en un ou deux clics en partant de la page d’accueil.

Déroulement du crawl

Principes d’orientation

17

Comme nous l’avons déjà vu, l’ordonnanceur décide des sites à explorer en fonction du profilage du crawl mais aussi de ses principes d’orientation propres. Ceux ci fonctionnent selon deux critères : le score d’autorité et le score sémantique des pères de la ressource considérée. Ainsi lorsque l’ordonnanceur possède dans sa liste de sites à explorer un grand nombre de sites, il explorera en premier lieu les sites dont les pères (les sites qui pointent vers ce site) possèdent un fort score d’autorité (site pointé par de nombreux sites) et un score sémantique élevé (similarité avec le typage sémantique). Ces principes d’orientation lui permettent d’ordonner son plan d’archivage. A l’arrêt du crawler ce sont ces principes qui auront déterminé quels sites des sites en attente d’exploration n’auront pas été explorés.

Durée et date du crawl

18

Le crawl a été lancé entre le 30 mai et le 1er juin 2005, sur une durée de 36 heures. N’ayant pas pu lancer une étude longitudinale, nous avons finalement opté pour une photographie du débat sur le net au moment même du vote.

Ressources rapatriées

19

Au final, ont été explorées plus de 2 500 000 pages et 12 000 sites. Sur ces 12 000 sites, plus de 6 000 sites étaient de langue anglaise malgré l’instruction du crawler de ne pas explorer les fils des sites anglophones, cela donne une indication sur l’extrême porosité des sites francophones aux sites anglophones, la réciproque n’étant pas assurée étant donné le caractère orienté des liens hypertextes.

Prétraitement

20

La quantité de sites restant après élimination des sites anglophones était trop importante pour les traiter manuellement ce qui était notre parti pris initial. Il a donc été nécessaire de passer par un ensemble de traitements informatisés destructifs d’analyse linguistique pour isoler une collection de taille raisonnable au regard du temps disponible et des moyens humains mobilisés. Pour cela nous nous sommes basés sur les scores sémantiques des sites du corpus et avons fixé par ajustements successifs un seuil en dessous duquel nous avons éliminé les sites. Le calcul du score sémantique se fait à partir du typage sémantique décrit-ci avant et algorithme de TF/IDF(term frequency/inverse document frequency). L’idée était ensuite de prélever un échantillon des sites éliminés et de les visiter pour voir si des ressources thématiquement centrées y étaient présentes. L’ajustement se situe dans la recherche du meilleur compromis entre taille du corpus validé et dimension destructive du traitement. Empiriquement, nous nous sommes arrêtés sur un corpus étendu d’à peine plus de 1 000 sites et avons éliminé plus de 4 000 sites de notre collection crawlée. Bien que ces chiffres paraissent impressionnant il est à noter que l’exploration initiale était extrêmement large pour récupérer une grosse « pelote » de sites dans laquelle serait prise la plus grande part des sites thématiquement centrés et topologiquement proches que nous espérions trouver.

ANALYSE DU CORPUS ARCHIVÉ

Classification

21

Une fois constitué un corpus de documents signifiants, il convient de les analyser et donc de les découper en catégories. C’est ensuite à partir de cette classification que l’on pourra comprendre les principes d’organisation et de circulation des documents. Ce travail classificatoire n’est pas réalisé en cherchant à faire entrer coûte que coûte les documents dans des catégories rigides et universelles mais en s’imprégnant de l’organisation hypertextuelle de ceux ci d’une part et des thématiques qu’ils investissent d’autre part (folksonomies). Ainsi pour connaître le nombre de catégories mobilisées et leur dénomination, nous cherchons en premier lieu à réaliser des regroupements à partir de projections graphiques de notre corpus sous forme de graphe. Sur ces graphes, les sites web sont représentés par des nœuds et les liens hypertextes par des arcs ; le placement des nœuds se fait par des algorithmes qui placent en proximité géométrique les nœuds partageant des liens. Avec ce type de projections, des « grappes » de documents apparaissent, grappes repérables algorithmiquement (clusterisation) ou par simple lecture du graphe. La plupart du temps, ces grappes possèdent une ou des thématiques communes, lorsque c’est le cas il est possible de créer une catégorie recouvrant l’ensemble des documents de la grappe. Dans le cas où le domaine n’est pas suffisamment structuré, c’est-à-dire lorsque la topologie ne permet pas de créer de la différence, il s’agit de créer des regroupements thématiques qui peuvent être plus ou moins détachés de la topologie (les documents regroupés peuvent n’entretenir aucun lien ou peu de liens hypertextes). Dans ce cas précis, les regroupements ne sont pas sous-tendus par une activité explicite de liaison hypertextuelle mais par des considérations sur l’objet du site, sur sa nature et sur son contenu.

22

L’importance des regroupements topologiques dans le processus a des conséquences importantes sur le niveau de généralisation-spécialisation des catégories élaborées. En effet, si certaines catégories sont sous-représentées, elles gagneront immédiatement en généralisation, créant une nouvelle catégorie subsumant les cas isolés, cas ne présentant pas suffisamment de diversité pour justifier d’une catégorie leur étant consacrée [7][7] On retrouve à nouveau ces questions là chez (Kleinberg,.... De même, certaines spécialisations catégorielles très fines au regard du niveau de généralité des autres catégories pourront se justifier si elles permettent de rendre compte de zones de proximité topologique éloignées.

23

Ce travail tend à rapprocher les catégories construites de l’organisation hypertextuelle du web. Nous cherchons par notre partitionnement les groupes de sites web qui se constituent par l’activité de liaison hypertextuelle la plupart du temps non coordonnée des acteurs.

Constitution du sous-corpus TCE

24

La première phase de l’analyse du corpus étendu de mille et quelques sites consiste en la délimitation du corpus thématiquement centré. L’éclairage thématique choisi sur le corpus étendu est celui des sites abordant le sujet du référendum sur le traité constitutionnel européen. Aucune analyse qualitative n’est réalisée quant à la pertinence des informations dispensées, le relevé est ici purement quantitatif : tout site abordant le sujet du TCE ou appelant à voter répond à notre critère de classement.

25

Pour construire le corpus, nous avons opté pour une lecture de surface, par lecture de surface nous entendons une exploration rapide du site à la recherche de contenus thématiquement centrés, plus proche du balayage d’information que de la lecture exhaustive. Le temps passé par site était inférieur à 2 minutes et le nombre de pages explorées inférieur à 10. Lorsque le site aborde la thématique, cela est visible en général dès la page d’accueil, cependant dans quelques rares cas, une prise de position ou un contenu dédié peuvent être trouvés plus bas dans l’architecture du site. De par le caractère non exhaustif de l’exploration des sites par les robots et le parti pris de lecture, nous nous sommes en fait grandement rapprochés de la lecture web telle que décrite dans Boullier et Ghitalla [8][8] BOULLIER et GHITALLA, 2004..

Catégorisation du sous-corpus TCE

26

Le corpus comporte 312 sites web. En opérant tel que décrit ci-avant, cinq grandes catégories émergent pour classer les 312 sites. La première division est apparue entre sites partisans et sites non partisans. Parmi les sites partisans, nous nous sommes limités aux sites consacrés à chacun des deux camps en incluant un critère supplémentaire relatif au caractère exclusif du site. Pour les sites non partisans, nous avons récupéré un petit nombre de sites d’acteurs de la société civile qui étaient neutres, des sites d’institutions nationales ou européennes et enfin des sites web de grands médias (radio, télévision, journaux). Il a donc été adopté la catégorisation suivante aucunement universelle mais adaptée à notre objet selon l’angle privilégié et avons observé la distribution suivante.

Tableau 1.  - Typologie des sites Tableau 1.

Structure communautaire

27

La réduction du corpus de 12 000 à 312 s’est effectuée sur des critères linguistiques, sémantiques et thématiques mais aucunement sur des considérations topologiques. Pourtant, sur les 312 sites, 295 formaient un graphe connexe et seulement 17 se sont retrouvés orphelins (ne possédant ni pères, ni fils). Si les liens hypertextes suivaient une distribution aléatoire, la probabilité d’obtenir un tel résultat serait infinitésimale, nous retrouvons bien là la loi établie par Menczer [9][9] MENCZER, 2001. sur l’étroite corrélation sur le web entre proximité sémantique et topologique.

28

L’analyse des réseaux sociaux a proposé au cours de son histoire de nombreuses définitions pour les structures communautaires (cliques, n-cliques, lambda-sets, LS-sets) [10][10] WASSERMAN et FAUST, 1994.. Cependant la plupart d’entre elles restent trop contraignantes lorsqu’on les applique à des réseaux de documents hyperliés et ne permettent que rarement de créer de la différence au sein du corpus. Ceci s’explique par le caractère de lien social faible non automatiquement réciproque du lien hypertexte, lien qui peut être multiplié à l’infini et dont le coût d’entretien est quasi-nul (maintenir le lien en ligne, le corriger si la page cible change d’url). Le champ du social web mining a donc proposé depuis une dizaine d’années maintenant des définitions de structures communautaires plus adaptées au terrain du web. Nous partirons d’une généralisation par Radicchi et al.[11][11] RADICCHI et al., 2003. de la définition proposée dans Flake et al. [12][12] Flake et al., 2002., établissant les communautés au sens fort et au sens faible :

  • communauté au sens fort : sous-ensemble dont chaque élément possède plus liens à l’intérieur du sous-ensemble que vers l’extérieur ;

  • communauté au sens faible : sous-ensemble possédant plus de liens vers l’intérieur que vers l’extérieur.

29

Dans le cadre d’une approche écologique de localités web qui ne se limite pas à la simple topologie hypertextuelle, cette définition peut être généralisée pour qu’elle s’applique tant aux dimensions topologiques, thématiques que sémiotiques (format technique des documents et choix éditoriaux) des localités étudiées, nous proposons alors : Ensemble de sites Web en plus grande proximité les uns des autres que du reste du Web.

30

Les cinq catégories extraites de notre corpus ne proposent que pour deux d’entre elles une structure topologique communautaire : la communauté des tenants du oui et des tenants du non. Ceci nous amène à poser différentes constatations :

  • la prise de position pour ou contre le projet de constitution européenne est un critère pertinent pour détecter des communautés hypertextuelles malgré l’absence de coordination globale au sein de ces communautés (75,7 % des hyperliens du non et 52,5 % de ceux du oui sont intra-communautaires) ; si l’on ramène ces chiffres aux tailles respectives des communautés et que l’on calcule le coefficient d’ouverture de chacune des communautés, on trouve un coefficient d’ouverture 20 % plus important pour la communauté du oui que pour celle du non ;

  • la communauté du oui propose en moyenne 2,9 liens par site vers d’autres sites du oui contre un peu plus de 4 pour la communauté du non, autrement dit le non propose une meilleure ventilation de l’information et propose à ses visiteurs un plus grand nombre de chemins permettant de naviguer dans cette localité militante ;

  • les communautés du oui et du non présentent un nombre important de liens réciproques, 216 liens réciproques (33,6 % des liens internes) engageant 88 sites web pour le non et 90 liens (39 % des liens internes) engageant 42 sites pour le oui ; plus de la moitié des sites de chacune des communautés partagent des liens réciproques et plus d’un lien interne sur trois sont réciproques, liens réciproques qui en tant que marque d’élection mutuelle multiplient leur valeur de proximité sociale ;

  • la neutralité prônée vis-à-vis du débat représente un ensemble de 17 sites ne partageant entre eux que 8,6 % de leurs hyperliens (6 sur 70 hyperliens sortants), ceux-ci ne sont donc pas issus d’une structure communautaire préexistante au débat ni ne se sont « élus » par les hyperliens suite à leur prise de position commune ;

  • les sites des grands médias et institutions ne sont que partiellement représentés dans notre corpus (notre point de vue nous amenant à en éliminer de nombreux), il n’est donc pas possible de statuer sur le caractère communautaire sur le web de ces deux catégories, cependant ceux traitant de la constitution ne présentent pas une structure communautaire.

 -

Inter-relations

Le oui-non

31

Le caractère compétitif des deux localités du oui et du non ne les empêche pas de partager de nombreux liens. Sans entrer dans le détail des échanges et des discussions menées sur tel ou tel entre partisans d’un camp et de l’autre, la structure hyperliée du corpus donne des indications sur la manière dont ces deux espaces proposent des passerelles d’un pole à l’autre et présentent un positionnement en proximité dans une géographie de l’information globale. Sur les 79 sites du oui, 21 (soit plus de 25 %) proposent des liens vers 43 sites du non. Du côté du non ce sont 27 sites sur 161 (soit 17 %) qui proposent des liens vers 21 sites du oui. Cependant, le débat référendaire s’est cristallisé sur un territoire qui pour sa plus grande part lui préexistait et nombre de ces liens ne sont pas nés au cours du débat. Ainsi plus de la moitié des sites de part et d’autre sont des sites du Parti Socialiste et des Verts qui proposaient avant que la « partition référendaire » ne se constitue des liens vers des sites politiques proches ou des portails d’information alternatifs. Les interprétations visant à présenter ces inter-relations entre communautés comme une marque de présence d’un lieu de débat, de confrontation sont à mettre en perspective avec cette topologie antérieure au débat référendaire qui est un élément central de compréhension de son organisation au jour de l’étude.

L’information « classique » : institutions et médias

32

Maintenant que nous avons reconnu nos deux communautés, nous nous intéressons à leur relations avec les autres ensembles composant la localité thématiquement centrée sur le traité constitutionnel européen. Le oui est plus ouvert que le non au sein du corpus, cette ouverture se traduit par une communauté du oui se liant plus aux sites des institutions et aux sites des grands médias : chaque site du oui envoie en moyenne 0,6 liens vers les sites des institutions alors que les sites du non n’en envoient que 0,25 ; de même chaque site du oui envoie 0,6 liens vers les sites des grands médias alors que les sites du non n’en envoient que 0,45. Les sites des institutions et des médias présentent entre autre un contenu informationnel institutionnel et d’actualité non présent ailleurs (fonctionnement des institutions, déroulement du scrutin, modes de validation du traité dans les différents pays, actualité du traité) nécessaire pour alimenter le débat et argumenter ses prises de position. La communauté du non ne s’est cependant pas développée en se coupant de toute information sur l’actualité du traité mais en se référant à ses propres sites d’actualités qui affichaient une information partisane anti-traité : ainsi le peu de liens fait vers les grands médias et vers les sites institutionnels est contrebalancé par la position centrale de sites d’information alter tels que wwww. bellaciao. org,www.rezo.net, ou www. acrimed. org.

Hiérarchie hypertextuelle (étude des couches)

33

Il existe de nombreuses manières de créer de la hiérarchie dans un réseau en fonction uniquement de la structure de celui-ci. On parle pour le web souvent d’une mesure d’autorité d’un site web (authority) [13][13] KLEINBERG, 1999. calculée à partir du nombre de sites pointant vers le site considéré et de l’importance de ces sites pointant (renforcement mutuel). Un site faisant autorité est donc à la fois un site élu par un nombre important d’autres sites web mais aussi par voie de fait un site centrale dans la localité, point de passage pour de nombreux parcours de navigation d’internautes. La connectivité entrante et sortante du web suit une loi de puissance [14][14] BRODER, KUMAR et MOGHUL, 2000. quelle que soit l’échelle à laquelle on se situe (totalité du web ou quelques dizaines de sites), notre corpus ne fait pas exception à cette règle.

34

Notre meilleure autorité est le site du journal Libération ((www. liberation. fr), cependant cela ne permet pas de situer Libération par rapport aux autres grands journaux car pour la plupart ils ne sont pas présents dans le corpus (ils n’ont pas passé les critères de discrimination lexicale). Moins connus mais jouissant au sein du corpus d’une importante notoriété, nous trouvons, suivant Libération de près, Acrimed ((www. acrimed. org)et rezo.net ((www. rezo. net),des producteurs et/ou relais d’informations qui utilisent le web comme canal principal de diffusion. Le site des amis du oui ((www. lesamisduoui. com)arrive en quatrième position. Malgré la moindre présence du oui sur le net, le site des amis du oui a réussi à se positionner comme première autorité partisane et exclusivement dédiée au débat sur le traité constitutionnel. Ce statut n’est pas le fruit du hasard mais bien d’une stratégie explicite d’occupation du territoire numérique. Cela passe par une tentative de coordination des acteurs du oui sur la toile en cherchant dans un premier temps à tous les répertorier pour ensuite obtenir d’eux un référencement systématique. Ces stratégies de reconnaissance réciproque lorsqu’elles sont maîtrisées permettent de constituer un réseau dense et resserré de ressources cohérentes dans laquelle la navigation est facilitée pour l’usager à condition qu’il utilise le site ressource des amis du oui comme point de rayonnement. Les moteurs de recherche étant eux aussi sensible à la topologie du réseau confortent cette position centrale du site en lui attribuant un rang le plaçant dans les premiers résultats des requêtes relatives au traité.

35

En dehors des sites institutionnels ou de médias ((www. lepoint. fr, wwww. constitution-europeenne. fr),les meilleures autorités sont des sites du non, on y retrouve entre autres la LCR ((www. lcr-rouge. org,le site de la fondation Copernic wwww. fondation-copernic. orgde Gérard Salesses, Etienne Chouard etienne.chouard.free.fr dont les travaux d’exégèse du traité ont connu un succès retentissant (plus de 30 000 visites jour au plus fort du débat, diffusion du texte par courrier électronique, reprise sur de nombreux sites, apparitions tv, radio, presse), le MRAP wwww. mrap. asso. frou encore le site de l’appel des 200 wwww. appeldes200. net(texte appelant à voter non signé par 200 personnalités de tous horizons). Seul le site du oui socialiste wwww. ouisocialiste. netvient se glisser dans cette liste et c’est là aussi un site fédérateur qui jouissait d’un important relais sur les sites socialistes et qui mécaniquement se hisse au niveau des autorités du non malgré le handicap initial du nombre. Il est à noter qu’aucune des autorités du non n’a pris en charge explicitement ce travail de fédération des sites du non et que ces dernières se sont construites de façon non coordonnée profitant simplement de leur nombre et de la tendance (non exclusive) des communautés à l’endogamie hypertextuelle (tendance à se lier à des ressources thématiquement, idéologiquement proches).

Partitionnement politique

36

Le débat sur la constitution a eu entre autre pour effet de bouleverser l’échiquier politique et les habituels clivages de parti. A la suite de la victoire du non, nombreuses furent les analyses qui tentaient de situer politiquement ceux du non qui avaient fait basculer le scrutin : non de gauche, d’extrême gauche, non de révolte, non xénophobe. Au sein de la localité du non, 74 sites de partis politiques sont présents. La répartition de ces sites selon leur couleur politique est sans équivoque sur la tonalité générale du non sur le web : 30 % de ces sites se situent à gauche, 39 % à l’extrême gauche et 13 % appellent à un vote unitaire de toutes les gauches. Le non sur le web est donc sans conteste un non de gauche et ceci à plus de 82 %. On retrouve seulement deux sites d’extrême droite (FN wwww. frontnational. comet MNR wwww. m-n-r. net),sites qui ne sont d’ailleurs pas reliés aux autres sites politiques et n’ont quasiment aucune attache au sein de notre corpus en dehors de deux sites de la droite libérale : wwww. les4verites. comet wwww. pageliberale. org. Enfin les 14 restants se partagent entre sites souverainistes de gauche (J.-P. Chevènement), souverainistes de droite (MPF et CPNT) et des sites de partis militant pour un renouveau social du gaullisme.

37

Trois partis politiques s’assurent une présence conséquente sur cette carte politique du non, il s’agit de la LCR, du PC et du Parti Socialiste (précisément le Nouveau Parti Socialiste et le Nouveau Monde), dans les trois cas, la stratégie est la même : la création de sites de sections locales qui superpose à la présence sur le territoire physique une présence sur le territoire numérique, les sections se référencent mutuellement tout en se rangeant derrière le site national du parti ((www. lcr-rouge. orgpour la LCR, wwww. pcf. frpour le PC et wwww. democratie-socialisme. orgpour le NPS et le NM), la structure construite est pyramidale et centralisée, une telle stratégie a un fort effet tracteur sur la construction de l’autorité et assure au site une bonne position « webarchique » (hiérarchie web construite par les moteurs de recherche pour classer les résultats renvoyés à une requête donnée) [15][15] HINDMAN, TSIOUTSIOULIKLIS et JOHNSON, 2003.. Les sites appelant à un vote unitaire de la gauche se posent en trait d’union sur notre carte ce qui est en totale adéquation avec leur positionnement politique, ils sont encadrés par les sites du PC, LCR, PS cités ci avant et wwww. revue-republicaine. org,seul site assurant la connexion avec la localité des sites républicains, gaullistes et souverainistes.

38

La carte politique du oui comporte seulement 39 sites et parmi ces 39 seuls 10 représentent l’engagement de l’UMP pour le oui. Elle présente une faible densité de liens et ceci même entre sites du même parti. On retrouve du côté de l’UMP la bonne position sur le web des jeunes populaires qui ont depuis continué à marquer leur avance sur le reste du parti dans l’exploitation du web comme tribune politique (voir wwww. observatoire-presidentielle. fr). Tout comme pour le non, ce sont les sites unitaires qui réalisent le lien topologique entre les différents partis et qui donc se posent comme autorités centrales sur la carte : wwww. amisudoui. comdont nous avons déjà parlé et wwww. ensemblepourleoui. frréalisant le même travail de fédération mais pour les associations. On remarque enfin la présence des sites européens des partis ou des députés européens et ceci tant chez les verts, au PS qu’à l’UMP.

 -
 -

ÉCOLOGIE DU CORPUS

39

Etudier l’écologie de notre corpus, c’est non plus en analyser la morphologie et l’organisation interne, mais commencer à replacer celle-ci dans son environnement, environnement hypertextuel en l’occurrence. L’environnement d’une collection de sites web (son voisinage) représente l’ensemble des sites en proximité topologique de la collection considérée ; autrement dit des sites possédant des connectivités entrantes et/ou sortantes proches (ainsi deux sites ne possédant pas de liens entre eux mais partageant un profil hyperlié similaire seront voisins). Notons que le voisinage exact d’un ou plusieurs sites web est impossible à construire car cela nécessiterait de maîtriser un graphe complet du web. Nous approchons le voisinage de notre corpus par sa connectivité sortante (ensemble des sites pointés) autrement dit ses territoire d’élections et par sa connectivité entrante (ensemble des sites pointant), autrement dit son « terreau hypertextuel ». Le terreau hypertextuel sur lequel est posé un ou plusieurs sites donnés informe sur les localités qui proposent des chemins vers ce(s) site(s), cela permet donc de connaître l’origine des visiteurs et de resituer la lecture des sites dans des parcours de navigation et d’interprétation dans lesquels chaque nouveau contenu est lu à la lumière du précédent et influe sur la lecture du suivant.

40

Nous commencerons par nous intéresser à la connectivité sortante de nos deux communautés, à savoir les voisinages suggérés par l’activité de liaison hypertextuelle de notre corpus. La définition de sa connectivité sortante est le premier acte par lequel tout nouveau site web amorce une dynamique de reconnaissance élective. Par cette activité maîtrisée de sélection des ressources auxquelles se lier, le site se positionne pour son intégration à une ou plusieurs localités ; c’est dans la dynamique de retour, dans le mouvement réciproque de liaison de sites que son implantation véritable dans une localité se concrétisera. Bien que dans de rares cas, un site se trouve reconnu et élu par une ou des localités vers lesquelles il n’avait lancé aucun pont, c’est bien parmi les localités initialement choisies que le processus d’intégration se réalise suivant à l’échelle globale les règles d’attachement préférentiel menant à une structuration du web sous forme d’agrégats homogènes thématiquement. Le processus est équivalent dans le cas où un site web déjà existant se met à traiter d’une thématique nouvelle, son déplacement vers une nouvelle localité passera par une activité de liaison exogame visant à se faire reconnaître par cette nouvelle localité.

Voisinage sortant

41

Le oui propose une connectivité sortante sur notre corpus étendu d’étude (plus de 1 000 sites) de 92 sites web dont 76 sont connexes, côté non on trouve 239 sites dont 210 connexes. Au regard de leurs tailles respectives, les sites du non proposent plus de chemins vers l’extérieur de notre corpus alors qu’ils s’étaient révélés plus fermés en interne à notre corpus. L’importante connexité des deux sets de connectivité sortante démontre une relative homogénéité dans l’élection de localités d’attaches au sein des deux communautés, de plus la connectivité sortante totale du oui et du non n’implique que 278 sites web soit 39 sites composant à la fois la connectivité sortante du oui et du non, 37 uniquement pour le oui et 202 pour le non. On voit ici que la communauté du oui ne se singularise du non quant à sa connectivité sortante que sur la moitié de ses liens alors que le non le fait sur presque 85 % d’entre eux.

42

Le territoire vers lequel nous dirige le oui présente une hétérogénéité thématique malgré une importante connexité. Ceci s’explique par le fait que ces différentes localités sont en proximité sur le web et partagent de nombreux ponts. On y retrouve de nombreux sites écologistes axés sur le développement durable et le combat contre les OGM, des sites de défense des minorités (collectifs gays et lesbiens, cause palestinienne), une infime partie de l’immense galaxie du logiciel libre (portail framasoft en tête) et de nombreux liens vers des sites universitaires d’affaires européennes ou internationales, nous nous situons là dans un Internet non marchand éloigné de la couche haute du web.

43

Même constat à plus grande échelle du côté du non, forte connexité et importante diversité thématique. Les localités investies sont plus nombreuses, on y retrouve les sites écologistes, ceux de défenses des minorités avec l’apparition des sites féministes très proches des sites gays et lesbiens, le logiciel libre, le monde universitaire, non présents du côté du oui les sites de syndicats (principalement sud), les réseaux libertaires et anarchistes, les mouvements alter proches d’ATTAC.

44

De par les attaches développées par les sites ayant porté le débat référendaire, nous commençons à voir se dessiner l’écosystème dans lequel ont baigné sites du oui et du non. Ce tableau se doit d’être complété par une observation analogue de la connectivité sortante de nos deux localités.

Voisinage entrant (terreau hypertextuel)

45

Le oui est lié par 103 sites dont 76 connexes, côté non on retrouve 184 sites dont 174 connexes. Seuls 49 sites proposent uniquement des chemins vers les sites du oui contre 130 pour les sites du non, à nouveau on remarque qu’en proportion les sites du non profitent d’une plus importante reconnaissance et d’une meilleure implantation sur le territoire numérique. Les sites électeurs du non présentent une forte cohérence topologique (seuls 10 sites non connexes), elle est moindre du côté du oui (76 sites sur 103 connexes). Les terreaux hypertextuels du oui et du non sont en fait issus d’une même localité. On retrouve du côté du oui de nombreuses ressources et regroupements topologico-thématiques qui sont présents du côté du non, le oui arrive difficilement à se singulariser quant à son terreau hypertextuel, seuls quelques sites institutionnels et sites de personnages politiques (principalement UMP) participent exclusivement du terreau du oui. Le reste de ce terreau est rattaché à une structure dominante sur le web francophone tant par son ancienneté, sa taille que son influence, nous nous proposons de l’appeler « nébuleuse » alter-mondialiste car il n’existe pour le moment aucune étude l’ayant précisément circonscrite et en ayant décrit les propriétés topologiques. Nous pressentons l’existence de cette structure car elle est un invariant à toutes les explorations que nous avons menées sur le web francophone au cours des 3 dernières années. Une portion de celle-ci apparaît toujours en proximité des localités explorées, portion qui amène à des zones de forte densité hypertextuelle dans lesquelles les robots s’égarent facilement (topical drifting). Cette nébuleuse se confond en partie avec une seconde plus importante et à dimension plus internationale, il s’agit de celle du logiciel libre, là encore aucune étude écologique n’a pour le moment étudié cet ensemble extrêmement étendu et fortement organisé. Posséder un terreau composé de sites issus de ces deux nébuleuses est fortement structurant, en effet de tels sites de par leur importance ont un effet tracteur sur les sites qu’ils élisent en ce qu’ils offrent des chemins venant d’une importante autorité et générant un trafic important.

46

Bien que nous ne puissions en l’état actuel de notre étude nous avancer sur la structuration précise de cette importante localité du web, nous avons repéré, composant le terreau tant du oui que du non, un certain nombre de regroupements topologico-thématiques signifiants, ceux-ci peuvent parfois donner lieu à des regroupements inattendus mais ils découlent des zones de proximité et de densité repérées dans le voisinage de notre corpus référendaire.

47

Nous trouvons en premier lieu un regroupement « syndicats et gauche alternative », cet ensemble comprend de nombreux sites qui se trouvent dans notre corpus car nombre d’entre eux ont pris position pour le traité.

48

Proche de cet ensemble un regroupement « droits de l’homme, défense des minorités », celui-ci est étroitement imbriqué aux sites des mouvements féministes français qui s’ouvrent vers les sites féministes canadiens beaucoup plus nombreux et visibles sur le web.

49

Voisins de certains partis politiques de gauche, on retrouve le regroupement « écologie et nature » combinant à la fois des sites politiques, associatifs et des sites ressources d’informations.

50

Appendice de la nébuleuse du logiciel libre et fortement imbriqué au mouvement alter-mondialiste un regroupement « droit du citoyen sur internet » œuvrant pour le respect de la personne sur internet et la non-utilisation à des fins commerciales de données personnelles collectées sur le web.

51

Regroupement politique ou idéologique : un ensemble assez resserré et structuré qui mériterait à lui seul une étude approfondie : « Libéraux/Libertaires/Anarchistes ». Nous avons parlé de deux sites libéraux fortement ancrés à droite présents dans notre partition politique du non, ceux-ci font en fait partie de cet ensemble plus large dont une des propriétés est d’être en proximité topologique des sites d’extrême droite.

52

Sujet investi par la nébuleuse alter-mondialiste : le « Conflit Israëlo-palestinien », ce sont principalement des sites de soutien à la cause palestinienne que l’on trouve ici.

53

Enfin moins étendus trois regroupements « Journalistes indépendants, actualité », « Education alternative/religieuse » et « Ressources géopolitiques ». Les journalistes indépendants se trouvent en proximité des portails d’information alternative présents dans notre corpus (rezo.net en tête), les sites dédiés à l’éducation eux sont limitrophes de notre ensemble « gauche alternative, syndicats » enfin les « ressources géopolitiques » se retrouvent du côté des groupes de discussions européens et des centres universitaires.

54

Nous voyons au final une certaine diversité apparaître dans ce terreau hypertextuel mais la marque des réseaux alter-mondialistes se fait plus que prégnante et démontre que le débat n’a pas émergé ex nihilo et qu’il a pris racine en un territoire fortement marqué idéologiquement et politiquement.

CONCLUSION

55

L’échelle du web sur laquelle nous nous positionnons nécessite un accès outillé. Les dispositifs de crawling n’offrent qu’une photographie incomplète du web mais permettent la prise d’un point de vue surplombant. L’observation d’une géographie de l’information sur le web ne peut se faire sans ces dispositifs d’une grande complexité. Se pose alors la question de la capacité de nos outils à correctement photographier les localités auxquelles nous nous attaquons et ceci dans le but de se constituer un corpus d’étude exhaustif. La multiplication des points de vue et la recherche d’invariants permet d’ajuster les outils et d’éliminer nombre d’artefact mais c’est au niveau de l’optimisation des outils de focus-crawling que des progrès importants restent à faire. La prise en compte de données sémiotiques telles que les formats éditoriaux des pages est encore négligée dans les principes d’orientation des crawlers, l’analyse des contenus ne passe pas seulement par une analyse sémantique mais aussi par la reconnaissance de zones éditoriales sur les pages et la prise en compte de leur statut particulier, par exemple les champs commentaires, les blogrolls ou les trackbacks sur les blogs ; ceci appelant à une typologie des types de contenus mais aussi des hyperliens.

56

Le recours au focus crawling pour constituer notre corpus pose un autre problème. Ces derniers sont d’une grande pertinence pour révéler des phénomènes compétitifs sur le web [16][16] CHAKRABARTI, BERG et DOM, 1999., mais il serait abusif de vouloir généraliser à l’ensemble du web les propriétés structurelles extraites de l’étude locale de phénomènes compétitifs. Les patterns organisationnels sur le web sont nombreux et les modalités d’interdépendance entre différentes localités peuvent être fondées sur d’autres dynamiques que la concurrence et une économie de la visibilité. La multiplication des terrains d’étude avec l’intégration de terrains non « polarisés » est un premier pas nécessaire pour construire une véritable écologie des territoires d’information.

57

Enfin cette écologie ne commencera à être complète qu’à partir du moment où seront étudiées les dynamiques des localités étudiées. La forte plasticité du web, sa capacité à se reconfigurer et à redéfinir ses proximités sur des temps très courts oblige à suivre ses évolutions pour comprendre réellement ces dynamiques. Les travaux amorcés à Jon Kleinberg dans Kleinberg [17][17] KLEINBERG, 2002. sont à ce titre une veine à exploiter pour intégrer à nos modélisations une dimension évolutive qui prendra en compte les variations de connectivité par la détection de phénomènes de « bursts ».

58

Au-delà des considérations propres à l’établissement d’une écologie de l’information sur le web, le terrain expérimental choisi, support ici à la mobilisation de nos méthodes et outils, apporte son lot de questions et d’interrogations. L’ensemble des analyses des médias posées à la suite de la victoire du non au référendum demanderait à être revu à l’aune des éléments produits ici. Eléments qui fixent pour la première fois une vue synoptique d’un phénomène complexe, distribué et hétérogène (comme l’est le web). Cette stabilisation du territoire web du débat référendaire offre un soubassement objectif et un référentiel commun pour alimenter recherches, discussions, débats. Et s’il est vrai que le débat sur le web était protéiforme, le travail présenté ici permet en partie de mesurer l’impact de ces différentes formes et d’ainsi éviter de présenter un fait réel mais marginal pour porter des conclusions d’ordre général quant à la tonalité du web au cours de cette campagne. Cette tendance s’est effectivement remarquée au lendemain du scrutin et pour n’en relayer qu’une, il nous semble abusif de considérer que le débat s’est déplacé autour de questions de contexte socio-économico-politique plus que sur le texte en lui-même. En effet, le territoire que nous avons cartographié offrait une place centrale au texte, à son interprétation, à son explication et cherchait à entrer dans une dynamique d’appropriation collective de celui-ci, ceci pour être capable au final d’en expliciter au mieux tous les enjeux. Nous nous attacherons dans le futur à produire auprès de politologues et spécialistes des médias les conclusions de cette étude pour voir en quoi la carte conforte, prolonge, révise leur travail de recherche sur le référendum.

59

Remerciements

60

Je tiens à remercier en premier lieu Franck Ghitalla, instigateur des travaux de recherche en social web mining et écologie de l’information au sein du laboratoire COSTECH de l’Université de Technologie de Compiegne. Merci à Antonin Rohmer de RTGI SAS pour son aide dans l’édition des cartographies. Merci à l’INA et particulièrement Thomas Drugeon et Bruno Bachimont. Ce travail a été soutenu logistiquement et technologiquement par RTGI SAS.


RÉFÉRENCES

  • ADAMIC A., BUYUKKOKTEN O., ADAR E. (2003), “A social network caught in the web”, First Monday, vol. 8, n° 6, juin, http ://ftp.firstmonday. ddk/ www/issues / issue 8_6/adamic/index.html
  • ADAMIC A. (1999), “The small world Web”, ECDL’99, Proceedings of the Third European Conference on Research and Advanced Technology for Digital Libraries, Berlin, Springer, p. 443-452.
  • ADAMIC L., GLANCE N. (2005), “The Political Blogosphere and the 2004 U.S. Election : Divided They Blog”, citeseer.ist.psu.edu/adamic05political.html
  • ADAR E., ZHANG L., ADAMIC A., LUKOSE R. M. (2004), “Implicit structure and the dynamics of Blogspace”, Workshop on the Weblogging Ecosystem 13th International World Wide Web Conference, wwww. hpl. hp. com/ research /idl/ papers /blogs/blogspace-draft.pdf
  • BOTAFOGO R., SHEIDERMAN B. (1991), “Identifying aggregates in hypertext structures”, Proceedings of Hypertext’91, New York, ACM, p. 63-74.
  • BRODER A., KUMAR R., MAGHOUL F., RAGHAVAN P., STATA R. (2000), “Graph Structure in the Web”, Proc. of the WWW9 Conference, p. 247-256.
  • CHAKRABARTI S., VAN DEN BERG M., DOM B. (1999), “Focused Crawling : A New Approach to Topic-Specific Web Ressource Discovery”, Proceedings of the 8th World Wide Web Conference, Toronto, hhttp :// www. cs. berkeley. edu/- soumen / doc / www99focus/ html/
  • CHAKRABARTI S., DOM B., GIBSON D., KUMAR R., RAGHAVAN P.,
  • RAJAGOPALAN S., TOMKINS A. (1998), “Experiments in Topic Distillation”, ACM SIGIR’98 Post Conf. Workshop onHypertext IR for the Web.
  • CHAKRABARTI S., DOM B., KUMAR R., RAGHAVAN P.,
  • RAJAGOPALAN S., TOMKINS A., GIBSON D., KLEINBERG J. (1999), “Mining the Web’s Link Structure”, Computer, vol. 32, n° 8, p. 60-67.
  • DRUGEON T. (2005), “A technical approach for the french web legal deposit”,
  • IWAW 2005.
  • FLAKE G., LAWRENCE S., LEE GILES C. (2000), “Efficient Identification of Web Communities”, Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2000.
  • FLAKE G., LAWRENCE S., LEE GILES C., COETZEE F. (2002), “Self-Organization of the Web and Identification of Communities”, IEEE Computer, vol. 35, n° 3, p. 66-71.
  • GHITALLA F., BOULLIER D. (2004), « Le web ou l’utopie d’un espace documentaire », Information - Interaction - Intelligence, vol. 4, n° 1, p. 173-189.
  • GHITALLA F., BOULLIER D., NEAU A., GKOUSKOU-GIANNAKOU P., LE DOUARIN L. (2004), L’outre-lecture. Manipuler, s’approprier, interpréter le web, Coll. Etudes et Recherches, Bibliothèque Publique d’Information, Centre Georges Pompidou, Paris.
  • GHITALLA F., LENAY C. (2003), « Les territoires de l’information. Navigation et construction des espaces de compréhension sur le web », La navigation, Les cahiers du numérique, Hermès Edition, Paris.
  • GIBSON D., KLEINBERG J., RAGHAVAN P. (1998), “Inferring Web communities from link topology”, Proceedings of the Ninth ACM Conference on Hypertext and Hypermedia.
  • GRANOVETTER M. (1973), “The strength of weak ties”, AmericanJournal of Sociology, 78, p. 1360-1380.
  • HERRING S., KOUPER I., PAOLILLO J. C., SCHEIDT L. A. (2005), “Conversations in the blogosphere : An analysis ‘from the bottom up’”, HICSS-38, Springer.
  • HINDMAN M., TSIOUTSIOULIKLIS K., JOHNSON J. A. (2003), “Googlearchy : How a Few Heavily-Linked Sites Dominate Politics on the Web”, Annual Meeting of the Midwest Political Science Association, Chicago. http ://citeseer. ist. psu. Edu /613445.html
  • HUBERMAN B. A., PIROLLI P., PITKOW J.E., LUKOSE R.M. (1998), “Strong Regularities in World Wide Web Surfing”, Science, 280, p. 95-97.
  • KLEINBERG J., GIBSON D., RAGHAVAN P. (1998), “Inferring web community from link topology”, Proceedings of the 9th ACM conference on hypertext and hypermedia, Pittsburgh, United States, p. 225-234.
  • KLEINBERG J. (1999), “Authoritative sources in a hyperlinked environment”, Journal of ACM (JASM), vol. 46, n° 5, p. 604-632.
  • KLEINBERG J. (2002), “Bursty and Hierarchical Structure in Streams”, TR2002-1863.
  • KUMAR R., NOVAK P., RAGHAVAN S., TOMKINS A. (1999), “Trawling the web for cyber communities”, Computer networks, vol. 31, n° 1-16, p. 1481-1493.
  • KUMAR R., NOVAK P., RAGHAVAN S., TOMKINS A. (2003), “On the bursty evolution of Blogspace”, Proceedings of the Twelfth International World Wide Web Conference, Budapest, Hungary.
  • MARLOW C. (2004), “Audience, structure and authority in the weblog community”, International Communication Association Conference, New Orleans, LA.
  • MENCZER F. (2001), “Links tell us about lexical and semantical Web content”, http ://arxiv.org/pdf/cs. IR/0108004
  • MILGRAM S. (1967), “The small world problem”, Psychology Today, 2, p. 60-67.
  • PEDAUQUE R. (2003), Document : forme, signe et medium, les reformulations du numérique, Technical Reports, STIC-CNRS. http ://archivesic. ccsd.cnrs.fr /documents/archives0/00/00/05/11/index_fr.html
  • PFAENDER F., JACOMY M., FOUETILLOU G. (2006), “Two Vision of the Web : From Globality to Localities”, Proceedings of IEEE ICTTA06, Damascus, Syria.
  • RADICCHI F., CASTELLANO C., CECCONI F., LORETO V., PARISI D. (2003), “Defining and identifying communities in networks”, http ://es.arxiv.org/abs/cond-mat/0309488
  • SALTON G., MCGILL M.J. (1983), “Introduction to modern information retrieval”, McGraw-Hill.
  • TARDE G. (1895), « Les lois de l’imitation », Les empêcheurs de penser en rond, Paris, France.
  • WASSERMAN S., FAUST K. (1994), “Social network analysis :Methods and applications”, Cambridge, New York, Cambridge University Press.

Notes

[1]

DRUGEON, 2004.

[2]

CHAKRABARTI, DOM et KUMAR, 1999.

[3]

GHITALLA et BOULLIER, 2004.

[4]

Ces questions relèvent d’une question plus générale introduite par Kleinberg, Gibson et Raghavan dès 1998 qui est celle de la robustesse des structures communautaires trouvées sur le web. Dans (KLEINBERG, GIBSON et RAGHAVAN, 1998), cette robustesse est illustrée en faisant varier des root sets ne possédant que très peu d’intersections ; roots sets qui pourtant permettent par une exploration topologique de proche en proche et l’utilisation de l’algorithme HITS d’extraire un cœur d’autorités possédant un fort recouvrement.

[5]

wwww. ouisocialiste. net,clubdi.typepad.com, wwww. ensemblepourleoui. fr,www.e-torpedo.net, wwww. bigbangblog. net,www.acrimed.org, etienne.chouard.free.fr, wwww. referendum2005. fr,www.democratie-socialisme.org, wwww. appeldes200. net, perso.wanadoo.fr/non-merci, wwww. bellaciao. org,www.nonsocialiste.fr.

[6]

Constitution (8), constitution europeenne (10), europeen (10), traite (15), traites (15), referendum (15), ratification (10), ratifie (10), choix (2), 29 mai (15), article (1), articles (1), argument (5), arguments (5), argumentaire (5), argumentaires (5), parlement europeen (15), commission européenne (15).

[7]

On retrouve à nouveau ces questions là chez (Kleinberg, Gibson et Raghavan, 1998) qui ont observé des phénomènes de généralisation des thématiques explorées par leur algorithme HITS, généralisation qui est en fait un rapprochement de la racine d’un arbre thématique idéal, ces problématiques de hiérarchisation de la connaissance et les constructions des topic tree qui en découlent est la problématique centrale du design d’ontologies en informatique.

[8]

BOULLIER et GHITALLA, 2004.

[9]

MENCZER, 2001.

[10]

WASSERMAN et FAUST, 1994.

[11]

RADICCHI et al., 2003.

[12]

Flake et al., 2002.

[13]

KLEINBERG, 1999.

[14]

BRODER, KUMAR et MOGHUL, 2000.

[15]

HINDMAN, TSIOUTSIOULIKLIS et JOHNSON, 2003.

[16]

CHAKRABARTI, BERG et DOM, 1999.

[17]

KLEINBERG, 2002.

Résumé

Français

Des outils, assortis de méthodologies permettent désormais de travailler sur des corpus que l’on croyait inaccessibles à la recherche sociologique et politiste. Ainsi en va-t-il ici d’une photographie du contenu des nombreux sites qui ont concerné en France le Traité Constitutionnel Européen, rejeté par référendum le 31 mai 2005. Analysant le recueil des données et des acteurs, grâce à un outil, le crawl, détaillant les nécessités de sa configuration, l’auteur en vient ensuite à étudier comment furent constituées et alimentées les communautés du « oui » et du « non » et ce que furent les interactions entre le deux.

English

THE WEB AND THE EUROPEAN CONSTITUTIONAL TREATY Ecology of a competitive thematic locality Today’s tools and methodologies enable researchers to work on material that was formerly believed to be inaccessible to sociological and political research. This is the case here of a photograph of the content of many sites in France concerning the European Constitutional Treaty which French voters refused in the 31 May 2005 referendum. The author uses a tool, the crawl, to analyse the corpus of data and the actors, and describes the necessities of its configuration. He then examines the way in which the communities of “Yeses” and “No’s” were constituted and fuelled, and the interactions between the two.

Plan de l'article

  1. RECUEIL DES DONNÉES
    1. Crawl : principe général de fonctionnement
    2. Profilage du crawl
    3. Déroulement du crawl
      1. Principes d’orientation
      2. Durée et date du crawl
      3. Ressources rapatriées
    4. Prétraitement
  2. ANALYSE DU CORPUS ARCHIVÉ
    1. Classification
    2. Constitution du sous-corpus TCE
    3. Catégorisation du sous-corpus TCE
    4. Structure communautaire
    5. Inter-relations
      1. Le oui-non
      2. L’information « classique » : institutions et médias
    6. Hiérarchie hypertextuelle (étude des couches)
    7. Partitionnement politique
  3. ÉCOLOGIE DU CORPUS
    1. Voisinage sortant
    2. Voisinage entrant (terreau hypertextuel)
  4. CONCLUSION

Pour citer cet article

Fouetillou Guilhem, « Le web et le traité constitutionnel européen. Écologie d'une localité thématique compétitive », Réseaux, 1/2008 (n° 147), p. 229-257.

URL : http://www.cairn.info/revue-reseaux1-2008-1-page-229.htm
DOI : 10.3917/res.147.0229


Article précédent Pages 229 - 257 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback