Mesure d’audience

September 14th, 2004 par Franck Arnulfo

Ayé nous avons un traqueur d’audience pour notre weblog!
Je me suis inscrit sur Xiti qui fournit gratuitement un traqueur à condition d’afficher le logo Xiti (que vous pouvez voir en bas à droite). Vous pourrez consulter les statistiques dès demain à partir du lien Audience à droite.

J’en profite pour rappeler le principe de fonctionnement d’une mesure d’audience basé sur un traqueur en commençant par le début:
Pour mesurer l’audience d’un site web, les logs du serveur web sont la première source d’information. En effet chaque ligne contient l’adresse IP du visiteur, la page/l’image qu’il demande, la marque de son navigateur (le User Agent), le lien d’origine (REFERER) qui permet de voir d’où viennent vos visiteurs et d’autres informations comme le code de retour (ex.: 404 : Page not found, ce qui permet de vérifier des liens erronés si on a le temps d’analyser les logs :-) ).
Attention! à la fiabilité de ces informations, l’adresse IP peut être l’adresse IP du proxy *transparent* ou pas du visiteur et non son adresse IP réelle, le User Agent peut-être modifié par l’utilisateur lui-même, de même que le REFERER.
Donc méfiance sur les statistiques que vous pouvez lire ici où là! Comme disait quelqu’un, “On peut tout faire dire à des chiffres” mais quand en plus ceux-ci ne sont pas sûrs…
Des outils traitent donc ces logs pour sortir des rapports sur la fréquentation du site (nombre de visteurs, nombre de pages vues, fréquentation en fonction de l’heure, liens d’accès qui permet de voir d’où viennent vos visiteurs).
De nombreux outils open source sont disponibles dont les plus cités : Analog, Webalizer et a priori le plus *hype* AWStats.

En théorie donc, les logs du serveurs suffisent ? Oui mais non !
En effet ces logs ne sont pas toujours facilement accesssibles, par exemple dans le cas de load balencing d’un site sur plusieurs serveurs webs il faut mettre en place des procédures pour récupérer/agglomérer l’ensembles de logs de chaque serveur. Dans le cas d’un hébergement externe cela peut-être difficile/long à mettre en place. Il y a même des cas où ces logs sont carrément inacessibles ce qui est le cas de pratiquement tout les hébergeurs gratuits de sites *perso* (Free, Multimania, …).
On peut rajouter que ces logs ne sont pas aussi complet qu’ils n’y paraissent. Par exemple la résolution de l’écran ainsi que le nombre de couleurs n’y figurent pas.
Un autre point important: chaque fois que le visiteur voit une page, celle-ci n’est pas toujours redemandé au serveur web et donc n’apparait pas dans les logs, c’est le cas des pages statiques (simples pages HTML) qui sont gardées en cache dans le navigateur.
Le marqueur d’audience est une réponse à ces différents problèmes.
Il consiste en un morceau de code HTML à rajouté dans chaque page site. Ce code HTML contient un lien sur image qui est situé sur le site qui gère ces marqueurs. Le principe de base est le suivant: à chaque fois qu’un visteur consulte une page de votre site, le site du marqueur de page est appelé via l’image du marqueur. Les logs du serveur web (encore eux !) du marqueur contiennent donc un appel pour obtenir l’image avec les mêmes informations sur le visiteur que celles que vos logs vont enregistrées.
On a simplement déplacé le problème de traitement des logs vers un autre serveur web, mais on y a gagné une centralisation de ces logs dans le cas de serveurs load-balancés et aussi une externalisation de la gestion des rapports car c’est la société du marqueur qui s’occupe (Xiti en l’occurrence) de générer des rapports sans avoir accès à vos logs de serveurs web.
Evidemment ce n’est pas un simple appel http://server/image.gif mais plutôt un appel du genre http://server/image.gif?param1=valeur1&param2=valeur2.
Ces différents paramètres contiennent notamment un identificateur de site ce qui permet à la société du marqueur de gérer plusieurs sites clients.
En fait ce lien sera généré dynamiquement par du code Javascript pour pouvoir rajouter en paramètre du lien la résolution de l’écran du visiteur, son nombre de couleur, le REFERER et pour finir un paramètre qui évolue tout le temps comme l’heure ou un nombre aléatoire, ceci pour éviter que le navigateur garde en cache l’image.
C’est grâce à ce paramètre toujours changeant que l’on peut comptabiliser le nombre de page vue sur des pages statiques car lorsque le visiteur consulte une page statique celle-ci peut provenir du cache du navigateur, par contre le navigateur va interpréter le code javascript et générer une nouvelle url correspondant à l’image du tracker, ce qui va déclencher un nouveau téléchargement de l’image à chaque consultation de la page.
Si on prend l’exemple de Xiti on a une url de ce type:
http://logv26.xiti.com/hit.xiti?s=XXXXX&p=YYYYY&hl=18x19x2&r=1152x864x16x16&ref=
s : identifiant du site client
hl : heure locale
r : résolution
ref : referer

Le paramètre p indique au marqueur sur quelle page du site client il se trouve, ce qui permet à Xiti d’afficher un rapport par page marqué. En fait on peut (dans la version payante) aller plus loin en définissant un autre niveau qui ajoute un autre paramètre.
Voilà ! Chaque jour Xiti traite les logs de ces serveurs pour générer les rapports.
En fait la différence entre les sociétés qui offre ce type de service ce situe à ce niveau, dans la qualité et la pertinence des rapports.
Donc tout est bien qui finit bien ?
Et malheureusement non, car comme vous l’avez sans doute remarqué on peut parfaitement rendre inopérant cette technique en interdisant par exemple l’affichage d’image d’un autre site que celui sur lequel vous surfez (fonctionnalité mozilma), en désactivant le javascript ce qui va fausser les statistiques, en générant à la main des appels pour faire gonfler les hits.
Il faut savoir que sur les sites affichant publiquement leurs statistiques et notamment le referer des visiteurs, des spammers font des appels pour pouvoir y faire figurer leurs sites!
Bon il est vrai que dans la majorité des cas ça passe, mais il faut bien savoir que ce n’est pas infaillible.
Comme indiqué plus haut Xiti est une des sociétés qui offre ce service, ce n’est bien sûr pas la seule. Par exemple, j’utilise aussi eStat Perso sur un autre site (le célèbre VeloGUI) mais celui-ci affiche désormais une page de pub (même sous Firefox :( ), donc nous allons essayer Xiti.
Récemment est sorti un projet open source PHPMyVisites qui est une implémentation open source en PHP/MySQL de ce principe.

PS.: Si quelqu’un sait comment faire débuter des paragraphes html en retrait sur la première ligne uniquement via les css, ça serait cool !

5 Responses to “Mesure d’audience”

  1. Freddy Says:

    J’ai tout compris et tu as même réussi à me convaincre de l’intérêt au moins dans certains cas de figure (comme le nôtre bien sûr). thanks

  2. Benoît Says:

    Ben pareil, j’ai tout compris ce qui est déjà un exploit!
    Y compris les limitations et tout et tout hein ! :-P

  3. Benoît Says:

    Y a http://www.statcounter.com/ qui est gratuit (du moment que l’on n’excède pas 9000 pages/jour, sinon faut passer en mode payant) et qui a l’air pas mal non plus. (plus complet ? je n’en sais rien vu que je connais surtout la vue publique chez Xiti…)
    Et pas de logo à apposer nulle part…

  4. Franck’n Friends weblog » Blog Archive » Mieux connaître votre audience Says:

    […] un peu plus sur la mesure d’audience, je ne saurais vous recommandé cet article : Mesure d’audience… PS.: d’ailleurs cette lecture m’a remarqué que le ma […]

  5. JC Says:

    Hello,

    Pas mal du tout cet article. La preuve je l’ai compris!
    Dans le domaine de l’e-marketing et plus précisément de l’e-publicite, la mesure d’audience donne lieu à facturation selon différent modèles économiques: taux de transformation, taux de clicks, taux de pages visitées.

    As tu une vision d’ensemble de comment cela marche?

    Many thanks,

    JC

Leave a Reply

You must be logged in to post a comment.