Moteur de recherche : principes et usages
Introduction :
Les moteurs de recherche sont devenus incontournables pour trouver des informations sur Internet, et en particulier sur le web.
Après un aperçu historique de leur développement, nous nous intéresserons à la manière dont ils fonctionnent. Nous étudierons ensuite les enjeux techniques et sociétaux associés à ces moteurs.
Perspective historique
Perspective historique
Aux débuts de l’Internet, les sites web étaient relativement peu nombreux. Les internautes étaient habitués à entrer directement une adresse URL dans la barre d’adresse du navigateur. Les premiers recensements des sites disponibles étaient manuels, sous forme de listes de sites, qui, en s’étoffant, se sont transformées en annuaires.
Annuaires de sites web
Annuaires de sites web
Les recensements de sites web sous la forme d’annuaires adoptaient une classification inspirée des annuaires papier. Ce travail de classification était effectué manuellement : chaque site web était résumé par une description synthétique rédigée par un humain, puis répertorié dans une ou plusieurs catégories.
Mais les éditeurs d’annuaires ont été dépassés par l’essor rapide du web, qui a rendu la classification manuelle trop lente par rapport aux attentes des utilisateurs, puis humainement impossible en raison du nombre gigantesque de ressources à évaluer.
Émergence des moteurs de recherche
Émergence des moteurs de recherche
Les moteurs de recherche ne sont pas nés avec le web : des outils de recherche analogues avaient été développés pour d’autres services bien avant son apparition. Les premiers moteurs destinés au web sont apparus dans les années 1990. Le premier d’entre eux s’appelait W3Catalog. Mais c’est surtout le moteur de recherche de Yahoo qui a popularisé le concept.
Yahoo fait son apparition en 1994 sous forme d’un annuaire classique de sites. Mais il innove l’année suivante en proposant une fonctionnalité complémentaire : la recherche libre par mot-clé. Cette fonction de recherche est initialement limitée aux descriptifs de sites rédigés par Yahoo, mais elle inspire d’autres initiatives.
Différents moteurs font leur apparition au cours de la décennie 1990. On peut notamment citer Lycos, Excite, Infossek, Inktomi, AltaVista et Google, qui deviendront rapidement des outils incontournables pour accompagner le fort développement du web.
Les annuaires résument le contenu textuel des sites sous forme d’une description synthétique, grâce à une intervention humaine. En revanche, les moteurs indexent automatiquement les contenus de toutes les pages visitées, qu’il est ensuite possible de trouver ou de retrouver individuellement.
À cette époque, l’algorithme de Google s’illustre par la qualité de ses résultats, et ce moteur de recherche devient rapidement incontournable. Malgré le développement de moteurs concurrents tels que Bing, Yahoo ou Yandex, Google conserve à ce jour une grande prédominance sur le marché de la recherche sur le web.
Intéressons-nous maintenant au principe de fonctionnement des moteurs de recherche.
Principe de fonctionnement des moteurs de recherche
Principe de fonctionnement des moteurs de recherche
Un moteur de recherche est un outil qui accomplit trois tâches distinctes liées :
- le parcours automatique du web,
- l’analyse et le recensement du contenu des pages visitées,
- la fourniture de résultats à la demande.
Parcours automatique du web
Parcours automatique du web
Le web étant en perpétuelle évolution, les moteurs de recherche ont besoin de le parcourir sans cesse afin de détecter l’apparition de nouvelles ressources, et aussi de refléter les modifications éventuelles de ressources ayant déjà été traitées. Cette exploration est réalisée par des robots logiciels, également appelés robots d’indexation, parfois raccourcis en « bots ». Le pluriel est de mise car cette exploration est confiée à une myriade de robots qui travaillent en parallèle.
Ces robots logiciels sont programmés pour visiter un certain nombre de pages, en aspirer le contenu, et suivre les liens qu’ils découvrent au cours de leurs visites. Selon les instructions qui leur sont données, les robots d’indexation vont se livrer à une exploration plus ou moins poussée des ressources visitées. Chaque lien découvert par le robot peut ensuite être exploré à son tour, dans la limite des instructions données. Les liens repérés au cours d’une exploration mais non visités peuvent être confiés à d’autres robots. Ces robots peuvent être paramétrés pour effectuer une exploration adaptée de différents types de ressources, tant en matière de profondeur d’exploration que de fréquence de visite.
Le web est constamment parcouru par une multitude de robots œuvrant pour différents moteurs de recherche. Cette exploration permet la collecte puis l’analyse du contenu des pages visitées.
Analyse du contenu des pages
Analyse du contenu des pages
Chaque page visitée par les robots d’exploration fait l’objet d’une analyse de son contenu, afin qu’il puisse ensuite être proposé parmi des résultats de recherche. Le texte de la page est décortiqué et traité pour pouvoir lier la page aux différents mots-clés qu’elle contient.
La première étape consiste à lister tous les mots présents dans un document donné.
Cette liste est épurée des mots considérés comme inutiles : les mots vides de sens, également appelés mots-outils.
Il s’agit principalement des déterminants, des prépositions, des pronoms et des conjonctions comme le, la, les, mon, ma, mes, ce, cette, ces, qui, que, et, ou…
Les moteurs de recherche appliquent également des traitements visant à obtenir une forme canonique des mots : les conjugaisons, les déclinaisons de genre (masculin, féminin) et de nombre (singulier, pluriel) sont gommées pour ne retenir qu’une racine commune.
- Cette racine servira de base à l’indexation.
Par exemple, la forme canonique des mots « petit », « petite », « petits » et « petites » est « petit ».
Indexation :
L’indexation consiste à établir une relation entre chaque page et les mots qu’elle contient. Schématiquement chaque page est associée à la liste des mots qu’elle contient.
Toutefois cet index ne correspond pas à la manière dont les internautes utilisent les moteurs de recherche : ces derniers ne veulent pas connaître la liste des mots qu’une page contient, mais au contraire la liste des pages contenant un mot donné. Afin de pouvoir fournir une telle réponse dans un délai raisonnable lors de leur interrogation, la plupart des moteurs ont donc recours à un index inversé.
Index inversé :
L’index inversé liste tous les documents où apparaît un mot donné.
Index inversé construit à partir de 4 pages
Les moteurs de recherche évaluent aussi la pertinence de chaque page pour un mot-clé donné. Cette évaluation est le résultat d’un certain nombre de traitements propres à chaque moteur : ceux-ci s’intéressent notamment au nombre de fois où un mot est présent sur une page.
Une pondération est également appliquée selon la position du mot dans la page. Si le mot est présent dans le titre de la page, dans des intertitres, ou encore mis en avant par des effets typographiques (par exemple des caractères en gras), cela suggère que le mot en question est assez central sur cette page. Les moteurs vont donc lui accorder plus d’importance que si le mot était seulement mentionné ponctuellement au détour d’un paragraphe.
Enfin les moteurs de recherche prennent en considération la quantité et la qualité des liens désignant une page donnée. En analysant le nombre d’hyperliens pointant vers une page donnée et la page d’où émane l’hyperlien, les moteurs peuvent estimer la popularité, et d’une certaine manière la légitimité, d’une ressource sur un mot-clé ou une thématique.
Fourniture des résultats d’une requête
Fourniture des résultats d’une requête
La fourniture des résultats est la partie visible par l’internaute du fonctionnement d’un moteur de recherche : celui-ci propose une liste ordonnée de résultats en réponse à la requête formulée par l’internaute. Cette liste est établie à partir des données collectées et analysées par le moteur.
Les moteurs fournissent un nombre souvent très important de résultats, classés par pertinence décroissante selon l’algorithme de chaque moteur. En général les internautes se contentent de la première page et consultent surtout les tous premiers résultats de la page.
- Les propriétaires de sites web cherchent donc à apparaître parmi ces premiers résultats de ce classement pour augmenter le nombre de visiteurs et de clients lorsqu’il s’agit de sites marchands.
Historiquement les moteurs de recherche fournissaient uniquement des résultats textuels, mais leurs fonctionnalités ont été progressivement étendues à d’autres types de ressources, telles que les images et les vidéos ainsi qu’aux formats de documents usuels.
De même les possibilités de recherche ont été améliorés pour permettre de les affiner selon différents critères : il est possible de filtrer les résultats par langue, par type de média ou encore en se limitant à une plage temporelle donnée.
Les fonctionnalités précises varient d’un moteur à l’autre. En dépit de la prédominance de certains moteurs, il est utile de comparer les résultats de plusieurs moteurs sur une même requête. Le nombre de résultats n’est pas le seul critère à prendre en compte, d’autant que les moteurs qui annoncent des milliers ou des millions de résultats incorporent souvent des résultats approchants et potentiellement non pertinents.
Les performances des moteurs sont aussi variables selon le type de recherche effectuée : ainsi certains moteurs très performants sur la recherche textuelle peuvent s’avérer moins performants que d’autres sur la recherche d’images et vice versa.
La performance globale d’un moteur dépend des trois fonctionnalités que nous venons d’étudier :
- leur capacité à parcourir automatiquement le web pour y détecter les nouveaux contenus ou les changements ;
- leur mode d’analyse du contenu des pages visitées ;
- et enfin leur capacité à fournir des résultats pertinents par rapport aux requêtes des internautes.
La présence d’un site web parmi les résultats de recherche d’un moteur est le fruit de son référencement naturel, consécutive à sa découverte et à son indexation par le moteur de recherche. Ce référencement naturel est sans lien avec le référencement payant, c’est-à-dire l’achat d’emplacements publicitaires, sur un moteur de recherche ou un autre site.
Les technologies des moteurs de recherche sont également utilisables dans d’autres contextes que le web : elles peuvent être déployées pour proposer une fonctionnalité de recherche limitée au contenu d’un site web, d’un intranet, ou de ressources autres. Ainsi, certains moteurs spécialisés permettent de chercher des serveurs ou des objets connectés.
Le caractère incontournable de ces moteurs pose un certain nombre d’enjeux techniques et sociétaux sur la manière dont nous pouvons ou non accéder aux informations.
Enjeux techniques et sociétaux des moteurs de recherche
Enjeux techniques et sociétaux des moteurs de recherche
En quelques années les moteurs de recherche se sont imposés comme les portes d’entrée du web. La pertinence et la qualité des résultats proposés ont donc une influence assez directe sur les informations rendues accessibles aux internautes.
Les moteurs de recherche améliorent sans cesse leurs algorithmes pour proposer les meilleurs résultats possibles. Ils doivent cependant composer avec certaines limitations techniques dans leur exploration du web, et prendre en compte le fait que les propriétaires de sites peuvent être tentés d’employer des techniques déloyales de sur-optimisation de leurs pages pour améliorer leur visibilité. Enfin les moteurs peuvent enfermer l’internaute dans ses croyances s’ils cherchent à personnaliser les résultats qui lui sont proposés.
Une cartographie incomplète du web
Une cartographie incomplète du web
Malgré les ressources colossales dont disposent les principaux moteurs de recherche, aucun moteur ne peut prétendre disposer d’une cartographie complète et à jour du Word Wide web.
Plusieurs raisons contribuent à la non-indexation de certains contenus :
- les demandes de non-indexation par l’auteur du site (précisées dans le fichier robots.txt ou par l’instruction dans la page du site) ;
- les restrictions d’accès à certains contenus nécessitant une identification et/ou un paiement préalable (on parle alors de web privé) ;
- la structure technique de certaines pages web, notamment interactives, qui limitent les possibilités de prise en compte par les moteurs ;
- les résultats provenant de base de données accessibles uniquement via des formulaires ;
- l’exercice du droit à l’oubli par les internautes qui demandent aux moteurs la suppression de certains résultats comportant des informations nominatives.
L’ensemble de ces contenus non indexés par les moteurs est appelé web profond.
Web profond :
Le web profond (deep web en anglais) désigne la partie du web qui n’est pas indexée par les moteurs de recherche.
Ce web profond est également appelé web invisible ou web caché, par opposition au web de surface accessible par les moteurs de recherche.
Le web profond ou deep web ne doit pas être confondu avec le web clandestin ou dark web, qui est un ensemble de réseaux chiffrés qui abritent souvent, mais pas uniquement, des activités illégales. Le dark web est, par sa nature, inconnu des moteurs de recherche classiques.
Les limites techniques à la cartographie du web ne sont pas les seuls éléments pouvant influencer les résultats de recherche.
Optimisation du référencement naturel
Optimisation du référencement naturel
Les propriétaires des sites internet désireux que leur site apparaisse parmi les premiers résultats des moteurs de recherche peuvent optimiser leurs contenus et leur visibilité pour une meilleure indexation.
Certaines techniques sont acceptées ou encouragées par les moteurs de recherche, tandis que d’autres sont considérées comme déloyales et susceptibles d’entraîner une sanction par le moteur comme la rétrogradation dans la liste des résultats, ou le déréférencement du site dans les cas les plus graves.
Ces techniques d’optimisation pour les moteurs de recherche sont souvent désignées par l’abréviation SEO pour Search Engine Optimization. Elles consistent en un certain nombre d’actions complémentaires les unes des autres. On trouve notamment :
- l’optimisation des contenus textuels sur les pages du site, notamment par le placement stratégique de mots-clés choisis en différents endroits de la page, avec une répétition raisonnable de ceux-ci ;
- un texte suffisamment long et correctement rédigé ;
- le maillage des pages entre elles sur le site via des liens hypertexte croisés ;
- le développement de liens entrants en provenance de sites réputés.
Les contenus des sites reposant majoritairement sur des bases de données ne sont pas directement indexables par les robots des moteurs de recherche. Ces sites en publient des extraits, plus ou moins importants, sous forme de pages statiques, qui pourront être indexées par les robots. Cette technique est notamment utilisée par les dictionnaires en ligne ou les sites de commerce électronique.
Bulle informationnelle
Bulle informationnelle
Bulle de filtres :
La notion de bulle informationnelle, également appelée bulle de filtres ou bulle de filtrage, renvoie au fait que l’internaute est parfois exposé à une sélection d’informations opérée à partir de son propre profil.
Les moteurs de recherche ainsi que les réseaux sociaux collectent, anonymement ou non, un nombre important de données sur les recherches et les cheminements des internautes sur le web. Ces données permettent de dresser des profils et de déterminer des centres d’intérêt supposés, à partir desquels les plateformes peuvent adapter les contenus proposés en contrepartie de la personnalisation de l’expérience utilisateur.
- L’objectif et l’intérêt de la plateforme est de satisfaire l’internaute en lui proposant des informations qui lui conviennent, elle pourra ainsi proposer davantage de publicités et autres possibilités de ciblage marketing de l’internaute.
Si l’internaute est exposé uniquement à des informations qui tendent à le conforter dans ses certitudes, il se retrouve isolé dans une bulle de filtres. N’étant pas exposé à des informations considérées comme non pertinentes pour lui, il risque de ne pas être confronté à des informations contradictoires, pourtant nécessaires pour se forger une opinion non biaisée sur un sujet donné.
Notons cependant que les études menées ces dernières années sur le sujet suggèrent que les bulles informationnelles existent déjà à travers les choix des médias traditionnels ou des relations.
Si le nombre de résultats fournis par les moteurs de recherche peut impressionner, il ne faut donc pas perdre de vue qu’ils fournissent seulement une vision partielle et parfois biaisée du web.
Par ailleurs, les moteurs de recherche commencent à se tourner vers la recherche vocale. Google par exemple commence à se présenter comme un moteur de réponse : il peut répondre vocalement à des questions vocales. C’est donc Google qui choisit la réponse qu’il juge la plus adaptée à la question posée. Cela accroît le risque d’être enfermé dans la vue partielle d’un sujet.
Moteurs de recherche alternatifs
Moteurs de recherche alternatifs
Afin de se soustraire aux éventuelles manipulations des gros moteurs de recherche, on peut se tourner vers des moteurs moins connus tels que Qwant, Ecosia, DuckDuckGo ou Lilo. Ces moteurs alternatifs ont la particularité de respecter la vie privée des internautes, de promouvoir l’écologie ou bien encore de s’inscrire dans une démarche solidaire.
Conclusion :
Nous avons décrit le développement des moteurs de recherche en réponse à l’essor fulgurant du web. Nous avons ensuite étudié leur fonctionnement articulé sur le parcours du web, l’indexation et la restitution des résultats pertinents. Nous avons également souligné les enjeux techniques et sociétaux posés par le rôle désormais incontournable des moteurs de recherche : ceux-ci sont non exhaustifs, susceptibles d’être manipulés et de fournir aux internautes des résultats potentiellement non représentatifs.