Issuu on Google+

Rechercher et trouver l'information sur Internet

David Fernandes, 2013


Le programme Le Web

Les moteurs de recherche généralistes (Google) Les moteurs spécialisés (Google scholar, Scirus) Les archives ouvertes (Archimer, Hal…) Les moissonneurs(Oaister…)


1-

Le Web


Fin des années 60, Internet est un réseau de réseaux, sans centre névralgique, composé de millions de réseaux aussi bien publics que privés, universitaires, commerciaux et gouvernementaux.

Internet transporte un large spectre d'information et permet l'élaboration d'applications et de services variés comme le courrier électronique, la messagerie instantanée et le Web.

Le Web a été inventé plusieurs années après, au Début des années 1990. C’est un système hypertexte public fonctionnant sur internet qui permet de consulter, avec un navigateur, des pages accessibles sur des sites.


Le contenu 55,5 % en anglais, 3,9 % en franรงais (W3Techs, http://w3techs.com/technologies/overview/content_language/all)


Les outils de recherche • Les moteurs : outils de recherche sur le web constitués de «robots» permettant de retrouver des ressources associées à des mots

• Les annuaires : pour une recherche de sites thématiques • Les méta moteurs : interrogent plusieurs moteurs de recherche simultanément

• Les encyclopédies : pour des définitions, informations

pertinentes, recherche de mots clés…etc.

• Les bases de données spécialisées, archives ouvertes : pour des informations validées dans un domaine précis


2 - Les moteurs Généralistes

http://jeanlucraymond.fr/2013/08/29/rechercher-information-internet/ Consulté le 19/09/2013


Ou un autre?


TEST


~91% des franรงais utilisent Google (contre (seulement) ~65% aux Etats-Unis)


Moteurs de recherche gĂŠnĂŠralistes :


L'algorithme de pertinence de Google (Algorithme de pertinence : “Page Rank” inventé par Larry Page, cofondateur Google.)


les robots, appelés aussi "bot" ou "spider" Il s'agit d'un programme qui parcourt sans arrêt le web pour alimenter et mettre à jour une base de données contenant les adresses les contenus et liste des liens avec d’autres pages.

Il se base principalement sur l'indice de popularité.


Google compte le nombre de liens qui pointent vers chaque page. Plus une page est pointée par d'autres pages et plus elle est considérée comme populaire.

Tous ces paramètres (et sans doute beaucoup d'autres dont nous ignorons l'existence) sont pris en compte par Google pour classer les résultats de recherche et décider quel site aura la fameuse première place, si convoitée, dans ces résultats.


La GoogleBar (qui est aujourd'hui installée sur des millions de postes à travers le monde). Elle se comporte comme un espion et renseigne Google sur les sites visités par les internautes, le temps passé sur chaque site, et, d'une façon générale, sur la façon dont les visiteurs naviguent à travers le web. Il ne fait aucun doute que ces très précieux renseignements sont utilisés dans le classement des sites.


Effectivement, les résultats de Google sont pertinents.

• Avantages Les pages trouvées sont en quelque sorte “évaluées” : un site référencé par de nombreux sites du même domaine étant bien sûr, bien classé.

• Inconvénients Négligence des pages récentes et méconnues, ainsi que des pages traitant de sujets peu populaire. Les contenus des pages “populaires” ne sont ni garantis ni forcément “évalués” dans leur contenu.


Les Limites de Google Google n’indexe qu’un faible % du Web total : entre 1% et 10% On sait par exemple que 30 000 milliards de pages Web sont indexées par le moteur Google, pour un poids total de 100 000 To.

Affichage des résultats sur la base de la popularité des liens.

Risques : non fiabilité de l’information, une multitude de publicités, de sites marchands une perte de temps dans les recherches…


Une recherche Google c'est seulement 13% de vrais rĂŠsultats,

le reste n'est que pubs/services


Le souci premier de ce fonctionnement est qu’il ne répond tout simplement pas à une démarche axée sur le contenu et sa « validité »


1-Eviter les recherches en langage naturel 2-Chercher des réponses, ne recherchez pas des questions : Faut-il boire du vin ? vous ramènera 3 fois moins de réponses que Il faut boire du vin. 3-Utiliser les guillemets (« ») pour rechercher une expression exacte 4-Utiliser le signe moins (-) , pour exclure un terme 5-Faire des

recherches à 3 mots (au moins)

6-Rechercher des synonymes avec le signe (~) 7-Rechercher un type de fichier particulier avec filetype: (filetype:doc, filetype:pdf…etc) 8-Rechercher au sein d'un site spécifique site: (site:edu ou site:nytimes.com… etc.


Google, n’est sensible ni à la casse ni aux accents ou autres signes

(par exemple "français",francais", "FRANÇAIS" et "FRANCAIS" sont équivalents)


Peut aussi :

Convertir des valeurs : Rechercher "miles en km" Obtenir l’heure : Rechercher "heure japon"

Convertir des devises : Rechercher "euro en usd" Effectuer des calculs : Rechercher "100*3.14-cos(83)=" ‌ Etc.


http://outils.abondance.com/google.html


Attention! Les outils de recherche généralistes s’utilisent avec des mots clés plus « généralistes »…


OUTILS de RECHERCHE


SCHOLAR !


En quoi consiste Google Scholar ? Contenu : Google Scholar permet d'effectuer une recherche portant sur des travaux universitaires. articles revus par des comités de lecture, thèses, livres, résumés analytiques ...

Sources : Ces travaux peuvent provenir des éditeurs scientifiques, des sociétés savantes, des référentiels de prépublication, des universités et d'autres organisations de recherche.


Limites de

scholar

Couverture réelle difficile à évaluer : volume documents ? types de documents ? période ? Langues : anglais privilégié? Pas d’information sur les éditeurs ou les serveurs indexés Pas d’information sur les mises à jour

Bien que possédant de nombreux points commun avec une base de données, google scholar n’en reste pas moins un moteur de recherche sur le Net.


Search !


Options


Les moteurs généralistes comme Google Ne permettent pas d’atteindre le Web profond !


Le « web profond » ou web invisible désigne la partie du web partiellement ou non indexée par les moteurs de recherche.


3 - Moteurs de recherche

spĂŠcialisĂŠs


Depuis 2001

Moteur de recherche spécialisé en sciences, créé par Elsevier. Recherche sur le texte intégral de plus de 410 millions de pages web Documents : articles, résumés, références bibliographiques, thèses et dissertations, actes de colloques, brevets, rapports, cours en ligne, pages web scientifiques

Sources : Science Direct, Nature, autres portails de revues électroniques, Bases de données (Arxiv, Medline, Nasa), brevets US, Archives ouvertes, serveurs de pré-publications http://www.scirus.com/srsapp/aboutus/


Nombre de résultats

Mail, sauvegarde ou export format RIS pour logiciel bibliographique

Tri par pertinence ou date

Source

Affiner parmi ses résultats par source, sites, types de fichiers… Affiner, réorienter sa recherche par mots clés


Une interface de recherche avancÊe complète

Date Types de documents

Formats de fichiers

Sources


Utiliser les préférences pour paramétrer votre interface de recherche Choisir le nombre de résultats à afficher par page Ouvrir une nouvelle fenêtre à l’affichage des résultats Afficher un lien des résultats vers le catalogue d’une bibliothèque

Attention ! • Toutes les sources ne sont pas datées • La nature commerciale du moteur tend à mettre en avant les ressources issues des portails payants • Un certain nombre de pages non scientifiques


Attention! Les outils de recherche spécialisés s’utilisent avec des mots clés plus précis…


4 - Les archives

ouvertes


HaL

Archimer


Le moissonneur OAIster

2,000,000,000 de rĂŠfĂŠrences sur le catalogue mondial

WorldCat


« Des revues scientifiques et universitaires en texte intégral validées, accessibles gratuitement, couvrant toutes les disciplines et de nombreuses langues » 9959 journals , 5046 journals searchable at article level, 121 Countries, 1149406 articles


Evaluer la crédibilité des documents en ligne le pire comme le meilleur Bâclé ou rigoureux Torchon ou petit bijou

l'évaluation repose sur une série de critères : D’après les travaux de : Marc Couture, L'évaluation de la crédibilité des documents en ligne, 2011, consulté le 17/07/2013


Quatre éléments à prendre en compte:

1-La validation du contenu, par une organisation reconnue, par des personnes compétentes; 2-La compétence, la réputation de l'auteur; 3-L'insertion du document dans la littérature spécialisée (livres et articles de revue scientifiques ou savants); 4-Certains aspects de la forme du document.


1-la validation du contenu 1-Le document a-t-il été publié à la suite d'une évaluation par des experts? évaluation par les pairs (peer review en anglais) - présence d’un comité de lecture ou scientifique (editorial board ou scientific commitee en anglais) 2-le document est-il diffusé par un organisme qui se porte garant de sa qualité? seront plus crédibles En premier lieu :les sites des universités, des organismes gouvernementaux ou publics, En second lieu : sites des organisations à but non lucratif, Et enfin : les sites des entreprises privées. L'organisation est-elle nommée explicitement? Sinon, peut-elle être identifiée? Peut-on contacter l'organisation par téléphone? la poste? courrier électronique? L'organisation est-elle connue du grand public? L'organisation ou l'entreprise est-elle neutre par rapport au sujet du document?


Astuces -Entreprises privées (parfois des individus) : .com -Universités : .edu, aux États-Unis; exemple : mit.edu (MIT), .ac.uk, au Royaume-Uni; exemple : ox.ac.uk (Oxford), univ-[nom].fr, en France; exemple : univ-lyon1.fr (Lyon 1), .ac.be, en Belgique; exemple : ulg.ac.be (Liège), u[nom].ca ou [nom]u.ca, au Canada; exemple : sfu.ca (Simon Fraser);

-Organisations à but non lucratif : .org -Organismes gouvernementaux : .gov (organismes du gouvernement américain), .gc.ca (organismes fédéraux du Canada), .gouv.[xx].ca (organismes provinciaux, xx = qc : Québec, on : Ontario...).


2- l'auteur 1- Peut-on identifier l'auteur du document? 2- La profession de l'auteur, son organisation de rattachement et sa position dans celle-ci sont-elles mentionnées? 3- Les informations disponibles permettent-elles de déterminer que l'auteur fait partie d'une de ces catégories : Un chercheur?

Une autorité en la matière reconnue par une communauté de spécialistes ?

4- L'auteur a-t-il déjà publié ou diffusé des documents crédibles sur le même sujet ou des sujets connexes? 5- L'auteur ou son organisation de rattachement sont-ils neutres par rapport au sujet?


3- l'insertion dans la littérature spécialisée 1-Dans le document, retrouve-t-on au fil du texte, à l'appui des énoncés qu'il contient, des renvois à des documents externes? 2-Le document contient-il une liste de références (bibliographiques ou webographiques) générales à la fin du texte? Si la réponse à l'une ou l'autre des deux questions précédentes est oui, ces références sont-elles crédibles et directement reliées au contenu du document?

3-Le document est-il cité (au moyen d'une référence bibliographique ou webographique) dans des documents crédibles?

Il s’agit surtout de repérer des articles scientifiques, livres publiés par des maisons d'édition reconnues, communications présentées à des congrès, etc.


4- la forme et la structure du document 1- Le document est-il rédigé dans une langue correcte (orthographe, grammaire)? 2- L'auteur semble-t-il avoir présenté clairement l'information plutôt qu'en avoir « mis plein la vue »? 3- Les titres de pages et (ou) de sections sont-ils clairs? Significatifs? 4- S'il y a des dispositifs de présentation visuelle (graphiques, tableaux, figures), sont-ils accompagnés de titres ou de légendes? Sont-ils décrits dans le texte? 5- La nature du document et l'objectif qu'il vise sont-ils clairement décrits? 6- Y a-t-il des indications suggérant que le document est dans un état final et non « en construction »? 7- Y a-t-il des indications qui suggèrent que l'information présentée dans le document est à jour?


Un cas particulier 1- Critères reliés à la validation du contenu Wikipédia : Avertissements généraux

2- Critères s'appliquant à l'auteur la nature collaborative - ce critère ne peut s'appliquer 3- Critères reliés à l'insertion dans la littérature spécialisée -La manière de citer un article de Wikipédia n'est par normalisée; souvent on fait référence à l'adresse URL. -La relative nouveauté de Wikipédia et les questions soulevées par son mode d'élaboration font que les chercheurs hésitent 4- Critères reliés à la forme et la structure du document

Mise en garde sur le contenu


• N’écartez aucune piste : privilégiez de multiples sources ! • Recherchez dans les bases de données scientifiques l’information validée (WOS, Asfa, Medline, Pubmed…etc.) • Mettez en place des alertes sur vos recherches : dans des bases de données sur des moteurs spécialisés et des portails d’éditeurs • Consulter les sites institutionnels, académiques : catalogue de bibliothèque, archives ouvertes… • Pensez à tous les types de documents : thèses, rapports, actes de colloques, ouvrages, cours en ligne, brevets… • Pensez aux réseaux : communauté scientifique, listes de diffusion, forums, blogs • Servez vous des flux RSS disponibles pour rester informés Source de la page : M LeGall ; Trouver l’information scientifique sur Internet (2011)


Auteur(s) : Marie-Laure Malingre, Alexandre Serres Axe de formation : 02. Recherche de l’information : méthodes, outils, évolutions... Public : Doctorants et enseignants-chercheurs Date de création : 28 mars 2011 Date de modification : 12 avril 2012 Nombre de consultations : 6837 Tags : recherche d'information scientifique, moteurs scientifiques, moteurs de recherche License : Attribution-NonCommercial-NoDerivs 3.0 Unported

http://www.sites.univ-rennes2.fr/urfist/ressources/connaitre-lesmoteurs-de-recherche-de-linformation-scientifique/50-outils-derecherche-po

URL


Recherche sur le Web 2013 DFernandes