La recherche s'effectue sur les titres des articles et leur contenus. Pour faire une recherche
par mots clefs, utilisez la commande TAG:[votre mot clef]. La pertinance n'est valide que
sur des recherches multis-mots.
Les expressions régulières sont extrêmement puissantes et permettent de réaliser du filtrage de chaine
en très peu de lignes de code. Dans cet article nous allons réaliser un script qui télécharge une page
web et liste toutes les URL qu'elle contient.
Ce genre de script peut être utile pour créer un robot qui
parse des pages web et cherche les liens
internes ou externes au site. Il faut dans ce cas stocker dans une base de données les résultats pour
pouvoir les traiter ultérieurement.
Pour réaliser ce script nous allons utiliser deux fonctions php :
ereg et
preg_match_all.
ereg va nous permettre de décortiquer l'adresse internet de la page à télécharger afin d'extraire :
Le protocole utilisé ( http, https )
Le nom du serveur web ( www.google.com )
Les éventuels répertoires ( /MyPage/blabla/ )
Le script PHP-CLI ( voir l'article PHP-CLI Command Line Interface )
que je vous propose s'exécute depuis la ligne de commande. Il accepte en argument l'URL de la page à télécharger
puis à analyser.