Infographie: comment fonctionne OnCrawl ?

Nous avons décidé qu’il était temps que nous partagions avec vous la manière dont OnCrawl fonctionne. Nous avons développé des fonctionnalités plutôt cools depuis le lancement de notre premier crawl. Cette infographie vous présente ainsi les technologies utilisées pour construire OnCrawl et comment notre crawler SEO fonctionne.

Infographie: Comment fonctionne OnCrawl?

 

Retranscription de l’infographie: Comment fonctionne OnCrawl ?

Notre crawler SEO OnCrawl a été construit à l’aide d’applications open source, avec tout notre amour et quelques ingrédients secrets. Voici une présentation simplifiée de la façon dont notre crawler fonctionne et des technologies que nous utilisons.

CRAWL

Cartographie Apache Hadoop/ Reduce jobs: le crawl du web est basé sur Apache Nutch.
1 Injection de l’URL
2 Itérations de crawl :

  • Génération des listes à récupérer
  • Récupération des URLs & analyse des pages HTML
  • Mise à jour de la base de données de crawl

ANALYSE

Hadoop en interne et Spark jobs pour extraire l’information des données rassemblées
5 analyses des données:

  • Enrichissement des liens: propagation des codes d’état HTTP de la source et cible chaque lien interne
  • N-Grams (extraction des mots-clés et analyse de haut niveau)
  • Identification des méta-données importantes dupliquées (titre, h1, méta description, …)
  • Regroupement & introspection (par comparaison du score de similarité) des contenus presque dupliqués (approche basée sur l’algorithme Simhash)
  • Accès à l’analyse de logs (visites SEO, activité des robots, détection des pages orphelines)

EXPLORATION

Python/API Flask et web client Javascript
2 rapports interactifs:

  • Graphiques interactifs basés sur la bibliothèque C3.js avec une correspondance sur les filtres prédéfinis OQL
  • OQL (OnCrawl Query Language) en surcouche d’Elasticsearch pour les reporting / requêtes / agrégations en direct

Elasticsearch: un moteur de recherche qui nous aide à créer notre onglet ‘URL details’
Construction de graphiques: Nos talentueux développeurs ont construit nos dataviz en utilisant la bibiliothèque Javascript C3 js.

Et si vous voulez connaître les différentes fonctionnalités que nous avons développé depuis le début de l’aventure, vous pouvez toujours regarder notre dernière infographie!

Aurélie

About Aurélie

Aurélie est Community Manager et rédactrice pour OnCrawl.

Entries by Aurélie