Data Scraping disponible avec nos Custom Fields

Êtes-vous à la recherche d’un moyen pratique de récolter et classer les diverses données de votre site ? Si c’est le cas, sachez que la toute nouvelle fonctionnalité d’OnCrawl vous permet d’extraire tout type de contenu recherché sur votre site. Créez vos propres filtres avec nos custom fields (champs personnalisés) et retrouvez-les facilement dans votre Data Explorer.

Pourquoi devriez-vous utiliser nos Custom Fields ?

Notre fonctionnalité custom fields propose différentes utilisations pratiques :

  • Vous pouvez retrouver n’importe quel prix de produit ou recueillir un commentaire quelconque sur une page ;
  • Vous pouvez collecter le nombre exact de commentaires rédigés par article ou le nombre de formats différents d’annonces sur une page ;
  • Vous pouvez vérifier si votre plan de marquage ou si vos outils utilisés pour vos annonces payantes sont bien mis en place ;
  • Vous pouvez lister des produits similaires ou complémentaires sur une page.

Ces différentes utilisations ne sont que des exemples. Grâce à notre nouvelle fonctionnalité, les possibilités sont infinies.

Comment utiliser les Custom Fields ?

Nos custom fields peuvent être programmés dans vos paramètres crawl :

  1. Installez vos règles d’extraction ;
  2. Démarrez votre crawl ;
  3. Trouvez vos nouveaux filtres dans le Data Explorer ;
  4. Créez le nombre de filtres désiré.

Comment configurer vos Custom Fields ?

1- Sélectionner un type d’expression

Nous prenons en charge deux types d’expression : soit une expression rationnelle (regex – voir le guide) ou une expression XPath (voir le guide). Ce choix est important parce qu’il influence la façon dont la règle sera exprimée et traitée.

1.a Utilisation d’une Regex

Sample : <meta itemprop= »ratingValue » content= »4.5″>
Rules : <meta itemprop= »ratingValue » content= »([0-9]+(\.[0-9]*)?)« >
Output : 4.5

1.b Utilisation d’une expression XPath

Sample : <meta itemprop= »ratingValue » content= »4.5″>
Rules : string(//meta[@itemprop=’ratingValue’]/@content)
Output : 4.5

2- Choisir le type d’extraction

  • Mono-valued : renvoie le premier résultat concordant

Cette extraction est parfaite pour extraire le prix d’un produit ou un commentaire

  • Multi-valued : renvoie tous les résultats concordants

Celle-ci peut être utilisée pour extraire une liste de produits similaires

  • Check if exists : indique ‘True’ si l’expression a été trouvé dans la page, ‘False’ dans le cas contraire.

Ce type d’extraction est bien adapté pour vérifier les analyses sur votre trafic ou vos balises publicitaires.

  • Length : renvoie la longueur de la chaîne de caractères correspondante.
  • Number of occurrences : renvoie le nombre de fois que le schéma a été trouvé.

Cette règle est parfaite pour compter le nombre de commentaires sur un article ou le nombre d’annonces dans une page.

3- Choisir le format du champ

Les formats du champ sont importants, car ils permettent d’activer les opérateurs de requêtes dans notre OQL (OnCrawl Query Language) ainsi qu’à effectuer le tri des valeurs dans les onglets du Data Explorer.

À noter : en fonction du type d’extraction, ce choix est désactivé: ‘check if exists’ → il impose au champ d’être un champ booléen et où ‘Length’ et ‘Number of occurrences’ forcent le champ à être un champ entier.

  •  Value : extraction de la valeur brute – le contenu est stocké dans une chaîne de caractères et vous permet d’utiliser des opérateurs de chaînes tels que ‘starts with’, ‘contains’, ‘does not contain’, ‘is’ and ‘is not’ dans le Data Explorer.
  • Number : la valeur brute est convertie en entier – le contenu est stocké sous forme de nombre, ce qui vous permet d’utiliser des opérateurs tels que ‘equals’, ‘does not equal’, ‘is greater than’ or ‘is lower than’, etc. dans le Data Explorer.
  • Decimal : identique que le nombre, mais le nombre est exprimé en nombre décimal (ex : 3.2).
  • Formatted value : permet de construire une valeur en s’appuyant sur les différents groupes de capture présents dans l’expression rationnelle. Les groupes sont numérotés de {0} à {9} selon le nombre de groupes définis dans l’expression rationnelleAu plus de 10 groupes de capture peuvent être définis.

Sample : <strong class= »product-price »>249<sup>€99</sup></strong>
Rules : <strong[^>]+>\s*([0-9]+)€([0-9]+)\s*
Field format : Formatted value
Formatted value : {0}.{1}€
Output : 249.99€

oncrawl custom fields setup

4- Nommer les champs

Vous devez ajouter un nom à vos champs nouvellement créés pour les trouver facilement dans le Data Explorer.

5- Tester la règle

Vous pouvez tester directement la règle en appuyant sur le bouton « Check » avec un échantillon de pages différentes ou en copiant une section du code HTML pour vous assurer que tout fonctionne comme prévu.

6-Utiliser les champs personnalisés

Ensuite, allez dans votre Data Explorer, cliquez sur ‘add columns’ et sélectionnez le champ personnalisé que vous avez créé.

custom-field-filter-1

custom-field-data-explorer

Vous pouvez également directement trier vos URLs par Custom Fields. Sélectionnez ‘Set your filter’ et le champ personnalisé que vous venez de créer. Ensuite, définissez votre requête (‘True’ ou ‘False’ ici) et cliquez sur ‘Apply Filters’.

Capture-d’écran-2017-01-24-à-16.34.16

Vos URLs ne sont triées que par les champs personnalisés demandés :

custom-field-soldout-is-true

Vous êtes maintenant prêt à jouer avec vos nouveaux filtres !

Nos custom fields sont disponibles en option à partir du Plan Pro. Vous voulez les essayer ?

Et contactez-nous pour que nous activions vos custom fields.

Sarah

About Sarah

Sarah est chargée de communication à Cogniteev

Entries by Sarah