Sphinx IQ

Dédoublonner

Cette opération permet de repérer les observations identiques sur une variable donnée, et donne la possibilité de conserver une observation unique en se basant sur l'ordre d'enregistrement.

Le repérage des doublons crée une variable appelée POSITION qui permet de catégoriser les observations. Elle a quatre valeurs possibles : Unique pour indiquer les observations qui ne sont pas en double, Mini, Maxi et éventuellement Inter pour désigner les observations qui ont des doublons. La suppression des observations s’effectue par élimination des premières ou dernières réponses selon le choix de l'utilisateur.

Pour dédoublonner, procédez ainsi :

  • Dans l’onglet Données, cliquez sur Dédoublonner

Vous arrivez sur une boîte de dialogue vous proposant deux types d’actions, repérer les doublons ou supprimer les doublons.

 

Repérer les doublons

reperer-doublons

1 Sélectionnez la variable dont vous souhaitez repérer et/ou supprimer les éventuels doublons, (vous pouvez également sélectionner plusieurs variables : par exemple « email » et « nom » si l’on considère que plusieurs personnes peuvent avoir la même adresse email)

2 Choisissez le type d’action à effectuer, Repérer les doublons ou Supprimer les doublons,

3 Déterminer la position des doublons trouvés.

Si vous avez choisi de déterminer la position des doublons par rapport à l’ordre d’enregistrement des observations, une variable IDEM sera créée, dans laquelle apparaîtra le numéro de la première observation identique par rapport à la variable sélectionnée. Une deuxième variable POSITION vous indiquera « l’état » de chaque observation. Cette variable a quatre valeurs possibles :

  • Unique : signifie que l’observation ne possède aucun doublon
  • Mini : signifie que l’observation est la première observation d’une liste de doublons
  • Inter : l’observation est un doublon intermédiaire de la liste de doublons
  • Maxi : l’observation est la dernière observation d’une liste de doublons

A noter que vous pouvez lister les doublons soit par l’ordre d’enregistrement des observations (pour trois doublons, l’observation qui contiendra la modalité MINI sera donc celle ayant été enregistrée en premier) soit par la valeur d’une variable à sélectionner, par exemple la variable CLE, ainsi les doublons seront classés selon la valeur de cette variable.

 

Supprimer les doublons 

supprimer-doublons

Dans notre exemple, nous souhaitons démarrer une phase d’e-mailing. Cependant, il est possible que notre jeu de données contienne plusieurs fois la même adresse e-mail ce qui engendrerait plusieurs envois à la même personne. Afin d’éviter cela, nous allons supprimer tous les doublons sur la variable email afin de s’assurer que notre jeu de données contient une seule fois chaque email, et ainsi que chaque personne soit consultée une seule fois.

Dans le cas de deux doublons, il est possible soit de conserver la première réponse (Mini), soit la dernière (Maxi) lors de la suppression des doublons. Lorsque vous cliquez sur ok, cela générera un nouveau fichier .sphx afin de ne pas écraser vos données actuelles. Dans le cas ou il existe au moins trois doublons (le même email est par exemple présent trois fois dans la base de données), alors il est nécessaire de supprimer toutes les observations mentionnées comme « Inter » et de supprimer l’observation « Mini » ou « Maxi ».

 

Retour vers : Tableur