Base de données de base | Spécifications | Typosquatting Data Feed | WhoisXML API

Base de données de base

Échantillon

Disponibilité des données

Type d'abonnement Description
Mises à jour quotidiennes Sont disponibles à 18 heures UTC la plupart des jours. Certains jours, étant donné que la génération de données provenant d'autresflux quotidiens peut prendre plus de temps, les données sont générées 8 heures plus tard. 
Mises à jour hebdomadaires Les semaines commencent le dimanche. Les fichiers de données de la semaine écoulée sont disponibles le lundi à 20 heures (UTC) chaque semaine.
Mises à jour mensuelles Les fichiers de données du dernier mois sont disponibles le deuxième jour du mois à 20 heures UTC.

Convention d'appellation

Type d'abonnement Description
Mises à jour quotidiennes typosquatting.YYYY-MM-DD.daily.full.basic.csv
Mises à jour hebdomadaires typosquatting.YYYY-MM-DD.weekly.full.basic.csvoù la date correspond à un dimanche qui est  le dernier jour dont les données sont incluses dans le fichier ; ainsi une semaine est considérée comme commençant par le lundi précédent, se terminant par le dimanche dans le nom du fichier, et le fichier est publié le lundi suivant la date dans le nom du fichier.
Mises à jour mensuelles typosquatting.YYYY-MM-DD.monthly.full.basic.csvoù la date correspond au premier jour du mois suivant. Ainsi, les données de juillet 2020 se trouvent dans le fichier typosquatting.2020-08-01.monthly.full.basic.csv.


Notez que les données hebdomadaires et mensuelles sont dérivées de la concaténation des données quotidiennes respectives et de l'ajout du premier champ, la date.

Structure CSV

Les fichiers de données de base sont des fichiers de valeurs séparées par des virgules, sans délimiteurs de texte. Les fichiers utilisent des terminaisons de ligne de style DOS/Windows (CR+LF). La première ligne est une ligne d'en-tête contenant les noms des champs. Chaque ligne comporte quatre ou cinq champs selon le type d'abonnement :

Champ d'application Description
date Le jour où le groupe a été détecté (uniquement dans les fichiers hebdomadaires et mensuels).
group_number Numéro ordinal du groupe dans le jour donné (dans le cas d'un abonnement quotidien, dans le fichier).
group_member_number Numéro ordinal du domaine au sein du groupe.
total_no_of_grp_members Nombre de membres du groupe au sein du groupe.
domain Nom de domaine
domain_utf Nom de domaine transcrit en Unicode ; uniquement pour les domaines comportant des caractères nationaux (non anglais).


Par exemple, deux groupes adjacents, n° 1058 et 1059, comptant respectivement 3 et 5 membres, apparaissent dans le fichier comme suit :

...
1058,1,3,slut.bar,
1058,2,3,slut.events,
1058,3,3,slut.red,
1059,1,5,worldthinkcreativity.online,
1059,2,5,worldthinkcreativity.org,
1059,3,5,worldthinkcreativity.com,
1059,4,5,worldthinkcreativity.info,
1059,5,5,xn--wrkdthinkcreativity-g5c.net,wırkdthinkcreativity.net
...

Le dernier domaine de la liste a un caractère non anglais (« i » sans point) comme deuxième lettre, comme le montre le dernier champ non vide. Dans un fichier hebdomadaire ou mensuel, les répliques d'un groupe se présenteront comme suit

...
2020-08-17,3,1,9,app1e1d05.com,
2020-08-17,3,2,9,app1e1d09.com,
2020-08-17,3,3,9,app1e1d03.com,
2020-08-17,3,4,9,app1e1d04.com,
2020-08-17,3,5,9,app1e1d02.com,
2020-08-17,3,6,9,app1e1d01.com,
2020-08-17,3,7,9,app1e1d07.com,
2020-08-17,3,8,9,app1e1d08.com,
2020-08-17,3,9,9,app1e1d06.com,
...

Notez que c'est la date et le numéro ordinal du groupe (les deux premiers champs) qui identifient le groupe de manière unique dans ces fichiers.