AHDP Logo

Unlocking Africa’s data, diversifying global datasets

Une plateforme simple pour explorer, enrichir et partager des jeux de données synthétiques de qualité, afin de rendre la recherche et l’innovation plus justes, inclusives et utiles à tous.

Ce que vous pouvez faire
Trouver des jeux synthétisés
Recherchez par mots-clés ou tags, consultez les métadonnées et téléchargez en un clic.
Augmenter vos propres données
Soumettez un jeu réel : notre IA le complète pour le rendre plus représentatif et exploitable.
Créer de l’impact
Né pour corriger la sous-représentation africaine, utile à tout domaine.

Se connecter

Accédez à votre espace pour explorer, augmenter et télécharger des jeux de données.

Mot de passe oublié ?

Créer un compte

Rejoignez la plateforme pour explorer, augmenter et partager des jeux de données plus représentatifs.

Type de compte
Informations personnelles
8+ caractères, 1 lettre, 1 chiffre
Sécurité & conformité

Créer un compte

Rejoignez la plateforme pour explorer, augmenter et partager des jeux de données plus représentatifs.

Type de compte
Informations personnelles
8+ caractères, 1 lettre, 1 chiffre
Sécurité & conformité

Recherche de données

Explorez les jeux de données synthétiques disponibles.

Résultats disponibles

Chargement des données...

Source: | Région: | Population:
Aperçu des données
* Extrait des 5 premières lignes (Généré à l'instant).
CHROMPOSIDREFALTQUALFILTERAFACANSAMPLEGT
115245823.AG100.0PASS0.0038820701711/0
115245823.AG100.0PASS0.0038820702150/1
115245823.AG100.0PASS0.0038820702881/0
115245823.AG100.0PASS0.0038820703971/0
115245823.AG100.0PASS0.0038820707220/1
* Extrait des données originales (1000 Genomes).

Aperçu non disponible pour les fichiers archivés.
Rapport de validation

Fiabilité & Qualité

Comparatif fréquences
Distribution impacts
R² / LD : Fidélité statistique ESM : Impact biologique
⬇ Télécharger le fichier
Amplification des données

Générez un jeu synthétique augmenté basé sur ce fichier réel (Pipeline PoC HBB).

Type de fichier
Taille
Champs Clés
CHROM, POS, REF, ALT, AF, AC, AN, GT, QUAL, FILTER
Licence & Usage
Public

Génération de données

Créez de nouveaux jeux de données augmentés via nos modèles IA.

Générateur Modulaire
Upload CSV + Choix du modèle

Utilise SynthCity (Deep Learning) pour capturer des structures complexes. Importez n'importe quel fichier CSV formaté.

Formats supportés :

À propos du projet

Notre Proof of Concept vise avant tout à combler le fossé génomique qui touche les populations africaines. Il démontre comment l’intelligence artificielle peut combler les lacunes des bases de données existantes en générant des données synthétiques fiables et diversifiées.

🧭 Explorer
Accédez à des jeux de données synthétisés prêts à l'emploi.
Augmenter
Utilisez nos modèles IA (CTGAN, TVAE...) pour enrichir vos données.
💡 Innover
Accélérez la recherche dans la médecine de précision.

En résumé, ce projet illustre la capacité de l’IA à transformer des données fragmentaires en ressources complètes et exploitables, rendant ainsi la recherche plus inclusive et accessible à la communauté scientifique mondiale.

Comprendre la Validation

📊 Corrélation Allélique (R²)
La question : "L'IA a-t-elle appris la rareté ?"

Un score de 1.00 est parfait. Cela signifie que si un variant apparaît chez 10% des vrais humains, il apparaît chez 10% des humains synthétiques. C'est la base de la fidélité statistique.

LD Consistency
La question : "L'IA respecte-t-elle la biologie ?"

Les gènes ne sont pas indépendants. Le "Linkage Disequilibrium" (LD) mesure ces liens. Un score élevé signifie que l'IA ne mélange pas les gènes de manière absurde, mais respecte les "blocs" d'hérédité humaine.

🧬 Score ESM (IA Protéique)
La question : "La protéine mutée est-elle crédible ?"
Utilise un modèle de langage biologique (ESM-2) pour lire la protéine.
  • Score ~0 : Variant bénin (inoffensif).
  • Score < -5 : Variant pathogène (maladie potentielle).
C'est la validation ultime pour la recherche médicale.
⚖️ Distribution des Impacts
La question : "A-t-on les bons types de mutations ?"

Compare le pourcentage de variants graves (MODERATE/HIGH) vs bénins (LOW). Si l'IA génère 50% de mutations graves alors que la nature en a 3%, le modèle est faux. Nos modèles SDV respectent cette distribution à 0.2% près.

Donner un avis