#datasets — oanor

API d'expression génique

Expériences de génomique fonctionnelle sous forme d'API — propulsée par NCBI GEO (Gene Expression Omnibus), le plus grand référentiel public de données d'expression génique. GEO archive des séries d'expression et des ensembles de données organisés provenant d'expériences de puces à ADN et de séquençage à haut débit pour chaque organisme. Recherchez des expériences par mot-clé et éventuellement par organisme, et consultez toute série ou ensemble de données pour obtenir ses métadonnées : titre, résumé, type de test (profilage d'expression par puce ou par séquençage), organisme, nombre d'échantillons, plateforme et publication associée. Des études sur le stress des cellules β à la transcriptomique du cancer chez l'humain et la souris, il transforme l'archive GEO en une API simple de recherche et de récupération pour la transcriptomique, la bioinformatique et la découverte de données de recherche. Un référentiel de données d'expression génique / génomique fonctionnelle — distinct des bases de données de séquences (ENA), de variants (ClinVar, dbVar), de structures (PDB) et d'ontologies. Données ouvertes de NCBI GEO (domaine public).

api.oanor.com/geodatasets-api

API DataCite

DataCite en tant qu'API — le registre mondial des DOI (Digital Object Identifiers) pour les résultats de recherche. Là où Crossref enregistre les DOI pour les articles de revues, DataCite enregistre et décrit les DOI pour les données de recherche, les logiciels, les échantillons, les thèses, les prépublications, les modèles, les images et autres résultats, provenant de référentiels tels que Zenodo, Dryad et des milliers d'institutions. /v1/search?query=climate effectue une recherche en texte intégral dans le registre et peut être affinée par type de ressource (type=dataset, software, text, image, audiovisual, collection, model et plus), renvoyant chaque DOI avec son titre, son type, ses créateurs, son éditeur et son année de publication. /v1/doi?id=10.5281/zenodo.3509134 renvoie les métadonnées complètes d'un seul DOI — titre, type de ressource, créateurs, éditeur, année de publication, description, sujets, version, licence et date d'enregistrement. Les DOI ressemblent à 10.5281/zenodo.3509134 (Zenodo) ou 10.5061/dryad.xxxx (Dryad). Idéal pour la découverte et la citation des données de recherche, les outils de gestion de références et de référentiels de données, les fonctionnalités de citation de logiciels et les flux de travail de reproductibilité. Les métadonnées sont sous licence CC0 de DataCite. Il s'agit du registre des DOI des données de recherche et des logiciels — distinct de l'index des DOI des articles de revues (Crossref) et des services de prépublication et d'accès ouvert.

api.oanor.com/datacite-api

API BioStudies

BioStudies en tant qu'API, propulsé par EMBL-EBI — la base de données qui contient les descriptions d'études biologiques et relie leurs données à travers les ressources de l'EBI, y compris l'imagerie (BioImage Archive), la génomique fonctionnelle (ArrayExpress), la protéomique et la littérature (Europe PMC). Chaque étude possède un identifiant, un titre et un résumé, la collection à laquelle elle appartient et des liens vers ses données sous-jacentes et ses publications. /v1/search?query=covid recherche les études et renvoie l'identifiant de chaque correspondance (par exemple S-EPMC8017430), le titre, l'auteur, le type d'étude, la date de publication et les comptes de liens/fichiers. /v1/study?id=S-EPMC8017430 renvoie les métadonnées d'une étude — son identifiant, la collection à laquelle elle appartient (telle que EuropePMC, ArrayExpress ou BioImages), le titre, le résumé, la date de publication, les auteurs et le nombre de ressources liées. Les identifiants ressemblent à S-EPMC8017430 ou S-BSST123 ; obtenez-en un à partir du point de terminaison de recherche. Idéal pour la découverte de données de recherche, la liaison de la littérature à ses ensembles de données sous-jacents, les revues systématiques et les outils de reproductibilité. Données provenant d'EMBL-EBI BioStudies (publiques). Il s'agit d'un index de métadonnées d'études et d'ensembles de données — distinct des bases de données de séquences (UniProt, ENA), de structures (PDB, EMDB), de variants (ClinVar) et d'ontologies.

api.oanor.com/biostudies-api

API Hugging Face

Le Hub Hugging Face en tant qu'API — le registre central et ouvert de modèles et de jeux de données d'apprentissage automatique qui alimente une grande partie de l'écosystème moderne de l'IA. Cette API encapsule le hub public huggingface.co en JSON propre. /v1/models recherche les modèles du Hub et vous permet de filtrer par tâche (pipeline_tag — par exemple text-generation, text-to-image, image-classification, automatic-speech-recognition, sentence-similarity) et par bibliothèque (transformers, diffusers, sentence-transformers, …), triés par téléchargements, likes, dernière modification, date de création ou score de tendance — chaque modèle retourné avec son id, auteur, tâche, bibliothèque, nombre de téléchargements et de likes, licence, tags et horodatages. /v1/model?id=google-bert/bert-base-uncased retourne les métadonnées complètes d'un seul modèle. /v1/datasets recherche les jeux de données ML de la même manière, et /v1/dataset?id=ILSVRC/imagenet-1k retourne les métadonnées d'un seul jeu de données. Les IDs sont sous la forme org/nom (prenez-les depuis les endpoints de recherche). Idéal pour les outils ML et MLOps, les sites de découverte et de comparaison de modèles, les classements et tableaux de bord IA, et les assistants IA qui recommandent des modèles. Les données proviennent du Hub Hugging Face public (gratuit à utiliser). Il s'agit du hub de modèles et de jeux de données IA/ML — distinct des registres de paquets logiciels (npm, PyPI, Maven, NuGet) et des index d'articles académiques (arXiv).

api.oanor.com/huggingface-api

API MGnify

MGnify en tant qu'API, propulsé par EMBL-EBI — la plus grande ressource gratuite au monde pour l'analyse et l'archivage des données de séquençage du microbiome, et la sœur métagénomique de PRIDE (protéomique) et MetaboLights (métabolomique). MGnify contient des dizaines de milliers d'études publiques de métagénomique et de métabarcodage couvrant le microbiome intestinal humain, les environnements marins et d'eau douce, les sols, les eaux usées, l'environnement bâti et les communautés associées à l'hôte. Recherchez les études par mot-clé, obtenant pour chaque étude son accession MGnify (MGYS...), son nom, son résumé, son biome, le nombre d'échantillons et le BioProject de séquençage source ; lisez les métadonnées complètes d'une étude, y compris son nom et son résumé, la classification du biome, le nombre d'échantillons, le centre de soumission, le statut public, l'origine des données et la date de dernière mise à jour ; et parcourez l'arbre de classification des biomes de style GOLD — de racine:Associé à l'hôte:Humain:Système digestif à racine:Environnemental:Aquatique:Marin — avec des comptes d'échantillons et d'études par biome, pour la découverte par environnement. Idéal pour la recherche sur le microbiome et la génomique environnementale, la réutilisation des ensembles de données et la méta-analyse, les pipelines bioinformatiques et l'enseignement. Les accessions d'étude ressemblent à MGYS00006862. Données provenant d'EMBL-EBI MGnify.

api.oanor.com/mgnify-api

API des données ouvertes de l'UE

Le portail des données ouvertes de l'Union européenne sous forme d'API, alimenté par data.europa.eu — le point d'accès unique officiel à plus de 1,8 million d'ensembles de données ouvertes publiés par les institutions de l'UE et récoltés depuis les portails nationaux de données ouvertes des 27 États membres (y compris data.gov.uk, data.gouv.fr et GovData Germany). Recherchez des ensembles de données dans tous les thèmes — énergie, santé, transport, environnement, agriculture, économie, justice et plus — avec des filtres optionnels par format de fichier et par pays de publication, obtenant pour chaque ensemble son identifiant, son titre et sa description en anglais, son éditeur, son portail source, son pays, les formats disponibles, le nombre de ressources, la date de dernière modification et la licence ; lisez les métadonnées complètes d'un ensemble ainsi que toutes ses distributions téléchargeables (titre, format et URL directe de chaque distribution), ainsi que les catégories, mots-clés, langues et couverture temporelle ; et explorez les facettes de découverte pour toute requête — les formats de fichier les plus courants et les pays publiant des ensembles correspondants. Idéal pour le journalisme de données, les applications civic-tech et govtech, la recherche, l'analyse de marché et de politique, et tout outil ayant besoin de trouver et télécharger des informations du secteur public européen. Les identifiants des ensembles proviennent des résultats de recherche ; les titres et descriptions sont renvoyés en anglais lorsqu'ils sont disponibles. Données provenant de data.europa.eu (licences variables selon l'ensemble ; la plupart sont CC-BY ou domaine public).

api.oanor.com/eudata-api

API MetaboLights

MetaboLights en tant qu'API, propulsé par EMBL-EBI — le premier référentiel ouvert au monde pour les expériences de métabolomique (spectroscopie RMN et spectrométrie de masse) et une ressource sœur de PRIDE pour la protéomique. Recherchez les études de métabolomique publiques par mot-clé (retournant l'accession, le titre, la description et l'organisme de chaque étude) ; lisez les métadonnées complètes d'une étude, y compris son résumé, son statut, ses dates de soumission et de publication, les descripteurs de conception d'étude, les facteurs expérimentaux, les analyses analytiques avec leur type de mesure, technologie et plateforme, les contributeurs et leurs rôles, les publications liées avec DOI et identifiants PubMed, les soumetteurs, le nombre d'échantillons, l'URL de téléchargement FTP et la licence des données ; inspectez le flux de travail analytique — chaque protocole avec son nom, son type, sa description et ses paramètres (collecte d'échantillons, extraction, chromatographie, spectroscopie RMN/MS, transformation des données et identification des métabolites) ; et listez les organismes et parties d'organismes étudiés avec leurs termes d'ontologie. Idéal pour la recherche en métabolomique et en biologie des systèmes, la réutilisation des ensembles de données et la méta-analyse, les pipelines bioinformatiques et les outils qui intègrent des preuves expérimentales. Les accessions d'étude ressemblent à MTBLS1. Données provenant d'EMBL-EBI MetaboLights.

api.oanor.com/metabolights-api

API PRIDE

L'archive protéomique PRIDE sous forme d'API, propulsée par l'archive PRIDE de l'EMBL-EBI — le plus grand dépôt public mondial de données de protéomique par spectrométrie de masse et membre fondateur de ProteomeXchange. Recherchez les expériences protéomiques publiques par mot-clé (renvoyant l'accession, le titre, les organismes, les maladies et les instruments de chaque projet) ; lisez les métadonnées complètes d'un projet, y compris sa description, ses mots-clés, ses organismes et parties d'organismes, ses instruments de spectrométrie de masse, ses logiciels, les modifications protéiques identifiées, les protocoles de traitement des échantillons et des données, les soumetteurs, les affiliations et la publication liée (DOI et PubMed) ; listez les fichiers de données d'un projet avec leur catégorie, format, taille et un lien de téléchargement direct ; et explorez les facettes — les maladies, organismes, instruments, types d'expériences, logiciels et pays représentés parmi les projets correspondants — pour la découverte. Idéal pour la recherche en protéomique et en biologie des systèmes, la réutilisation d'ensembles de données et la méta-analyse, les pipelines bioinformatiques et les outils intégrant des preuves expérimentales. Les accessions de projet ressemblent à PXD000001. Données de l'EMBL-EBI.

api.oanor.com/pride-api