Transcription Audio
Service de Speech-to-Text par IA
Convertissez vos fichiers audio en texte avec une précision exceptionnelle. Notre API utilise des modèles de pointe pour fournir des transcriptions de qualité professionnelle dans plus de 50 langues.
Multi-formats
MP3, WAV, M4A, FLAC et plus
50+ langues
Détection automatique incluse
Timestamps
Timing mot par mot
Haute précision
Modèles IA de pointe
Endpoint principal
/v1/transcribeTranscrit un fichier audio en texte. Accepte les fichiers jusqu'à 100MB et 4 heures de durée.
Paramètres (multipart/form-data)
| Nom | Type | Description |
|---|---|---|
filerequis | File | Fichier audio à transcrire. Formats supportés : MP3, WAV, M4A, FLAC, OGG, WEBM, MP4 |
language | string | Code langue ISO 639-1 (fr, en, es...) ou "auto" pour détection automatique. Défaut : auto |
timestamps | boolean | Inclure les timestamps pour chaque mot. Défaut : true |
diarization | boolean | Activer la détection des locuteurs. Défaut : false |
punctuation | boolean | Ajouter automatiquement la ponctuation. Défaut : true |
format | string | Format de sortie : "json", "text", "srt", "vtt". Défaut : json |
Réponse succès
200{
"success": true,
"data": {
"text": "Bonjour et bienvenue dans cette présentation. Aujourd'hui nous allons parler d'intelligence artificielle.",
"language": "fr",
"language_confidence": 0.97,
"duration": 8.5,
"words": [
{
"word": "Bonjour",
"start": 0.0,
"end": 0.42,
"confidence": 0.98
},
{
"word": "et",
"start": 0.44,
"end": 0.52,
"confidence": 0.99
},
{
"word": "bienvenue",
"start": 0.56,
"end": 1.1,
"confidence": 0.97
}
],
"segments": [
{
"start": 0.0,
"end": 4.2,
"text": "Bonjour et bienvenue dans cette présentation.",
"speaker": null
}
]
},
"credits_used": 2,
"credits_remaining": 98,
"processing_time_ms": 1250
}Exemples d'utilisation
Transcription basique
curl -X POST https://api.genesisai.fr/v1/transcribe \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@interview.mp3"Avec options avancées
curl -X POST https://api.genesisai.fr/v1/transcribe \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@meeting.wav" \
-F "language=fr" \
-F "diarization=true" \
-F "format=json"Export sous-titres SRT
curl -X POST https://api.genesisai.fr/v1/transcribe \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@video.mp4" \
-F "format=srt" \
-o subtitles.srtLe format SRT est idéal pour les sous-titres vidéo :
1
00:00:00,000 --> 00:00:04,200
Bonjour et bienvenue dans cette présentation.
2
00:00:04,500 --> 00:00:08,500
Aujourd'hui nous allons parler d'intelligence artificielle.Intégration SDK
JavaScript / Node.js
1import { GenesisAI } from '@genesisai/sdk';2import fs from 'fs';34const client = new GenesisAI(process.env.API_KEY);56// Depuis un fichier7const result = await client.transcribe({8 file: fs.createReadStream('audio.mp3'),9 language: 'fr',10 diarization: true11});1213console.log(result.text);14console.log(`Durée: ${result.duration}s`);1516// Depuis une URL17const fromUrl = await client.transcribe({18 url: 'https://example.com/audio.mp3'19});Python
1from genesisai import GenesisAI2import os34client = GenesisAI(os.environ["API_KEY"])56# Depuis un fichier7with open("audio.mp3", "rb") as f:8 result = client.transcribe(9 file=f,10 language="fr",11 diarization=True12 )1314print(result.text)15print(f"Durée: {result.duration}s")1617# Depuis une URL18from_url = client.transcribe(19 url="https://example.com/audio.mp3"20)Détection des locuteurs
La diarisation permet d'identifier automatiquement les différents intervenants dans un enregistrement audio (réunions, interviews, podcasts).
curl -X POST https://api.genesisai.fr/v1/transcribe \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@meeting.mp3" \
-F "diarization=true"{
"success": true,
"data": {
"text": "...",
"segments": [
{
"start": 0.0,
"end": 5.2,
"text": "Bonjour à tous, merci d'être présents.",
"speaker": "SPEAKER_00"
},
{
"start": 5.5,
"end": 10.8,
"text": "Merci de nous recevoir. On peut commencer ?",
"speaker": "SPEAKER_01"
},
{
"start": 11.2,
"end": 14.5,
"text": "Oui, bien sûr. Commençons par le premier point.",
"speaker": "SPEAKER_00"
}
],
"speakers_count": 2
}
}Conseil
La diarisation fonctionne mieux avec un audio de bonne qualité et des voix distinctes. Elle consomme 1 crédit supplémentaire par minute d'audio.
Formats supportés
Formats audio
Langues populaires
frenesdeitptnlautoLimites et tarification
| Paramètre | Limite |
|---|---|
| Taille maximale fichier | 100 MB |
| Durée maximale | 4 heures |
| Coût de base | 1 crédit / minute |
| Diarisation | +1 crédit / minute |
| Rate limit | 60 requêtes / minute |
Gestion des erreurs
Fichier trop volumineux
413{
"success": false,
"error": {
"code": "FILE_TOO_LARGE",
"message": "Le fichier dépasse la limite de 100MB",
"max_size_mb": 100,
"file_size_mb": 125.5
}
}Format non supporté
415{
"success": false,
"error": {
"code": "UNSUPPORTED_FORMAT",
"message": "Format de fichier non supporté",
"supported_formats": ["mp3", "wav", "m4a", "flac", "ogg", "webm", "mp4", "mov"]
}
}Crédits insuffisants
402{
"success": false,
"error": {
"code": "INSUFFICIENT_CREDITS",
"message": "Crédits insuffisants pour cette opération",
"required": 5,
"available": 2
}
}