IA générative
Famille de modèles d'intelligence artificielle qui produisent du contenu. Texte, image, son, vidéo, code. À la différence des IA classiques qui classifient ou prédisent (filtre anti-spam, recommandation), l'IA générative crée du contenu nouveau à partir d'une instruction. Outils Filtrio concernés : Submagic, OpusClip, ElevenLabs, HeyGen, Runway, Synthesia, etc.
Modèle de fondation
Grand modèle d'IA entraîné sur un volume massif de données. Sert de base à de nombreuses applications dérivées. Exemples côté vidéo : Sora et GPT-4o (OpenAI), Veo (Google), Gen-4 (Runway), Kling. Les éditeurs de SaaS comme OpusClip ou Submagic n'entraînent souvent pas leur propre modèle de fondation, ils intègrent ceux d'OpenAI, Anthropic, Google ou un mix. Le coût d'entraînement d'un modèle de fondation se compte en millions de dollars.
Prompt
Instruction écrite envoyée à un modèle d'IA. En vidéo IA, le prompt décrit ce que tu veux générer ou comment tu veux que l'outil traite ton contenu. Exemple sur OpusClip : tu peux préciser le style de clips voulus, le ton, la durée cible. La qualité du prompt influence directement la qualité du résultat. Le métier de prompt engineer s'est développé en 2023-2024 autour de cette compétence.
Token
Unité de traitement et de facturation des modèles IA. Un token correspond grossièrement à 3-4 caractères en anglais, un peu plus en français. Les modèles facturent par tranches de 1000 tokens en entrée et en sortie. Pour la vidéo, certains outils parlent plutôt de crédits ou de minutes d'export. Submagic, OpusClip, ElevenLabs utilisent leur propre système de crédits qui ne correspond pas exactement aux tokens du modèle sous-jacent.
Hallucination IA
Production par un modèle d'IA d'une information fausse présentée comme vraie. Le modèle invente une donnée, un nom propre, une citation, un fait. Très fréquent sur les modèles de langage. En vidéo, ça se traduit souvent par des sous-titres mal transcrits ou par un avatar qui dit une phrase modifiée. Toujours relire les transcriptions et les sous-titres générés avant publication, surtout en français où les modèles font encore plus d'erreurs qu'en anglais.
Text-to-video
Génération d'une vidéo entière à partir d'un prompt texte. Pas d'image source, pas de footage. L'outil produit chaque image. Outils Filtrio concernés : Runway, Pika, Sora (OpenAI), Veo (Google). Qualité encore variable, durée généralement limitée à 5-10 secondes par clip, coût par seconde élevé. Plutôt utilisé pour des plans d'illustration courts ou des séquences artistiques que pour de la vidéo longue complète.
Image-to-video
Animation d'une image fixe en clip vidéo court. Tu fournis une image source, le modèle génère du mouvement cohérent (zoom, mouvement de caméra, animation des éléments). Disponible sur Runway, Pika, Kling. Très utilisé pour donner vie à une photo, créer un teaser, animer un visuel statique pour un short. Plus rapide et moins cher que le text-to-video pur car la base visuelle est déjà donnée.
Avatar IA
Personnage humain virtuel généré par IA qui prononce un texte que tu fournis. Permet de produire une vidéo de présentation, un tutoriel ou une formation sans tourner. Outils Filtrio concernés : Synthesia (200+ avatars stock, 175+ langues), HeyGen (700+ avatars Creator, clonage de ton propre avatar). Le rendu est convaincant pour la formation interne ou la communication corporate, moins pour les contenus où la présence humaine authentique compte (vlog, podcast vidéo).
Voix off IA
Synthèse vocale générée par IA à partir d'un texte. Bibliothèque de voix préfabriquées dans plusieurs langues et tons (narrateur, conversationnel, joyeux, sérieux). Référence du marché : ElevenLabs. Très utilisée pour la voix off de tutoriels YouTube, de formations en ligne, de podcasts narratifs. La qualité du français a beaucoup progressé en 2024-2025, on est très proche d'un rendu humain sur les voix premium.
Clonage vocal
Création d'une voix IA qui imite la tienne à partir d'un échantillon audio. Quelques minutes d'enregistrement de toi suffisent à entraîner un modèle qui peut ensuite prononcer n'importe quel texte avec ton timbre, ton accent et ton intonation. Disponible sur ElevenLabs, HeyGen, Descript. Utile pour la production rapide de voix off cohérentes avec ta marque personnelle. Soulève des questions éthiques importantes (usage frauduleux, deepfake audio).
Lip-sync
Synchronisation des mouvements des lèvres avec une bande audio. En IA vidéo, c'est ce qui rend un avatar crédible quand il parle (Synthesia, HeyGen) ou ce qui permet de doubler une vidéo dans une autre langue en gardant le mouvement des lèvres aligné avec la nouvelle bande son (HeyGen Video Translate, ElevenLabs Dubbing Studio). La qualité du lip-sync est l'un des critères qui sépare un rendu pro d'un rendu amateur.
Sous-titres automatiques
Transcription automatique de l'audio en texte affiché à l'écran. Étape de base : l'outil détecte la langue, transcrit les paroles, segmente en blocs lisibles. Étape avancée : il anime les mots un par un, met des emphases, ajoute des emojis, propose des styles visuels (templates). Référence du marché côté shorts FR : Submagic. Côté gratuit/basique : CapCut. Toujours relire la transcription, surtout en français.
Recyclage de contenu (repurposing)
Transformation d'une vidéo longue en plusieurs formats courts. Tu fournis un podcast d'une heure ou une interview, l'outil identifie les meilleurs moments (questions clés, citations marquantes), génère des clips courts adaptés aux formats verticaux (TikTok, Shorts, Reels), ajoute sous-titres et accroches. Référence du marché : OpusClip. Permet de multiplier la durée de vie d'un contenu long sans tourner de nouvelles vidéos.
Short vertical
Format vidéo court tourné en 9:16 (vertical), durée 15-90 secondes. Trois plateformes principales : TikTok, YouTube Shorts, Instagram Reels. Chacune a son algorithme, son public et ses bonnes pratiques. Un short qui marche sur TikTok ne marche pas forcément sur YouTube et inversement. Les outils Filtrio dédiés : Submagic, OpusClip, CapCut.
B-roll
Plan d'illustration secondaire ajouté par-dessus la vidéo principale. Sert à illustrer un propos, à varier le visuel, à masquer une coupure de montage. Exemple : tu parles à la caméra de Submagic, le B-roll montre une capture d'écran de l'outil. Certains outils IA récents (Submagic Pro, OpusClip) génèrent du B-roll automatiquement à partir du contexte de la phrase prononcée.
Watermark IA
Marquage visible ou invisible identifiant un contenu comme généré par IA. Le watermark visible est un logo ou un texte sur l'image (encore présent sur les exports plans gratuits de la plupart des outils). Le watermark invisible est un signal numérique embarqué dans les pixels ou les métadonnées, détectable par des outils spécialisés. L'AI Act européen prévoit des obligations de marquage pour les contenus synthétiques publiés à grande échelle.
Source : Règlement UE 2024/1689 (AI Act), articles sur les obligations de transparence
Deepfake
Vidéo ou audio synthétique faisant dire ou faire à une personne réelle quelque chose qu'elle n'a jamais fait. Utilisations légitimes : doublage automatique avec lip-sync, avatar personnel pour ses propres contenus, prototypage. Usages problématiques : usurpation d'identité, désinformation, contenu non consenti. Sanctionné par la loi française dans plusieurs cas (notamment usurpation d'identité, contenu sexuel non consenti, fraude financière). L'AI Act européen impose le marquage des contenus deepfake destinés au grand public.
Source : Règlement UE 2024/1689 (AI Act), Code pénal français
CTR miniature (Click-Through Rate)
Pourcentage de personnes qui cliquent sur ta vidéo après avoir vu la miniature. Métrique critique sur YouTube. Une miniature bien faite peut faire passer le CTR de 2-3 % (peu engageant) à 8-12 % (très engageant). L'algorithme YouTube favorise les vidéos avec un bon CTR. Les outils IA de génération de miniatures (Canva, ThumbnailAI, partie de Photoshop) aident à itérer rapidement entre plusieurs versions.
Rétention audience (AVD)
Pourcentage de la vidéo regardé en moyenne par les viewers. Aussi appelée AVD (Average View Duration) ou Average Percentage Viewed. Sur YouTube, un AVD de 50 % et plus est très bon, 30-40 % est correct, en dessous de 25 % c'est problématique. L'algorithme favorise massivement les vidéos avec une bonne rétention. L'intérêt des outils de recyclage comme OpusClip : ils identifient les moments à forte rétention dans une vidéo longue pour en faire des shorts.
Algorithme de recommandation
Moteur d'une plateforme qui décide à qui montrer ton contenu. Chaque plateforme a le sien (YouTube, TikTok, Instagram). L'algorithme combine des signaux explicites (likes, commentaires, partages, abonnements) et des signaux implicites (temps de visionnage, scroll, replay). Pas de formule publique. Les outils SEO YouTube comme TubeBuddy et VidIQ aident à comprendre les tendances et à optimiser ses titres, descriptions et tags pour cocher les bonnes cases.
AI Act européen
Règlement UE 2024/1689 sur l'intelligence artificielle, entré en vigueur le 1er août 2024. Premier cadre réglementaire global sur l'IA dans le monde. Pour les créateurs, deux points concrets : obligation de marquer les contenus deepfake destinés au grand public (transparence sur la nature synthétique), et obligation pour les fournisseurs d'outils IA d'informer clairement les utilisateurs. L'application complète est progressive jusqu'en 2027. Sanctions financières lourdes prévues en cas de non-conformité pour les éditeurs d'outils.
Source : Règlement UE 2024/1689 (AI Act)