Methexis-Inc/img2prompt est un outil facile à utiliser qui crée des invites textuelles basées sur des images pour aider à générer de nouveaux visuels.
Cet outil innovant est spécifiquement conçu pour bien fonctionner avec la diffusion stable et utilise un modèle connu sous le nom de clip ViT-L/14. Essentiellement, ce qu'il fait, c'est prendre une image que vous fournissez et générer une invite textuelle descriptive qui lui est étroitement alignée. Ce processus est rendu possible grâce au carnet de notes CLIP Interrogator open-source, qui a été développé par @pharmapsychotic. En s'appuyant sur les modèles CLIP d'OpenAI, il identifie divers styles artistiques, médiums et techniques qui correspondent à l'image.
La magie opère lorsque l'outil combine ses découvertes avec des légendes générées par BLIP. Cette collaboration aboutit à une invite textuelle personnalisée qui peut être utilisée pour créer de nouvelles images partageant des caractéristiques similaires à l'original. Cette fonctionnalité est particulièrement utile pour les artistes et les créateurs qui souhaitent explorer de nouvelles idées basées sur leurs visuels existants.
Si vous souhaitez utiliser cet outil, vous pouvez y accéder via une API, et il existe également un dépôt GitHub disponible pour ceux qui sont curieux des détails techniques et de la licence. De plus, vous n'aurez pas à attendre longtemps pour les résultats - les prédictions sont généralement prêtes en environ 24 secondes, grâce au puissant matériel GPU Nvidia T4 sur lequel il fonctionne.
∞