Methexis-Inc/img2prompt - це простий у використанні інструмент, який створює текстові запити на основі зображень, щоб допомогти генерувати нові візуали.
Цей інноваційний інструмент спеціально розроблений для хорошої роботи зі стабільною дифузією та використовує модель, відому як clip ViT-L/14. По суті, він бере зображення, яке ви надаєте, і генерує описовий текстовий запит, який тісно пов'язаний з ним. Цей процес став можливим завдяки відкритому ноутбуку CLIP Interrogator, який був розроблений @pharmapsychotic. Використовуючи моделі CLIP від OpenAI, він ідентифікує різні художні стилі, середовища та техніки, які відповідають зображенню.
Чарівність відбувається, коли інструмент поєднує свої знахідки з підписами, згенерованими BLIP. Ця співпраця призводить до створення індивідуального текстового запиту, який можна використовувати для створення нових зображень, що мають подібні характеристики до оригіналу. Ця функція особливо корисна для художників і творців, які хочуть досліджувати нові ідеї на основі своїх існуючих візуалів.
Якщо ви хочете використовувати цей інструмент, ви можете отримати до нього доступ через API, а також є репозиторій на GitHub для тих, хто цікавиться технічними деталями та ліцензуванням. Крім того, вам не доведеться довго чекати на результати — прогнози зазвичай готові приблизно за 24 секунди, завдяки потужному апаратному забезпеченню Nvidia T4 GPU, на якому він працює.
∞