Methexis-Inc/img2prompt é uma ferramenta fácil de usar que cria prompts de texto com base em imagens para ajudar a gerar novas visuais.
Esta ferramenta inovadora é especificamente projetada para funcionar bem com stable-diffusion e utiliza um modelo conhecido como clip ViT-L/14. Essencialmente, o que ela faz é pegar uma imagem que você fornece e gerar um prompt de texto descritivo que está intimamente alinhado com ela. Este processo é possibilitado pelo notebook CLIP Interrogator de código aberto, que foi desenvolvido por @pharmapsychotic. Ao aproveitar os modelos CLIP da OpenAI, ele identifica vários estilos artísticos, meios e técnicas que correspondem à imagem.
A mágica acontece quando a ferramenta combina suas descobertas com legendas geradas pelo BLIP. Esta colaboração resulta em um prompt de texto personalizado que pode ser usado para criar novas imagens que compartilham características semelhantes às da original. Este recurso é especialmente útil para artistas e criadores que desejam explorar novas ideias com base em suas visuais existentes.
Se você está procurando usar esta ferramenta, pode acessá-la através de uma API, e também há um repositório no GitHub disponível para aqueles curiosos sobre os detalhes técnicos e licenciamento. Além disso, você não terá que esperar muito pelos resultados—as previsões geralmente estão prontas em cerca de 24 segundos, graças ao poderoso hardware Nvidia T4 GPU em que opera.
∞