Ну вот это Clip-Interrogator и есть. Я в позапрошлом посте показывал интерфейс. Мне чат посоветовал какой файл py создать что туда вставить как установить через conda активацию и поставить интерфейс gradio. Самая мощная модель у мена там не пошла я до конца не понял почему или несовместимость какая или комп не тянет но та что пошла неплохая. Хот конечно для анализа цифробуквенной капчи не подойдёт, я попробовал он распознал только 1 цифру и 1 букву из 6. Я сравнивал работу этой модели blip с Чат-GPT на примере анализа картинки того же https://twilightshade.dreamwidth.org/564449.html Вот что мне выдал чат-gpt при анализке картинки в виде промта close-up of a cute tabby cat with green eyes lying on the floor, realistic lighting, shallow depth of field, detailed fur texture, warm tones, high detail, photorealistic, studio photography style
Вот чтоо выдал interrogator-capturer: there is a cat that is laying down on the floor, beautiful cat, cute cat, photo of a cat, a cute cat, calico cat, cute cat photo, beautiful huge eyes, cat photography, an adorable kitten, cute large eyes, cat - like scarlet eyes, big round cute eyes, awesome cat, cute kitten, huge adorable eyes, cute cats
А вот что выдал простенький describer встроенный в Foocus: a kitten lying on the floor with his paws hanging out Сравнительный анализ чата приводить не буду, естественно он проанализировал это всё и себя как анализатора похвалил и порекомендовал (а как же!). Типа Foocus 1 звезда Blip 2 звезды а он сам 4 звезды 😂
Причём совершенству нет предела, мы с ним остановились на "Если захочешь — можем протестировать более сложную картинку, а заодно я могу помочь тебе настроить BLIP на выдачу более чистого, описательного промта без повторов и эмоционального мусора. Это возможно, если чуть отредактировать код или добавить post-processing фильтрацию." Но поскольку я не программерв вот это вод "чуть отредактировать код" меня естественно пугает и я пока не пошёл в эту сторону. А вы можете.
no subject
Date: 2025-07-03 12:44 am (UTC)Вот что мне выдал чат-gpt при анализке картинки в виде промта close-up of a cute tabby cat with green eyes lying on the floor, realistic lighting, shallow depth of field, detailed fur texture, warm tones, high detail, photorealistic, studio photography style
Вот чтоо выдал interrogator-capturer: there is a cat that is laying down on the floor, beautiful cat, cute cat, photo of a cat, a cute cat, calico cat, cute cat photo, beautiful huge eyes, cat photography, an adorable kitten, cute large eyes, cat - like scarlet eyes, big round cute eyes, awesome cat, cute kitten, huge adorable eyes, cute cats
А вот что выдал простенький describer встроенный в Foocus: a kitten lying on the floor with his paws hanging out
Сравнительный анализ чата приводить не буду, естественно он проанализировал это всё и себя как анализатора похвалил и порекомендовал (а как же!). Типа Foocus 1 звезда Blip 2 звезды а он сам 4 звезды 😂
Причём совершенству нет предела, мы с ним остановились на "Если захочешь — можем протестировать более сложную картинку, а заодно я могу помочь тебе настроить BLIP на выдачу более чистого, описательного промта без повторов и эмоционального мусора. Это возможно, если чуть отредактировать код или добавить post-processing фильтрацию." Но поскольку я не программерв вот это вод "чуть отредактировать код" меня естественно пугает и я пока не пошёл в эту сторону. А вы можете.