FLUX.1-Kontext-dev버전 🍉 출시
그동안 API로만 제공되었던 black-forest-labs의 FLUX.1-Kontext가 dev버전으로 공개되었습니다.
FLUX.1 Kontext는 Black Forest Labs에서 개발한 혁신적인 멀티모달 이미지 편집 모델로, 텍스트와 이미지 동시 입력을 지원하고 이미지 맥락을 지능적으로 이해하며 정밀한 편집을 수행합니다. 개발 버전은 120억 개의 매개변수를 가진 오픈 소스 확산 변환기 모델로, 탁월한 맥락 이해 및 문자 일관성 유지 기능을 제공하여 여러 번의 반복 편집 후에도 문자 특징 및 구성 레이아웃과 같은 핵심 요소가 안정적으로 유지됩니다. FLUX.1 컨텍스트 버전의 특징은 생성 결과물의 일관성 유지력이 더 좋아진 것이라고 합니다. 즉 동일한 캐릭터 타입이 계속 유지되면서 다양한 포즈로 생성이 가능하여 컨트롤넷을 필요로 하지 않을수도 있을듯 합니다.
🍉 버전 정보
[FLUX.1 Kontext [pro] - 빠른 반복 편집에 중점을 둔 상업용 버전
FLUX.1 Kontext [max] - 더욱 강력한 프롬프트 준수를 제공하는 실험 버전
FLUX.1 Kontext [dev] - 오픈 소스 버전(이 튜토리얼에서 사용), 12B 매개변수, 주로 연구용
관련 깃허브 저장소의 내용을 참조하시기 바랍니다.
https://github.com/black-forest-labs/flux?tab=readme-ov-file
GitHub - black-forest-labs/flux: Official inference repo for FLUX.1 models
Official inference repo for FLUX.1 models. Contribute to black-forest-labs/flux development by creating an account on GitHub.
github.com
FLUX.1-Kontext-dev 모델 다운로드 링크 입니다.(Black-forest)
https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
black-forest-labs/FLUX.1-Kontext-dev · Hugging Face
FLUX.1 Kontext [dev] is a 12 billion parameter rectified flow transformer capable of editing images based on text instructions. For more information, please read our blog post and our technical report. You can find information about the [pro] version in he
huggingface.co
flux1-dev-kontext_fp8_scaled 모델 다운로드 링크 입니다.(comfyUI)
https://huggingface.co/Comfy-Org/flux1-kontext-dev_ComfyUI/tree/main/split_files/diffusion_models
Comfy-Org/flux1-kontext-dev_ComfyUI at main
huggingface.co
VAE와 텍스트 인코더는 기존 Flux.1용을 사용하면 됩니다.
FLUX.1 Kontext [dev]모델은 ComfyUI 와 Diffusers 에서도 사용할 수 있습니다 .
VAE 다운로드 링크 입니다.
split_files/vae/ae.safetensors · Comfy-Org/Lumina_Image_2.0_Repackaged at main
Git LFS Details SHA256: afc8e28272cd15db3919bacdb6918ce9c1ed22e96cb12c4d5ed0fba823529e38 Pointer size: 134 Bytes Size of remote file: 335 MB Git Large File Storage (LFS) replaces large files with text pointers inside Git, while storing the file contents on
huggingface.co
텍스트 인코더 다운로드 링크 입니다.
클립_l.safetensors
https://huggingface.co/comfyanonymous/flux_text_encoders/blob/main/clip_l.safetensors
clip_l.safetensors · comfyanonymous/flux_text_encoders at main
Git LFS Details SHA256: 660c6f5b1abae9dc498ac2d21e1347d2abdb0cf6c0c0c8576cd796491d9a6cdd Pointer size: 134 Bytes Size of remote file: 246 MB Git Large File Storage (LFS) replaces large files with text pointers inside Git, while storing the file contents on
huggingface.co
t5xxl_fp16.safetensors
https://huggingface.co/comfyanonymous/flux_text_encoders/resolve/main/t5xxl_fp16.safetensors
t5xxl_fp8_e4m3fn_scaled.safetensors
🍉 WebUI Forge에서 이미지 생성
이전 Flux.1의 구성과 같게 해주면 이상없이 이미지 생성이 됩니다. 다만, Forge에서는 Flux 계열의 모델을 사용시 프롬프트의 모든 기능을 다 사용할수 없습니다. Flux를 섬세하게 컨트롤하기 위해서는 ComfyUI를 사용하는것이 좋습니다.
WebUI Forge에서 FLUX.1 Kontext [dev] 모델을 이용하여 생성한 이미지 결과 입니다.
Denoising strength 테스트 입니다. 전반적으로 정확도가 이전버전 보다 좋은것 같습니다.
텍스트 출력 테스트 입니다. img2img에서 Denoising strength 값을 높여주면 영어 표기가 정확해지고 한글 표기가 잘 안됩니다. 반면 Denoising strength을 낮추면 한글 정확도가 올라가고 영어표시가 내려갑니다. 이는 Denoising strength의 특성에 따른 것이므로 아직까지 텍스트 출력에 한글표시는 잘 안되는 것으로 봐야 합니다.
최근에 구글 제미나이를 자주 쓰는데, 제미나이에서 이미지를 생성 할때는 비교적 정확한 한글도 잘 표시되기도 합니다.(프롬프트에 따라 편차가 심함) 아마도 AI에서 한글표시에 대한 것은 좀더 기다려야 하는게 아닌가 생각 됩니다.