AI(人工知能)

画像生成AI「FLUX.1」の利用可能なツール・サービスと始め方・使い方・料金など

2024年8月1日、また生成AIの歴史に名を刻むサービスが現れました。Black Forest Labs(BFL)社による「FLUX.1」で、画像生成AIです。現時点、写真のようなリアルな画像を生成するには最も優れた画像生成AIだと言えます。

FLUX.1には3つのモデルがあります。それぞれどのように違うのか、どうすれば使えるのか、料金などについてご紹介いたします。

「FLUX.1」の概要

「FLUX.1」を開発したのは、ドイツのスタートアップ企業で「Black Forest Labs(BFL)社」です。「Stable Diffusion」の開発元である「Stablity AI社」出身の開発者たちによって開発されました。

120億のパラメーターでトレーニングされ、AIによるものだと聞かなければ分からないほどリアルな写真のような画像を生成します。そのため、生成AIに関する世界的なコミュニティに驚きを与え、瞬く間に生成AI業界には知れ渡りました。

次の画像はBringRitera(リテラ)というツールで、FLUX.1 [pro]で生成した画像です。

「FLUX.1」の3つのモデル

FLUX.1は3つのモデルにより構成されています。

FLUX.1 [pro]FLUX.1 [dev]FLUX.1 [Schnell]
概要proは最も高性能なモデルで、開発者向けのAPI経由でのみ利用が可能。Black Forest Labs独自のAPI利用は招待制となっており、2024年8月時点では一般利用ができない。Black Forest Labsのビジネスパートナー経由でのAPI利用が必要となるdevは、proよりも高速。一般のPCでローカルに実行可能。最も高速。画像の精度はその分落ちる。
商用利用可能モデル自体を商用利用はできない可能
API料金(※)0.05ドル0.025ドル0.003ドル

※Black Forest Labs社独自のモデルの場合で、現時点招待制となっており、一般利用は不可。おそらくビジネスパートナー向けの料金でしかありません。Black Forest Labs社のビジネスパートナーの料金はそれぞれで設定されています。

最高峰画像生成AIモデル同士での比較

現時点の最高峰画像生成AI同士で比べてみるために、FLUX.1 [pro]、Stable Image Ultra、DALL-E 3にそれぞれ次のプロンプトを入力してみました。

A Japanese woman in her 20s, sitting alone at a two-person table in a modern café, drinking coffee from a cup labeled "BringRitera" while looking at her smartphone. She is wearing a black T-shirt with a white shirt layered over it. Her hair is shoulder-length with loose waves. She is seated at a table against the wall, and the background wall features a single lamp.
photo style.
wide.

日本語訳:

肩ぐらいまでの髪で緩いパーマをかけた20代の日本人女性が、モダンなカフェ2人用のテーブルに1人で座っている。スマートフォンを見ながら「BringRitera」と書かれたカップでコーヒーを飲んでいて、黒いTシャツの上に白いシャツを羽織っている。テーブルは壁際にあり、背景の壁には1つランプがある。
写真スタイル。
横長。

このプロンプトでの比較ポイントとしては、以下がありますので、ご参考に比較してみて下さい。

  • 写真のようなリアルさ具合
  • 服装や髪型などの細かい指示に対する忠実度
  • 現実的な描写かどうか
  • 文字の描写

現時点、FLUX.1を直接用いる際は日本語によるプロンプトには対応してないので英語としています。

また、画像中に文字を表示する技術についても現時点、どのモデルも日本語文字は対応してないため、アルファベットでの指定としています。BringRiteraというのは後でご紹介する、FlUX.1 [pro]が日本語でも利用可能な画像生成AIツールの名称です。

FLUX.1 [pro]

Stable Image Urtra

DALL-E 3

FLUX.1 [pro]はこのケースだと、どの観点においても最も優れていると言えるのではないでしょうか?
Stable Image Ultraは、白いシャツを羽織らせることには成功してますが、コーヒーではなくお酒を飲みすぎた人のようになってますね・・・
DALL-E 3は人物のリアリティには欠けるのと、何度やっても白いTシャツの上に黒いTシャツを着せようとしました。またBringRiteraの文字について、大文字と小文字の区別がついていません。

このように、リアルな描写をさせると、現時点FLUX.1 [pro]の性能は抜けた感じがします。

次に、以下のプロンプトで試してみます。

Create geometric art that evokes the image of IT, incorporating a touch of a fantastical atmosphere.
Wide.

日本語訳:

ITをイメージさせる幾何学的なアート。幻想的な雰囲気もある。
横長。

FLUX.1 [pro]

Stable Image Ultra

DALL-E 3

FLUX.1はいきなりデビルが登場しました。幾何学的な模様は見当たりません。私としてはDALL-E 3が最もイメージに近いのですが、皆様はどう思われるでしょうか?

このように、描かせるものによっても理解度や精度が変わるので、一概にどれがいいとまだ言い切れる感じにはなってないと言えます。

それにしてもFLUX.1 [pro]は急にどうしてしまったのでしょうか(笑)。
ちなみに何度か試しても似たようなものを出力しました。

FLUX.1を使うには?

BringRitera(リテラ)

それでは、リアルなAI画像を得るためにFLUX.1を利用する方法ですが、先述のように得手不得手もある現状の各生成AIモデルをまとめて使えるBringRitera(リテラ)が最もおすすめです。月に550円(税込)~で使えますし、FLUX.1の中の最高峰であるFLUX.1 [pro]を利用することができます。

「ユーザー登録」で登録をしたら、「プラン変更」をしてライトプラン以上にすると画像生成AIの機能は全て使えます。
※なお、フリープランでもAIライティングツールの機能は一定使えます。

あとは本当に簡単で、「画像生成AI」メニューを押して、縦横比やスタイルなどを選択後、思うがままに日本語で入力するだけです。FLUX.1のAPIを直接使う場合、日本語に対応してないのですが、このBringRitera(リテラ)は裏側で勝手に英訳してくれますので、日本語で入力してもOKなのです。

生成AIモデルは右上のメニューから選択します。Stability AI社のモデルについては、廉価版も選べて、その場合その分消費するリテラと呼ばれているポイントが少なくて済みます。

ピンポイントで画像の変更を指示する機能もついてます。
変更したい画像を選択して、日本語で入力するだけ。

ソファーに座っている眠たそうにしている猫に対して「眠っている様子に変えて」と指示をしている画面。

このような具合に、ピンポイントで変えることができます。

ソファーに座っている寝ている猫。

皆様、薄々(でもなく、はっきりと)気付かれてるのでしょうが、BringRitera(リテラ)というのは当社のサービスです。FLUX.1 [pro]をリリースして以降、ユーザーに最も多く利用されているのがFLUX.1 [pro]です。Stable Image UltraとDALL-E 3が半々といったところでしょうか。しかしどれか一つしか使わないというわけでもなく、使い分けているユーザーが多いので、3つのモデルを提供した甲斐もあります。

X(旧Twitter)

X(旧Twitter)はGrokという名のAIチャットボットを搭載していて、プレミアムプラン(月額980円)以上を契約しているユーザーが使うことができます。しかし性能が微妙で、あまり話題にはなっていませんでした。
2024年8月14日にGrok-2が発表され、一部の有料ユーザーから開放されています。その中でFLUX.1を利用できるようです。それでもユーザーの反応はいまいちと言ったところでしょうか?

モデルは「FLUX.1」としか発表されておらず、生成スピードや生成される画像の品質などから一番下のモデルの「FLUX.1 Schnell」だろうという見方がされています。

API経由での利用

API経由で利用する場合は、まず次のBlack Forest Lab社の公式サイトにアクセスし、「Get FLUX」の入り口を選択します。

そうすると、Black Forest Labs社の公式のAPIの利用メニューと、ビジネスパートナーのサイトへの入り口が用意されています。

2024年8月現在は、公式APIは招待制となっておりBlack Forest Labs社に招待されない限り利用することができません。

まとめ

FLUX.1 [pro]、Stability AI社の各モデル、DALL-E 3、それぞれ使えるBringRitera(リテラ)を使ってみてください。

著者のイメージ画像

株式会社BringFlower
稲田 高洋(Takahiro Inada)

2003年から大手総合電機メーカーでUXデザインプロセスの研究、実践。UXデザイン専門家の育成プログラム開発。SEOにおいても重要なW3Cが定めるWeb標準仕様策定にウェブアクセシビリティの専門家として関わる。2010~2018年に人間中心設計専門家を保有、数年間ウェブアクセシビリティ基盤委員も務める。その後、不動産会社向けにSaaSを提供する企業の事業開発部で複数サービスを企画、ローンチ。CMSを提供し1000以上のサイトを分析。顧客サポート、サイト運営にも関わる。
2022年3月に独立後、2024年4月に株式会社BringFlowerを設立。SEOコンサルを活動の軸に据えつつ、AIライティングツールの開発と運営を自ら行う。グッドデザイン賞4件、ドイツユニバーサルデザイン賞2件、米国IDEA賞1件の受賞歴あり。