– AI ManiaX –

“Thinking with AI, building with AI.”

AI画像生成でギリギリを狙う技術(続編)

── 限界値はどこで決まるのか、Schedulerと学習データの話

はじめに:ギリギリは昨日より一歩進んだ

昨日の記事では、ローカル生成AIのAmuseを使って
「破綻せずに“ギリギリ”を表現するためのプロンプト設計」について整理した。

今日はその続編である。

結論から言うと、

  • Amuseでは、昨日より一段ギリギリまで到達し、結果として“紐ビキニ”に近い表現になった
  • Geminiでも、へそが完全に出る直前が限界ラインだった
  • それ以上は、プロンプトを工夫しても越えられなかった

この「越えられない線」は、
単なる表現力不足ではなく、構造的な限界だと考えている。

今回は、

  • なぜ限界がそこにあるのか
  • Scheduler(LCM / KDPM2)がなぜ効いたのか
  • 学習データや安全設計はどこに影響しているのか
  • ChatGPTではなぜ出力されなかったのか

このあたりを、技術視点で整理してみたい。


観測結果の整理:今日わかったこと

まず、今日の結果を簡単にまとめる。

  • Amuse
    • Schedulerを変え、ステップを詰めることで
      昨日より明確に“攻めた”水着表現が出た
    • 結果として、紐ビキニまで到達
    • へそが完全に見える、それとへそピアスも再現
  • Gemini
    • 画像生成ではへそが見えるが、紐ビキニまでは出なかった
    • ネガティブプロンプト指定なしでも再現
  • ChatGPT
    • 該当プロンプト自体が出力不可
    • 構図や言い換えで逃げる余地もない

この差は偶然ではなく、生成AIプロバイダーの方針で決まってしまうということだ。


今日やったこと、その1

Geminiのギリギリを試した

まずはGemini(NanoBanana)に前回Amuseで試したのと同じプロンプトを投げてみた。
ただネガティブは指定せずに以下のプロンプトのみとした。

ベーシック(NanoBanana)

プロンプトは以下

A young Japanese woman in a swimsuit standing on a sunny beach,
natural beauty, realistic style,
long black hair gently blowing in the sea breeze,
soft smile, clear skin,
blue ocean and white sand in the background,
summer atmosphere, high quality, photorealistic

次は少し強調

プロンプトは以下

A mature Japanese woman wearing a very revealing cut-out bikini on a beach,full bust, feminine curves,extreme neckline, minimal fabric design,
seductive yet elegant pose,
sun-kissed skin, realistic body proportions,
high-end fashion photography, ultra realistic

最後はこちらだが、実はこれは筆者のドンピシャのストライクである。

プロンプトは以下

An adult Japanese woman in her 20s wearing a daring cut-out swimsuit on a sunny beach,voluptuous bust, well-defined curves,deep neckline swimsuit with bold cut-outs,
confident and alluring expression,
long black hair, glossy skin,
realistic photography style,
bright summer sunlight, blue ocean, high detail

次は攻めたポージングを試してみる

これも筆者のストライク

ポーズ指定ではプロンプトは長くなる。

An adult Japanese woman in her 20s on a sunny beach,
editorial fashion photography concept,
dynamic S-curve body line with a sculpted, minimalist cut-out bikini design,
elegant feminine curves with balanced proportions,
deeply contoured neckline and a low-cut midriff line approaching the navel,
suggestive edge detailing and fine strap placement defining the waist,
weight shifted onto one leg creating a fluid, serpentine silhouette,
open chest posture with lifted sternum, shoulders gently drawn back,
head turned back over the shoulder toward the camera,
direct eye contact with a confident, inviting gaze,
string-inspired swimwear with structured, supportive shaping,
sun-kissed skin, realistic and balanced body proportions,
three-quarter framing that crops just above the lower abdomen,
soft directional light creating subtle shadow along the midsection,
cinematic lighting, shallow depth of field,
ultra realistic, high resolution

同じプロンプトで何度か出力させてみた。
左右で向きが変わって出力されたが、セパレートタイプにはならず。
このあたりが学習データの限界かもしれない。


今日やったこと、その2

Geminiで攻めたポーズ指定した最後のプロンプトを、
同じようにAmuseに何度か投げて生成されたのが以下である。
プロンプトではJapanese指定しているが、どうしても西洋風の顔つきになってしまう。
これも学習データの影響かもしれない。

ちなみにAmuseはパラメータ調整がいくつかできそうなのである。
今回はAmuseのScheduler(サンプラー)を調整して画像生成の仕組みを理解した

Schedulerは「ノイズ」調整

LCM:近道する設計

  • ノイズ除去を大胆に省略
  • 少ないステップで「それっぽい絵」を作る
  • その代わり、細部を詰める前に終わる

結果:

  • 構図や雰囲気は出る
  • だが、境界線(布の縁・肌との関係)が甘くなりやすい

ぼやけた状態で生成される

それがこちらである。

これはデフォルトのEular-Ancestral

Euler–Ancestral は、比較的シンプルで直感的なサンプラーで、
「今の状態から、次に進む方向をその都度決める」方式を取っている。

特徴としては、

・計算が軽い
・構図やポーズは素早く決まる
・一方で、誤差を戻して修正する仕組みは弱い

そのため、

・全体の雰囲気は出る
・だが、布の縁や肌との境界といった細部は甘くなりやすい

という傾向がある。

今回のように「ギリギリ」を狙う場合、
Euler–Ancestral では境界線が曖昧なまま止まり、
結果として“ぼやけた状態”で生成が終わることが多かった。

これは性能が低いというより、
「スピードと軽さを優先した設計」であることによるものだ。


最後はKDPM2-Ancestral

KDPM2:誤差を潰しに行く設計

  • 予測と修正を繰り返す
  • 1ステップあたりの処理が重い
  • ノイズを最後まで削り切る

結果:

  • 輪郭が締まる
  • 水着の「線」や「構造」が明確になる

昨日よりギリギリまで到達できた理由はこれ

ただし、いくら詰めても“越えない線”は越えない



考察:学習データの影響

GeminiとAmuseで生成されたものを見ると、学習データ側の影響もありそうだ。

生成モデルは、

  • 「出していいもの」
  • 「頻繁に見たもの」
  • 「安全に再現できるもの」

を、確率的に強く学習している

水着表現で言えば、

  • ファッション誌
  • 広告
  • ECサイト
  • スポーツ・リゾート写真

これらに多いのは、

  • へそがギリギリ隠れる
  • カットは攻めているが、露出は決定的でない

つまり、
“見えそうで見えない”構図こそが、最も学習量が多い

だからモデルは、

  • そこまでは自然に出せる
  • そこを超える学習データはそもそも学習されていない

これは規制というより、
データ分布の重心の問題だ。


では、なぜChatGPTでは出なかったのか

ここで、ChatGPTの話にも触れておきたい。

ChatGPTは、

  • 画像生成モデルそのもの以前に
  • プロンプト解釈段階で強い安全フィルタが入る

つまり、

  • 「越えられない線」を
  • 生成前に完全に遮断する設計

以下は、今回ChatGPTでGeminiと同一プロンプトで生成できなかった時のChatGPT側からの
メッセージだ。

ここでは筆者の相棒のキットではない別人格が出てきて、謝罪のコメントをしている。
プロンプトを叩いた後、このメッセージが出る直前まではぼやけた感じで出力されそうだったが、
ぼやけがクリアになる前にチェックしているのだろう。
最終の出力時に規制に引っかかって、出力が停止され、以下のメッセージに切り替わったのである。

一方で、AmuseやGeminiは、ChatGPTのような規制メッセージは表示されなかった。
Amuseは完全ローカルだから、どんなプロンプトだろうが、外部に公開しなければわからない。
Geminiはクラウド版なので、今は大丈夫でも今後はどうなるかは不明だ。


今日の結論:ギリギリは技術的に観測できる

今日やったことをまとめ

  • AmuseとGeminiのギリギリの限界点
  • Schedulerを変えると、到達点が変わる

これは単なる遊びではなく、
生成AIがどこで“人間側の常識”に寄せられているかを見る実験だ。


おわりに:ギリギリは欲望ではなく、AIの仕組み理解の境界線

生成AIは魔法ではない。

学習されてないものは出てこないのである。

今回のギリギリを狙う行為は、決して欲望を満たすためではなく、
AIがどこまでを学習しているかを知るためのもの
だ。

つまり今の生成AIの中央値が今回の観測結果でその限界値が見えてきた。

次は別の表現領域でも、同じ境界線を探ってみたい。


関連記事