── AIX1 Pro で見えた「限界の正体」と、玄人が詰めているポイント
はじめに:年末、迷っている時間そのものがコストだと感じた
2025年末、SNSや技術系コミュニティでは
「AI PCは今のうちに買え」「後で後悔する」という声が一気に増えた。
正直なところ、ああいう煽りはあまり好きではない。
だが一方で、こうも思った。
もう少し様子を見る、という判断自体が
そのまま“値上がりを待つ行為”になりつつあるのではないか。
ローカルLLMや画像生成、動画生成を本格的に評価するなら、
それなりの性能を持つ端末を一度は触っておく必要がある。
そう割り切って、年末に
AMD 370HX + 大容量メモリを積んだ “いわゆるAI向けPC” を
観測点として1台導入した。
※端末の構成や初期設定、eGPU検証などの技術的な話は
OSManiaX側にまとめているので、興味のある方はそちらを参照してほしい。
今回の目的は「移行」ではなく「比較」だった
最初に断っておくが、
今回の目的は macOS や Linux から Windows へ移行することではない。
あくまで、
- 型落ち気味の中古PCで触ってきたローカルAIと
- 「最新AI向け」と言われるPCでの体験に
- どれほどの差があるのか
それを実測ベースで確かめることが目的だった。
その上で今回は、ComfyUI/Amuse による画像・動画生成、
Ollama/LM Studio によるローカルLLM推論を一通り試した。
率直な感想:遅い、精度が安定しない、何度も繰り返すのは正直きつい
結論から言うと、率直な感想はこうだ。
画像生成AIと動画生成AIはまだまだ発展途上だと言える。
- ComfyUI は遅い(今回はGPUではなくCPU実行だったため、この点は想定済)
- AmuseはComfyUI比較では速い、しかし精度が安定しない
- 日本語プロンプトだと、確実に破綻する
モデルデータはどれも容量が大きく、
ダウンロードと差し替えだけで結構な時間を持っていかれる。
「試す」までのハードルが、思った以上に高い。
そして正直に言えば、
現時点では
クラウドの画像生成AI・動画生成AIサービスの方が
一発の完成度は圧倒的に高いんじゃないか
と感じた。
ローカル生成AIに期待していた分、このギャップに戸惑ったし、これでは正直疲れてしまう。
ちなみに以下はAmuseを使って実際に日本語プロンプトで破綻した事例だ
プロンプトは以下。
「晴れた日、明るい日差しの中、若い女性2人がビーチバレーを楽しんでいるシーン」
なぜか、タイヤが外れかかっていそうなオフローダーが出力された。
Amuseはそもそも日本語プロンプトを前提にしていないように見える。

ちなみに多くの画像生成モデルは、英語キャプション前提だ。
そして仮に日本語指示が可能でも機械翻訳品質の学習データになり、
主語・修飾語が壊れやすいし、感情語・比喩が落ちやすい。
なので、最初から英文で渡す方がいいとなる。
というわけで、気を取り直して今度は英文に翻訳して渡してみよう。
ちなみに渡したこのプロンプトはローカルLLMのOllama(gpt-oss:20b)で翻訳生成した。
Bright sunny day on a sandy beach. Two young women, laughing and enjoying themselves, are playing beach volleyball under a clear blue sky. The sun casts warm golden light across the sparkling water and the sand, creating a lively, vibrant atmosphere.
英文プロンプトで各モデルでも試してみたが、完全にプロンプト指示通りではない
今度はオフローダーではなく女性が生成された。
だが女性2人ではなく、3人になっている。
左端の女性が上半身下半身が不自然。
右端の女性はお腹が透けて背景の海になっている。

これは最初のモデル「SD3Medium(AMDGPU)」で出力したものだ。
次に同一の英文プロンプトを、設定は極力いじらず、
複数モデルでそのまま流してみた。
Fluently V4 LCM
ビーチバレーまで汲み取ってくれた、が足が3本?

Fluently V4 LCM
ビーチバレーはない。

StableDiffusion
ビーチバレーはない。

StableDiffusion
ビーチバレーはない。

モデルはダウンロードしたが、細かい設定は変えずに、デフォルト設定での生成だとこんな具合だ。
これだとクラウド生成AIサービスのがまだマシでは、と思ってしまっても仕方がない。
では、なぜクラウドAIの方が“賢く”見えるのか
これはモデル性能の差だけではない。
結論を先に言うと、
クラウドAIは“生成前後の工程”が桁違いに多い
クラウド生成AIが裏でやっていること
- 日本語 → 英語への内部変換
- プロンプトの自動拡張
- ネガティブプロンプトの自動生成
- ControlNet相当の構図制御
- 複数候補を内部生成し、良いものだけを出力
- 失敗例はユーザーに見せない
ユーザーから見ると「1回での生成」だが、
内部では10工程以上走っているケースも珍しくない。
ローカル生成AIは「裸」で渡されている
一方、ローカル生成AIはどうか。
- モデル単体
- 補正なし
- 文脈補完なし
- 失敗もそのまま出力
つまり、
クラウドAIは完成した工場ライン
ローカルAIは素材と工具
同じ土俵で比べるのが、そもそも無理がある。
玄人向け:それでもローカルで精度を上げる方法
ここまでは、とりあえず、デフォルトで用意されたものをやってみたという段階だ。
ここからが重要だ。ある程度チューニングをすることで改善が見込める部分があると言える。
「だからローカルAIはダメ」で終わらせたくはない。
まずは以下4点だ。
① 日本語 → 英語プロンプト変換を挟む
ローカルLLM(LM Studio / Ollama)を使い、
- 日本語の意図を
- 英語の“生成向け命令文”に変換する
これだけで、出力の安定性は一段上がる。
② プロンプトは短く、固定化する
- 曖昧な形容詞を減らす
- 毎回違う詩を書かない
- Seed を固定する
ローカル生成は設計図を書く感覚が重要だ。
③ ネガティブプロンプトを厚くする
クラウドAIが裏でやっていることを、
ローカルでは手で書く必要がある。
- 手・指・顔の崩れ
- ノイズ
- 文字化け
- 解像感低下
④ ControlNet 前提で考える
一発芸を狙わない。
- 構図
- ポーズ
- 世界観
を分離して組み立てる。
ローカル生成AIの正しい立ち位置
ローカル生成AIは、
- 一発で映える魔法ではない
- だが、制御・自動化・コスト固定では強い
手っ取り早く生成AIの動画で作品を作りたいという人はクラウド生成AIを使うべきだろう。
そういう意味では「課金してでも作品を作りたい人向け」だ。
ローカル生成AIは自分で何か仕組み化したい人向けの道具になると言える、試行錯誤しながら何かしら自分用のツールや、アイディアが当たれば多くの人に利用可能なWEB生成AIサービスを作りたい。というような人向けなんじゃないかなと思う。基盤となる「道具を作りたい人向け」だと言える。
この住み分けを理解すると、期待外れだった体験も、違う意味を持ち始める。
おわりに:失望は、理解の入口だ
今回、最新と言われるPCでローカル生成AIを触ってみて、
まだ全てを理解しているわけではないため、
各種設定などを理解した上で、最適な環境を構築していきたい。
まだ今はまずは最初はこんなもんかという感情である。
ここからどう改良されていくのか、伸び代はまだあるので、それに期待しているところだ。
ローカル生成AIは、まだ“誰でも一発で当てられる魔法”ではない。
だが、使いどころと期待値を正しく置けば、確実に武器になる。
常に勉強し続けることでしか前に進めないのだと改めて感じた2026年初頭である。



