豚の採血画像(生成AI)
最近、動画生成AIに凝っているのですが、サブスクのクレジットを使い切ってしまって月が替わるまで何もできないこともあって、画像生成AIにハマり始めました(*^^*)
でもまあ、画像生成は無料のGeminiなんですけどね(笑)
それでひょんなことから、職場の部下に「豚の採血の画像を創ってくださいよ~」と言われて、まあこんなら創ってみるか、とGemini君に創らせようとしたのですが、これがやり始めると艱難辛苦、七転八倒の道のりで…
…こんなことなら、サクっと撮ってくれば良かった(笑)
で、とりあえずの完成版がアイキャッチ画像です。まあこれでもまだヘンなところはあるので、果たしてこれでokがもらえるかどうかは分かりませんが…(笑)
これでも、Geminiが無料で画像生成ができるのは1日当たり100枚ほどなのですが、その100枚を使い切って翌日に持ち越し、ということを2回やってます。ほぼ300枚近くの画像を生成させてようやく到達したのがこれなのです。
で、せっかくなのでその過程をちょっとだけ紹介しましょう(笑)
まず、何も細かいプロンプトを書かず、単に「獣医師が豚の採血をしている様子の画像を生成してください」と書いて出てきたのがこれ。

…あーはいはい。堅気の人が想像するイメージって、こんなもんでしょうね(笑)
で、改めて豚舎内の様子、獣医師の服装や姿勢、豚の姿勢等を細かく指示して書かせてみたのですが、その際のある一定の到達点がこれです。

何が苦労したって、獣医師に注射器を上向きに持たせるのに七転八倒しました。
どうもGemini君は、「注射器とは水平近くの角度で保持して使用するもの」という固定観念があるらしい。
これは七転八倒している時に偶然出てきた画像で、すかさず保存して、その注射器を刺す部位を自分で赤丸のマーキングを施し、次のステージの画像生成の基礎にしたわけです。
というのは、採血するのは豚の経静脈で、針を刺す位置はこの赤丸あたりなんです。ここに上向きに、ほぼ垂直の角度で針を刺すわけです。
この豚の喉元、をGemini君に認識させるのにも五里霧中の手応えで…
「何が分からないのか?豚の喉元と思う部位にマーキングしてみて」と指示したら、それはそれは素っ頓狂な部位をマークする(笑)
たまに正しい部位にマークして「それだ!それだよ!その部位を忘れないで!」って書いたら、「やりました!了解しました!この部位は決して忘れません!」なんて調子のいいことを言ってくるくせに、その2枚目ではもう明後日の部位にマークする(笑)
まあそれで私が自分でマークしたわけですが(笑)
で、「注射器の角度はそのままで、この赤丸でマークした位置に針を刺せ」という指示に切り替えたのですが、そしたらまったく明後日の部位を刺す(笑)
しかも注射器は水平になってる(笑)
そんなに縦に上向きに注射器を使うのは抵抗あるのか(笑)
再び作戦変更です。
獣医師の手から離れても良いから、とにかく注射器を赤丸に刺せ、と指示しました。
そしてら出てきたのがこれ。

…うー、注射器の角度が逆、つまり下向きになっているのですが、まあそれは後で修正するとして、これはこれでokとしましょう。ここから修正を追加していこうと。
で、次は獣医師の手を注射器に触れさせれば良いのだ。
…ところがですね。どんな指示を出しても獣医師の姿勢は微動だにしない。もしくは注射器の位置が移動していたりする。肘を上げて、とか指示しても、ほんの数cm上がるだけ。
で、より近い部位を触らせてみるか、と豚の耳を左手で触れ、と指示したら右手で触りました(笑)
で、「右手で豚の喉元に刺さった注射器に触れる、という指示のどこが困難だと思っているのか?」と聞いたら、豚の喉元は高くて遠い位置にあるので、しゃがんだ状態の獣医師が喉元に触れるのは解剖学的に不可能だと思われる、と言うのです。
…ははん、立った状態の人間の喉元と混同してるな?
そして獣医師の服装などに変更禁止の制限をかけていたのですが、それを姿勢を変えてはならないと言われました、とも言う。いやついさっき、左腕は動かしたやん(笑)
よしそれなら分かった、「豚の喉元」は一旦忘れて注射器に触れる、ということに集中しろ。そして獣医師の姿勢に変更を加えることを認める、と指示しました。元々姿勢まで変更不可と書いてはいないのですが。
そしたらついにこの画像を出してきました。

やったー!やったよ!届いたよ!
Grmini君も「ついにやり遂げました!」なんて喜んでる(笑)
ここまで来たらゴールはすぐそこだ!
…と思ったのですが、そこからまた100枚以上のスカ生成を繰り返すことになるのです…(笑)
まず注射器を反転させろ、と指示したら、その反転が通らない。上下を逆にしろ、とか、ポンプと針の位置を入れ替えろ、と指示してもぜんぜん別の注射器を出してきたり、注射器が豚の頭からぶっ刺さってる画像を出してきたり、どうにもならない。
たまに針が上向きに付いた注射器を生成しても、ご丁寧に下向きにも付いていたりする。

こんなのです。
これもそのうち、偶然出てきた画像をリファレンスにしてそこからまた修正を繰り返す、という繰り返しでした。
ある程度妥当な画像を出してきて、次はこの画像をベースに修正していけば良い、と判断した時には、「この画像をリファレンス〇画像とするので記憶しろ」と指示したのですが、このリファレンスナンバーは8までいきました。
それで生成が迷走しだすと、「リファレンス6画像に戻れ」とかやっていたのですが、それも混乱するとまったく関係がない海辺の観光地の画像を出して「リファレンス6画像です」とか言い出すし、下手すれば画像が出てこずに中途半端なURLがテキストで表示されて止まったり、「俺、もしかしてGemini君を壊してしまった…?」って思ったことも4回や5回ではありません(笑)
で、注射器も何とかまともなのが出て、あとは豚の保定をしているロープを修正すれば何とか完成、というところまで漕ぎつけたリファレンス7画像がこれです。

これはですね、豚の保定ロープの何が問題かと言うと、このロープで豚が動けなくなってるなんて誰も思わないでしょ?
実はこれ、ロープの先端でループを作っていて、そのループで豚の上顎(鼻)を締めているのです。
その状態で前に豚を引くと、豚はそれに抵抗して後ろに踏ん張るので、採血ができる程度には動けなくなるのです。
実際は画像程度の太いロープの先に2mm程度の細いロープを繋ぎ、ループはその細いロープで作っているのですが、もうそんなことまで生成してくれる期待なんてしちゃいけねぇよ(笑)
そのロープで良いから何とかループを作って豚の鼻を締めてくれ…
とあれこれ試したのですが、あかんです(笑)
まあこれまでの経緯から、Gemini君にそのプロンプトを理解できる頭がないことは分かっていましたが。
で、最大の妥協案として、ロープの「豚の口元の直近」に結び目を作れ、と指示して、それが無事出てきた時点でとりあえず完成、としたわけです。
本来はこのロープは、豚の体に対してまっすぐ前に引いています。なのでそれは元からこの画角では表現できないのです。
ま、ループも伝わらないでしょうけど(笑)
せめてもと、結び目から豚の鼻の上の方向に分岐したロープを描かせようとしたのですが、その指示を出したらGemini君、大混乱でした(笑)
ついでに口直しに生成させた画像がこれ(笑)

フェリーから下船しようとしているハーレー2台、という画像ですね。
で、これらの画像生成を通していくつか分かったことがあります。
・AIは画像の中の構成物の距離や方向、大きさを認識していない
この画像なら、視点を10m後ろに下げる、なんてプロンプトは通りません。了解しました!なんて調子のいいことを言いながらまったく同じコピーかよ、って画像を平然と出してきます。
注射器をもう5cm下に、というのもダメですね。
動画生成でも同じで、どうかすると「カメラを右にパンする」と指示したのに平然と左にパンすることが多々あります。
・AIは知らないことを知らないと決して言わない
言わずにズルするわけです。
このフェリーの画像だと、スターンランプを通過した後のフェリー埠頭とフェリーターミナルビルの描写に困ると、スターンランプの傾斜を強くして、港の様子を描写しなくて良いような画像を生成する(笑)
何が分からないのか?と聞いて初めて「私のデータベースには〇〇はありません」とか返してきやがる。
こんなやつ、人間にもいるよねぇ(笑)
デキの悪い新人を相手にしてるみたいですよ(笑)
というわけで超長文、失礼しました。
こんな長文、通るのかな…?
ミュートしたユーザーの投稿です。
投稿を表示注射器💉の変わり方に笑ってしまいました。😂
ミュートしたユーザーの投稿です。
投稿を表示なにか、面白い。
七転八倒でしたね。
お疲れ様でした。
ミュートしたユーザーの投稿です。
投稿を表示原則生成AIは空気読んでいるように見えて読んでないのでそんな認識でよいかと🤖
画像生成(や動画生成)の細かい所を直そうとすると言葉だけでは限界があるので、そっち系のモデルで範囲選択しながら指示出さないと厳しいかもしれませんね😓
荒技としてはフリーハンドで書いたポンチ絵を食わせてこんな感じに画像直したいからそれ用のプロンプト作って、と指示出すっていうのがありますが🤔