学び

研修で画像生成AIを学びました。教員のFD研修テーマの1つでした。Zoomによるオンライン研修で行いましたが、学んだことを自分の中に落とし込むために記事にしてみました。画像生成AIの歴史や、ツール別の簡単な画像生成の演習をしたのでその様子をご紹介します。お時間があったらお付き合いください。
画像生成AIの歴史
大学の兼任教員をしています。年に1回教員のスキル向上を目的にFD研修が義務づけられています。注:FD(Faculty Development)
今回は、その中で画像生成AIについての学習や実習がありました。その内容を自分に落とし込むために改めてその概要を整理してみました。
まずは、画像生成AIの歴史です。最近の様子です。

生成AI分野で、2014年に画期的な進歩がありました。敵対的生成ネットワーク(GAN) の登場です。イアン・グッドフェローとその研究チームが開発したもので、生成器と識別器が競い合う「敵対的生成ネットワーク(GAN)」という手法です。
この手法は、生成器がまったく新しいデータを生成し、識別器がそのデータが本物かどうかを判断します。生成器は本物に近い画像を作ろうと生成を繰り返し、識別器は本物と生成物を見分けようと努力するという手法です。この作業を繰り返す事で、GANはどんどん高度な画像を作ったり、真を見分けたりすることができるようになりました。
次の注目すべき進歩は、Transformer(トランスフォーマー 2017~)の出現です。Googleの研究チームが、トランスフォーマーモデルを用い、たくさんの単語の関連を一度にチェックし、より効率的かつ効果的に言語データを扱うことが可能になりました。
そのTransformerを活用して作成されたのがOpenAIのChatGPT 言語生成AIです。

さらに、2020年にその応用として、DDPM(Denoising Diffusion Probabilistic Models)」と呼ばれる新しいタイプの拡散モデルが登場します。ノイズから画像を生成する技術です。
この手法では、元のクリアな画像にノイズを加え、ガウス分布状態のノイズ画像になるまで操作を繰り返します。そして、その逆のプロセスを繰り返し、ノイズ画像から元の画像を復元することができます。この原理をデータ生成に応用することでリアルな画像を生成することができます。
その事例をソニーの研究チームがYouTubeにアップしています。

こちらが、実際のYouTubeのURLです。短時間の映像なのでぜひ見てください。
以降、画像生成AIのめざましい進歩は、皆さんがご存じの通りです。
スポンサーリンク
画像生成AIの事例
画像生成AIには多くの種類があります。その中で比較的扱いやすいものを事例として取り上げました。

残念ながら、Stable Diffusionは私のパソコンでは実装スペックが不足していためトライ出来ませんでした。(正確には生成に時間がかかるので止めたのですが(^0^;)
それ以外の例を見ていただきます。
ChatGPTの例
まずは、ChatGPTの例です。
入力したプロンプトは、次になります。
「外で初老の男性が帽子をかぶり椅子に座ってギターを弾いている画像」

プロンプト通りの画像が出力されました。
ChatGPTのURLをつけておきます。パソコンでしか移行しないです。ご容赦ください。なお、アカウントを取得する必要があります。以下、同様です。
Microsoft Copilotの例
次は、Microsoft Copilotの例です。
プロンプトは同じものを使っています。

これも中々の出来です。指のシワも描かれていてかなりリアルです。指も5本で、それなりのコードを押さえた形をしています。
URLです。
Microsoft Copilot: あなたの AI アシスタントです
ImageFXの例
次は、GoogleのImageFXです。
こちらは、英語のみの対応なので、プロンプトは以下にしています。
guiter,Man,Play,country,background

帽子を入れ忘れました(^0^;)
でも、まあまあの出来ではないでしょうか?
帽子を追加した画像です。

Hatが追加されただけですが、先ほどの画像とは異なる人物になってしまいました。その辺は私がまだ経験不足のためです。
今回は、実習を兼ねていたので教員全員が同じテーマで描きましたが、それぞれユニークなギターを弾いた画像が生成されていました。
URLです。
教材につかう?
画像生成AIを学ぶ目的の1つが、作成教材への利用です。
現状は専門のイラストレーターに書いてもらったり、無料の画像を見つけてきて利用しています。しかし、お金の制約や、検索では思い通りの画像が手に入らないことは多いです。そのため、画像生成AIで思い通りの画像が描ければ助かるというわけです。
さて、私の専門の経営学での生成AIの画像生成をトライしてみました。まあ、研修の限られた時間内なので、あまり考察出来ていない事例ですが、ご紹介します。
経営管理で、よく出てくるSWOT分析の説明資料をImageFXで書いてもらうと、こんな画像が出てきます。
なお、SWOT分析は自社の現状における強みや弱み、外部環境の機会と脅威を抽出する手法です。就職するときに書いたエントリーシートの自分の良い点をまとめたパートみたいなものです。

タイトルのSWEETOODは意味不明です(^0^;)内部にはSWOTと書かれていて強み、弱み、機会は合っていますが、脅威が外に出ています。また、ImageFXは日本語をサポートしていないので、英語表記になってしまいました。
では、ChatGPTやMicrosoft Cockpitを使うというのは、無料だと使用制限があるので、希望の画像にたどり着くには、私の技量不足でまだ無理でしょう(^0^;)
以前、自分で作ったSWOT分析の説明資料がこちらです。

もう少し専門性の低い画像を抽出することに使うのが良いのかもしれません。
たとえば、挿絵程度に

地球を手に持つ例ですね。
おまけ:Canvaの例
はてなでもサポートが受けられるCanvaの方が回数制限が厳しくないで良いかもしれません。
試した事例がこちらです。

まあまあですね。
ついでに、いくつか出力してみました。
イラスト風と写真風です。

まだまだ画像生成AIについて、私はひよこレベルだと実感しました。
URLです。
Amazingly Simple Graphic Design Software – Canva
私が読者になっているはるうさぎさんは、画像生成AIのかなりの使い手です。
素敵なイラストが沢山掲載されています。ご自身もイラストを書いていますが、画像生成AIの生成例も沢山載っています。
良かったらご覧になってみてください。
今日はお勉強したことを整理しながらのまとめでした。

最後まで読んでいただきありがとうございました。

こうした記事も読んでやってください。
終わり
