はじめまして。かくびーと申します。
今は東京大学の1年生(2020/11現在2年生)で、とりあえず自習したことやら授業で知ったことやらを適当に書くつもりです。
続きを読む
前回
cake-by-the-river.hatenablog.jp
前回の続きです。今回は、image2imageに軽く触れたのち、主にサンプリングに関する技術をまとめます。この辺りは今までの話とは別の流れで、これまた難しめではあるので、可能な限り難しい理論には踏み込まないような説明を試みようと思います。
続きを読む前回
cake-by-the-river.hatenablog.jp
今回は、いよいよStable Diffusionの元論文である Latent Diffusion Model (LDM) について解説し始めます。特に、そのモデル構造(潜在空間における拡散モデル, 分類器なし条件付け, など)を導くに至った経緯を主に解説します。その他の問題(拡散ステップ数の削減など)に関しては次回になると思います。
続きを読む前回
cake-by-the-river.hatenablog.jp
今回は、拡散モデルの最も重要な論文である Denoising Diffusion Probablistic Models (DDPM)を解説します。
前回の潜在変数モデルとしての側面(AutoEncoder)も持ちつつ、スコアベースモデルによる画像生成であるNCSNと数学的に等価で、より学習の効率が良いアルゴリズムであるDDPMは、Stable Diffusion(Latent Diffusion Model)の中枢を担っているため、ここが理解できればStable Diffusionをはじめとした拡散モデルの概略を抑えることが出来ると言えます。今回も、最近発売された拡散モデルの本も参考にしています。なお、今回は数式が(大量にあった前回をさらに超えるほど)沢山出ますが、出来るだけ"お気持ち"を重視して解説するよう頑張ります。
続きを読む前回
cake-by-the-river.hatenablog.jp
今回は、拡散モデルの最も重要な論文である Denoising Diffusion Probablistic Models (DDPM)を解説します。
DDPMを解説する予定だったのですが、基礎となるVariational AutoEncoder (VAE)など潜在変数モデルとその学習に関する話を書いたところ記事が膨らんでしまったので、今回はVAEをメインに説明することとします。なお、今回の内容は、ベイズ深層学習の本を主に参考にしています。
この記事を読んでいる人は、潜在変数モデルについても良く知っているかもしれないですが、一応ざっくりと解説していこうと思います。