深層学習
前回cake-by-the-river.hatenablog.jp 前回の続きです。今回は、image2imageに軽く触れたのち、主にサンプリングに関する技術をまとめます。この辺りは今までの話とは別の流れで、これまた難しめではあるので、可能な限り難しい理論には踏み込まないような説…
前回cake-by-the-river.hatenablog.jp 今回は、いよいよStable Diffusionの元論文である Latent Diffusion Model (LDM) について解説し始めます。特に、そのモデル構造(潜在空間における拡散モデル, 分類器なし条件付け, など)を導くに至った経緯を主に解…
前回cake-by-the-river.hatenablog.jp 今回は、拡散モデルの最も重要な論文である Denoising Diffusion Probablistic Models (DDPM)を解説します。arxiv.org 前回の潜在変数モデルとしての側面(AutoEncoder)も持ちつつ、スコアベースモデルによる画像生…
前回cake-by-the-river.hatenablog.jp今回は、拡散モデルの最も重要な論文である Denoising Diffusion Probablistic Models (DDPM)を解説します。DDPMを解説する予定だったのですが、基礎となるVariational AutoEncoder (VAE)など潜在変数モデルとその学…
前回cake-by-the-river.hatenablog.jp お久しぶりです。今回から肝心の拡散モデルを見ていこうと思います。今回は、スコアベースモデルを用いた Noise-Conditional Score Networks (NCSN) を解説し、拡散モデルの本題であり次回扱う Denoising Diffusion Pro…
前回cake-by-the-river.hatenablog.jp 今回は、前回紹介したTransformerの自然言語処理能力を画像処理の方面に応用した Vision Transformer (ViT) や、Contrastive Language-Image Pre-training (CLIP) について紹介していきます。 ViT 元論文: arxiv.orgVi…
前回cake-by-the-river.hatenablog.jp 今回は、今後頻繁に利用される自然言語処理のアーキテクチャである Transformer を紹介します。(Multi-Head) Attention からザックリですが解説を試みます。 Transformer 元論文: arxiv.orgTransformer は Google が 2…
前回cake-by-the-river.hatenablog.jp 今回は、細胞など医用画像のセグメンテーション(画像の中から細胞の部分のみを取り出す)で用いられる U-Net を見てみます。途中で FCN についても扱います。 U-Net 元論文: arxiv.org 前回のAlexNetは、少ないサンプ…
かくびーが東大の生物情報科学科の学生になったのは、大学二年生の八月末日、夏休み半ばのことだった。 別にもしドラ読んだことないのでこれ以上はやめておきます。 さて、発端は以下のツイートです。そういえば、もし今度越境する知性会議あれば"Stable Dif…