為每首歌生成逼真舞蹈—編舞人工智慧的下個階段（中）－布萊恩的創業小窩的部落格

為每首歌生成逼真舞蹈—編舞人工智慧的下個階段（中）

人工智慧編舞一把罩：FACT 模型

Google 使用上述的 AIST 資料庫，訓練 FACT 模型從音樂生成 3D 舞蹈。該模型先使用動作轉換器與音頻轉換器，分別對一段音樂與一個短的（2 秒）種子動作（seed motion）進行編碼。之後再將嵌入碼連接、發送到跨模型轉換器，該轉換器學習兩種模型之間的對應關係，並生成 N 個未來的動作序列。然後使用這些序列以自我監督的方式訓練模型。在測試時，Google 將此模型用於自回歸框架，其中所預測的動作則作為下一個生成步驟的輸入。因此，FACT 模型能夠一個框架接著一個框架地，生成長時間的舞蹈動作。

FACT 網絡接收音樂片段 (Y) 和 2 秒的種子運動序列 (X)，然後生成與輸入音樂相關的長期未來動作。|圖片出處：Google AI Blog

Google 用三指標評估 FACT 的性能

Google 依據以下所述之三個指標，評估人工智慧 FACT 的性能：動作品質：我們計算 AIST++ 資料庫中的「真實舞蹈動作序列」與 40 個「模型生成的動作序列」之間的 Frechet 起始距離（FID），每個序列具有 1200 幀鏡頭（20 秒）。我們將基於幾何和動力學特徵的 FID 分別表示為 FIDg 和 FIDk。生成多樣性：與之前的工作（指「深度慣性姿勢捕捉」：從少許的慣性量測中學習而重建人體姿勢）類似：Google 從 AIST++ 測試集中的 40 個「模型生成動作特徵空間」中，計算平均歐氏距離，用以評估模型生成各式舞蹈動作的能力。，接著再比較幾何特徵空間 (Dist g ) 和動力學特徵空間 (Dist k )。