close

為每首歌生成逼真舞蹈—編舞人工智慧的下個階段(中)

人工智慧編舞一把罩:FACT 模型

Google 使用上述的 AIST 資料庫,訓練 FACT 模型從音樂生成 3D 舞蹈。該模型先使用動作轉換器與音頻轉換器,分別對一段音樂與一個短的(2 秒)種子動作(seed motion)進行編碼。之後再將嵌入碼連接、發送到跨模型轉換器,該轉換器學習兩種模型之間的對應關係,並生成 N 個未來的動作序列。 然後使用這些序列以自我監督的方式訓練模型。在測試時,Google 將此模型用於自回歸框架,其中所預測的動作則作為下一個生成步驟的輸入。因此,FACT 模型能夠一個框架接著一個框架地,生成長時間的舞蹈動作。

FACT 網絡接收音樂片段 (Y) 和 2 秒的種子運動序列 (X),然後生成與輸入音樂相關的長期未來動作。|圖片出處:Google AI Blog

Google 用三指標評估 FACT 的性能

Google 依據以下所述之三個指標,評估人工智慧 FACT 的性能: 動作品質:我們計算 AIST++ 資料庫中的「真實舞蹈動作序列」與 40 個「模型生成的動作序列」之間的 Frechet 起始距離(FID),每個序列具有 1200 幀鏡頭(20 秒)。我們將基於幾何和動力學特徵的 FID 分別表示為 FIDg 和 FIDk。 生成多樣性:與之前的工作(指深度慣性姿勢捕捉」:從少許的慣性量測中學習而重建人體姿勢)類似:Google 從 AIST++ 測試集中的 40 個「模型生成動作特徵空間」中,計算平均歐氏距離,用以評估模型生成各式舞蹈動作的能力。,接著再比較幾何特徵空間 (Dist g ) 和動力學特徵空間 (Dist k )。

Google 使用不同的音樂,來生成四個不同的編舞版本:Break、Ballet Jazz、Krump 和 Middle Hip-hop(右),但有兩秒是相同的 Hip-hop 舞蹈動作(左),這些相同的動作被稱為「種子動作」。|圖片出處:Google AI Blog

運動-音樂相關:由於沒有合適的指標來衡量輸入音樂(音樂節拍)與所生成的 3D 動作(動作節拍)之間的相關性。所以 Google 提出了一種新的「節拍對齊分數 (BeatAlign)」作為指標。

上圖中顯示 FACT 所生成的舞蹈動作的動作速率(藍色曲線)、動作節拍(綠色虛線),及音樂節拍(橙色虛線)。通過從動作速率曲線中找到局部最小值,來提升動作節拍。|圖片出處:Google AI Blog
arrow
arrow
    創作者介紹
    創作者 布萊恩的創業小窩 的頭像
    布萊恩的創業小窩

    布萊恩的創業小窩的部落格

    布萊恩的創業小窩 發表在 痞客邦 留言(0) 人氣()