daVinci-MagiHuman – 無料オンラインAIトーキングヘッド動画ジェネレーター

ポートレートと台本または音声から、daVinci-MagiHumanで音声と映像を一体生成したリップシンク動画を作成できます。

このdavinci-magihumanガイドは、スタジオと同じdaVinci-MagiHumanスタック(オープンウェイト、Apache 2.0、音声と映像の単一モデル)を紹介します。ブックマークしてdaVinci-MagiHumanの機能をすぐ確認できます。

daVinci-MagiHumanとは?

オープンモデルと研究パートナー

daVinci-MagiHumanは、Sand.aiと上海交通大学GAIR LabがApache 2.0で公開した150億パラメータのオープンソースAIモデルです。ウェイトの検査、ローカル推論、ライセンス範囲内の商用利用が可能です。

音声・映像の統一生成

daVinci-MagiHumanはポートレートとテキストまたは音声を入力し、一致した音声付きトーキングヘッド動画を出力します。単一ストリームTransformerが、別々のTTS+ビデオではなく、映像と音声を同時にデノイズします。

速度・品質・ベンチマーク

NVIDIA H100では、daVinci-MagiHumanは約2秒で約2秒分の256p短いクリップを生成できる場合があります(設定とハード依存)。公開評価ではWERが低く、人間評価でも複数のベースラインを上回ります。

主な機能

オーディオ・ビデオアバターにdaVinci-MagiHumanを評価する6つの理由 — davinci-magihumanで検索しても記事経由でも、同じdaVinci-MagiHumanの利点が当てはまります。

音声+映像の統一

daVinci-MagiHumanは1パスで両モダリティを生成 — TTSと後からのビデオ合成は不要です。

参照写真

daVinci-MagiHumanは単一のポートレートをトーキングヘッドの視覚アンカーとして使用します。

多言語

daVinci-MagiHumanは複数言語のリップシンクをサポート(学習データとリリースノートに依存)。

オープンソース

Apache 2.0 — daVinci-MagiHumanのウェイトはライセンスの範囲で商用利用・拡張が可能です。

高速推論

daVinci-MagiHuman:H100クラスGPUで256p・約2秒分を約2秒(参考値)。

最先端品質

公開評価でdaVinci-MagiHumanはWERと人間選好でOvi 1.1やLTX 2.3に強い結果を示します。

daVinci-MagiHumanの比較

参考用の要約です。数値はベンチマークとプロンプトで変動します。daVinci-MagiHumanはWER約14.6%と報告され、Ovi 1.1の約40.5%より低く、人間評価でもOviやLTX 2.3に大きく勝っています。

WERと発話の明瞭さ

WERが低いほどdaVinci-MagiHumanの発話は一般的に明瞭です。表はdaVinci-MagiHumanがオープンベースラインとなる類似プロトコルでの範囲を比較しています。

人間の選好

並べ替え評価では、自然さと整合性で選ばれた出力が示されます — クローズドモデルに対してもdaVinci-MagiHumanが勝つ場合があります。

ライセンスとレイテンシ

オープンApache 2.0ウェイトによりdaVinci-MagiHumanを自前ホスト可能。プロプライエタリはクローズド。GPUと解像度で各daVinci-MagiHumanジョブの時間は異なります。

モデルWER(↓)人間選好ライセンス速度(目安)
daVinci-MagiHuman約14.6%Ovi 1.1に対し約80%;LTX 2.3にも強いApache 2.01×H100で256p・約2秒分を約2秒(記載値)
Ovi 1.1約40.5%公開比較でdaVinciより低いプロプライエタリAPI/デプロイにより異なる
LTX 2.3同表でより高いWER(変動)人間評価でdaVinciに大きく劣るプロプライエタリ解像度とスタックにより異なる

daVinci-MagiHumanの使い方

ポートレートと台本の準備

  1. ポートレートをアップロード — 正面のはっきりした顔が望ましい。
  2. 台本を入力するか音声ファイルをアップロード — モデルが発話に合わせてリップを同期。

解像度を選び生成

  1. 出力解像度を選択 — 例:256p、720p、1080p(推論スタックとVRAMによる)。
  2. ジョブ完了後にトーキングヘッド動画をダウンロード。

セルフホストとHugging Face Hub

ローカルまたはサーバーで実行する場合は、HubからdaVinci-MagiHumanのチェックポイントを取得し、READMEに従ってCLIと環境を設定してください。davinci-magihumanのURLとdaVinci-MagiHumanリポジトリはリリースで更新されます。

例(Python / Hugging Face)

# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download

repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.

よくある質問

daVinci-MagiHumanに関する12のよくある質問 — デフォルトはオープンな回答です。davinci-magihuman検索とdaVinci-MagiHuman名向けに整理。

daVinci-MagiHumanとは?

daVinci-MagiHumanは、Sand.aiとGAIR Lab(上海交大)の150億パラメータの音声・映像モデルで、ポートレートとテキストまたは音声をリップシンクトーク動画に変換します。

daVinci-MagiHumanは無料?

オープンなdaVinci-MagiHumanのウェイトとコードはApache 2.0です。ホストされたデモは別条件の場合があります。セルフホストはライセンスに従います。

入力は何が必要?

daVinci-MagiHumanは通常、顔画像とテキストまたは音声ドライバーが必要です。形式と上限は推論READMEを参照。

SoraやVeoとの違いは?

それらは汎用動画システムです。daVinci-MagiHumanはオープンウェイトの音声・映像トーキングヘッド生成に特化しています。

商用利用は?

Apache 2.0は条件付きでdaVinci-MagiHumanの商用利用を許可します。生成コンテンツの配布時は義務を確認してください。

ダウンロードや試用はどこで?

このページのモデルカードとリンクされたHugging Face Spaceを使用するか、GitHubからdaVinci-MagiHumanのスクリプトとチェックポイントをクローン。

リップシンクはどの言語?

daVinci-MagiHumanの言語カバレッジはモデルとデータに依存;READMEの言語一覧を参照。

どのGPUやハード?

daVinci-MagiHumanのスループットはGPUクラスと解像度に依存;短いクリップではH100クラスGPUが引用されています。弱いGPUは解像度や蒸留を下げる場合があります。

ポートレートのコツは?

daVinci-MagiHumanでは:正面の鮮明な写真、均一な照明、中立または表現豊かな顔。強い遮蔽・極端な角度・低解像度は避ける。

テキストではなくクリーンな音声?

推論パスが音声条件付けをサポートすれば可能;形式と長さはドキュメント参照。

生成物のライセンスは?

daVinci-MagiHumanのウェイトはApache 2.0;生成コンテンツは利用、入力の権利、適用法の対象です。

バグ報告や機能要望は?

GitHubリポジトリGAIR-NLP/daVinci-MagiHumanのIssueで、ログ、ハード、再現手順を添えて。

AIでトーキングヘッド動画を作成

公開Spaceで試す、Hugging FaceでdaVinci-MagiHumanのウェイトを取得する、またはGitHubでオープンソースのdaVinci-MagiHumanをクローン。いずれも同じdavinci-magihuman/daVinci-MagiHumanフローです。

ブラウザのSpace

インストール不要でdaVinci-MagiHumanをすぐ試せるホストデモ。

Hugging Faceのウェイト

daVinci-MagiHumanのチェックポイントをダウンロードし、モデルカードで形式・バリアント・ライセンスを確認。

GitHubのソース

daVinci-MagiHumanの推論スクリプトをクローンし、Issueを開き、リリースを追跡。