企業向け音声モデル「Stable Audio 2.5」、カスタマイズ可能な音を2秒で生成!
企業向けオーディオ生成モデル「Stable Audio 2.5」発表
原題: Stability AI Introduces Stable Audio 2.5, the First Audio Model Built for Enterprise Sound Production at Scale — Stability AI
重要度の根拠: 新しい企業向け音声生成モデルがリリースされ、多くの企業に影響を与える可能性がある。
要約
Stability AIは「Stable Audio 2.5」を発表しました。このモデルは、企業向けの高品質な音声生成を目的としており、カスタマイズ可能な音を迅速に生成できます。2秒以内の推論時間で最大3分のトラックを生成し、音楽の構造や感情に対する応答性も向上しています。企業はこの技術を使って、広告や店内音楽など多様な場面でブランドの音を強化することが可能です。
要点
- 企業向けの音声生成モデルを発表
- 2秒未満で3分のトラック生成
- 音のカスタマイズ機能を強化
- 音楽構造の改善で多様な表現が可能
- 商業的に安全なデータセットでトレーニング
開発者向け技術解説(API・実装詳細・破壊的変更)を見る
Stable Audio 2.5は企業向けに最適化された音声生成モデルで、Adversarial Relativistic-Contrastive (ARC)手法を用いています。GPU上での推論速度は2秒未満で、最大3分のトラックを生成可能。音のインペインティングをサポートし、ユーザーは自分の音声を入力してトラックを生成できる。商業的に安全で、完全ライセンスのデータセットでトレーニングされています。
媒体: Stability AI
※本記事は Anthropic / OpenAI / Google / Meta / Mistral / DeepSeek / Sakana 等各社の公開情報を基に AI (OpenAI GPT-4o-mini) が日本語で要約・分類した二次的著作物です。著作権法第32条の引用要件に基づき出典 URL を必ず併記しています。要約は AI 生成のため誤訳・誤解釈を含む可能性があります。詳細・正確な情報は必ず出典元の原文をご確認ください。