OpenAI、AI新技術「ボイスエンジン」発表
2024.10.21(月)
OpenAIは3月31日、テキスト入力と15秒の音声サンプルから自然な音声を合成できる「ボイスエンジン」の概要を発表した。同社は2022年後半に開発したこの技術を、すでにテキスト読み上げAPIやChatGPTの音声アシスタントに応用している。
ただし、音声の不正利用リスクから慎重に対応するとしている。選挙年にあたり、人物の音声を無断で使うことによる悪影響が危惧されるためだ。
OpenAIは政府機関や教育・メディア関係者らと協議し、フィードバックを受けながら技術を磨いていく方針だ。テスト参加者には音声の無断使用を禁止するルールを課している。
さらに、音声の追跡と発信元の特定、著名人の音声利用禁止措置なども講じる。広範な合成音声技術の導入には、本人の許可を得て音声を登録する仕組みが不可欠とも指摘した。
OpenAIは「技術の可能性と課題を示すことで、社会に警鐘を鳴らしたい」と説明する。音声認証の見直しや、音声プライバシー保護のルール作り、AIリテラシー向上の必要性を訴えている。
ChatGPTの音声アシスタントとは?
OpenAIの音声アシスタントは、スマートフォンのマイクから音声を入力するだけでChatGPTと対話できる。旅行先の観光地を写真に撮ってChatGPTに見せれば、写っている場所の魅力を教えてくれたり、家の冷蔵庫の中身を撮影すれば、残り物でできるメニューをChatGPTが提案してくれる。
音声合成にはAI技術を駆使し、プロの声優の発声からリアルな人間の声を作り出しており、音声認識にはオープンソースの高性能エンジン「Whisper」を活用している。
画像入力にも対応し、故障した機器の写真をChatGPTに見せれば修理方法を教えてくれたり、グラフの解析もできる。困ったことがあれば、音声やカメラで直接質問できる新しいインターフェースだ。
【関連リンク】
・Navigating the Challenges and Opportunities of Synthetic Voices(OpenAI)
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices
関連記事
TEXT:PreBell編集部
PHOTO:iStock
-
GAS(Google Apps Script)とは?できること・使い方を徹底解説!
提供元:Prebell3/24(月) -
AIボイスレコーダー PLAUD NOTEとは?最新AI搭載で録音・文字起こし・要約を一台で実現
提供元:Prebell3/23(日) -
3Dプリンターで駅舎建設へ、JR西日本の試み
提供元:Prebell3/23(日) -
持ち運べる「もうひとつの画面」、ARグラス「XREAL One」の可能性
提供元:Prebell3/22(土) -
2D画像から奥行きのある3D動画を生成!Stability AIの新技術「Stable Virtual Camera」が登場
提供元:Prebell3/21(金)