Stability AIが新たに画像言語モデルをリリース
2024.9.13(金)

Stability AIは、商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースした。このモデルは、入力された画像を文字で説明するキャプショニング機能と画像に関する質問に答える能力を持っている。
ベースモデルは「Japanese Stable LM Gamma 7B」で、このモデルは商用ライセンスとして提供されている。さらに、このモデルは最新の手法「LLaVA-1.5」のモデル構造と学習手法を採用している。
また、Stability AIが開発した「タグ条件付きキャプショニング」という機能も含まれている。これは、出力キャプションで使いたい単語を入力できる機能である。
これらの機能の利用により、画像についてチャット形式で応答するチャットボットが利用可能となり、動画のフレームからのキャプション付けも可能となった。
社内評価によれば、この新モデルは最初のバージョン「Japanese InstructBLIP Alpha」と同等の性能を達成しており、その点で初期バージョンとは異なっていた。
継続事前学習による日本語能力の向上
ベースモデルである「Japanese Stable LM Gamma 7B」は、約70億パラメータを持ち、日本語タスクで最高水準の性能を発揮している。このモデルは、8月に公開された「Japanese Stable LM Alpha」シリーズとは異なり、継続事前学習というアプローチを採用している。
前モデル「Stable LM 3B-4E1T」などは、英語の能力が非常に高く、多くの知識を既に獲得していたが、日本語の能力はまだ低い状態だった。しかし、日本語のデータでさらに事前学習を行うことにより、日本語の能力を向上させることができた。
【関連リンク】
・Stability AI、画像にキャプションを付ける言語モデル 商用利用可能(Impress Watch)
https://www.watch.impress.co.jp/docs/news/1546438.html
TEXT:PreBell編集部
PHOTO:iStock
-

「クリムトのあの絵って、怖い意味があるんだよな」…絵画の背景を知ると、世界が変わって見える⁉文化や芸術、表現について思い巡らせた美術系チャンネル【暮らし、楽しむ、YouTube】
提供元:Prebell10/23(水) -

「一人暮らしに固定回線は高い」に決着!値段もスペックもちょうど良い回線があるらしい【勇者、Wi-Fiを知る】
提供元:Prebell10/23(水) -

”フィンテック”で収支改善ができる!?どういうことなのか、フィナンシャルプランナーに聞いてきた【月25000円の収支改善も】
提供元:Prebell10/23(水) -

ジョージ・オーウェルが警告した1984はどのような世界だった?
提供元:Prebell10/23(水) -

「コロナ太り!やせたい!」IoTの体重計や栄養管理アプリ、フィットネスゲームを動員してダイエット!【IoTでスマートな暮らし】
提供元:Prebell10/23(水)

