投稿者 スレッド: 画像認識可能になったminiGPT-4を試してみました  (参照数 61 回)

admin

  • Administrator
  • Hero Member
  • *****
  • 投稿: 58999
    • プロフィールを見る
画像認識可能になったminiGPT-4を試してみました
« 投稿日:: 4月 21, 2023, 04:36:35 pm »
画像認識可能になったminiGPT-4を試してみました - つみかさね
https://3yokohama.hatenablog.jp/entry/2023/04/21/110055

miniGPT-4画像を分析して評価することが出来る言語エンジンが出てきた。公
開されたばかりでサイトはかなり混んでいる。一枚の画像をアップするのに12
分位掛かった。順番待ちが100人位だった。待つだけで12分の大半、処理は直
ぐやっているようです。そして質問、コメント等を入れてエンターしからまた
同じ位待つ。初めて試すので、じっくり待つことにしました。実際の運用では
もっと速くなるとは思いますが、ちょっと待たせすぎる。今はデモサイトが9
個位作られている。一番を選んだから遅くなったのか?後で試してみることに
する。

動画の説明に寄れば、枯れた葉の写真を見せると、葉の病気の可能性を示して、
対処方法も指示してくれるらしい。また料理の写真を見せると、料理の名前、
そして作り方のレシピも出してくれるようです。いろいろ試したいが今のとこ
ろ少し重すぎるのが欠点ですね。順番待ちのカウンタ、経過時間を示すカウン
タが並んでいます。一応の目安の時間、順番がわかります。これでイライラせ
ずに待てるでしょう。

キング・アブドゥッラー科学技術大学のminiGPT-4のタイトルは「高度な大規
模言語モデルによる視覚言語理解の強化」という論文と共にデモサイトなどが
紹介されています。

ChatGPT匹敵する精度とされるチャットAI「Vicuna-13B」と、画像にキャプシ
ョンを付けられる「BLIP-2」を組み合わせることで、アップロードした画像に
ついてAIと会話できるようにした「Minigpt-4」が、公開されました。

 サウジアラビアのキング・アブドゥッラー科学技術大学に所属する研究者ら
が発表した論文「MiniGPT-4: Enhancing Vision-language Understanding wit
h Advanced Large Language Models」は、画像の視覚的特徴を捉えて大規模言
語モデル(LLM)で高品質な言語出力を行うシステムを提案した研究報告であ
る。ユーザーは、画像1枚と何をして欲しいかの文章をセットに入力すると、
画像に応じたテキスト回答が得られる。

動画生成AIで作成した猫の写真をアップロードして問いかけをしてみました。
都合20分で答えが出てきました。

問い
この写真は何を示していますか?
答え
この画像は、キッチン カウンターの前の床に座っている 3 匹の白黒の猫を示
しています。 猫たちはカウンターの上の何かを見ていて、そのうちの 1 匹が
足を伸ばしてそれに触れています。 猫は手入れが行き届いており、手入れが
行き届いているようです。 画像の焦点が合っており、照明が明るく、クリア
で明るいシーンが作成されます。 猫は均整が取れており、画像はよく構成さ
れています。
ChatGpt本家でもこの画像認識を盛り込む話は当初からあったのでどんなもの
が出てくるか楽しみですね。少なくとももっともっと応答が速くないと使い物
にならないですね。今回のデモで概略が判ってきました。

Minigpt-4
https://minigpt-4.github.io/
画像をテーマにAIとおしゃべりできる「Minigpt-4」が登場
https://gigazine.net/news/20230418-minigpt-4/
“画像の面白さ”を解説できるAI「MiniGPT-4」デモサイトも公開中
https://www.itmedia.co.jp/news/articles/2304/20/news069.html
MiniGPT-4 - a Hugging Face Space by Vision-CAIR
https://huggingface.co/spaces/Vision-CAIR/minigpt4

【ついにAIが画像認識可能に!】最先端のMiniGPT-4が凄すぎる! - YouTube
https://www.youtube.com/watch?v=PDFgDGFkrhI