Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
7 changes: 7 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,6 +4,13 @@
<img src="imgs/logo.png" alt="Logo">
</p>

<p align="center">
[ <b>En</b> |
<a href="docs/README_CN.md">中</a> |
<a href="docs/README_FR.md">Fr</a> |
<a href="docs/README_JA.md">日</a> ]
</p>

[![arXiv](https://img.shields.io/badge/Paper-green)](https://arxiv.org/abs/2408.00203)
[![License](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)

Expand Down
85 changes: 85 additions & 0 deletions docs/README_CN.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,85 @@
# OmniParser: 纯视觉GUI代理的屏幕解析工具

<p align="center">
<img src="../imgs/logo.png" alt="Logo">
</p>

<p align="center">
[ <a href="../README.md">En</a> |
<b>中</b> |
<a href="README_FR.md">Fr</a> |
<a href="README_JA.md">日</a> ]
</p>

[![arXiv](https://img.shields.io/badge/Paper-green)](https://arxiv.org/abs/2408.00203)
[![License](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)

📢 [[项目页面](https://microsoft.github.io/OmniParser/)] [[V2博客文章](https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/)] [[V2模型](https://huggingface.co/microsoft/OmniParser-v2.0)] [[V1.5模型](https://huggingface.co/microsoft/OmniParser)] [[HuggingFace Space演示](https://huggingface.co/spaces/microsoft/OmniParser-v2)]

**OmniParser** 是一种将用户界面截图解析为结构化且易于理解的元素的综合方法,显著增强了GPT-4V生成与界面相应区域准确对应的操作的能力。

## 新闻
- [2025/3] 我们正在逐步添加多代理编排功能,并改进OmniTool的用户界面,以提供更好的体验。
- [2025/2] 我们发布了OmniParser V2 [检查点](https://huggingface.co/microsoft/OmniParser-v2.0)。[观看视频](https://1drv.ms/v/c/650b027c18d5a573/EWXbVESKWo9Buu6OYCwg06wBeoM97C6EOTG6RjvWLEN1Qg?e=alnHGC)
- [2025/2] 我们推出了OmniTool:使用OmniParser + 您选择的视觉模型控制Windows 11虚拟机。OmniTool支持以下大型语言模型 - OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。[观看视频](https://1drv.ms/v/c/650b027c18d5a573/EehZ7RzY69ZHn-MeQHrnnR4BCj3by-cLLpUVlxMjF4O65Q?e=8LxMgX)
- [2025/1] V2即将发布。我们在新的基准测试[Screen Spot Pro](https://github.com/likaixin2000/ScreenSpot-Pro-GUI-Grounding/tree/main)上取得了新的最先进结果,OmniParser v2达到了39.5%的准确率(即将发布)!阅读更多详情[此处](https://github.com/microsoft/OmniParser/tree/master/docs/Evaluation.md)。
- [2024/11] 我们发布了更新版本OmniParser V1.5,其特点包括:1) 更细粒度/小图标检测,2) 预测每个屏幕元素是否可交互。示例见demo.ipynb。
- [2024/10] OmniParser在huggingface模型中心成为#1热门模型(自2024年10月29日起)。
- [2024/10] 欢迎查看我们在[huggingface space](https://huggingface.co/spaces/microsoft/OmniParser)上的演示!(敬请期待OmniParser + Claude Computer Use)
- [2024/10] 交互区域检测模型和图标功能描述模型均已发布![Huggingface模型](https://huggingface.co/microsoft/OmniParser)
- [2024/09] OmniParser在[Windows Agent Arena](https://microsoft.github.io/WindowsAgentArena/)上取得了最佳表现!

## 安装
首先克隆仓库,然后安装环境:
```python
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
```

确保V2权重已下载到weights文件夹中(确保caption权重文件夹名为icon_caption_florence)。如果未下载,请使用以下命令下载:
```
# 将模型检查点下载到本地目录OmniParser/weights/
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
```

<!-- ## [已弃用]
然后下载模型ckpts文件:https://huggingface.co/microsoft/OmniParser,并将它们放在weights/下,默认文件夹结构为:weights/icon_detect, weights/icon_caption_florence, weights/icon_caption_blip2。

对于v1:
将safetensor转换为.pt文件。
```python
python weights/convert_safetensor_to_pt.py

对于v1.5:
从https://huggingface.co/microsoft/OmniParser/tree/main/icon_detect_v1_5下载'model_v1_5.pt',新建一个目录:weights/icon_detect_v1_5,并将其放入该文件夹中。无需进行权重转换。
``` -->

## 示例:
我们在demo.ipynb中整理了一些简单的示例。

## Gradio演示
要运行gradio演示,只需运行:
```python
python gradio_demo.py
```

## 模型权重许可证
对于huggingface模型中心上的模型检查点,请注意icon_detect模型遵循AGPL许可证,因为它是从原始yolo模型继承的许可证。而icon_caption_blip2和icon_caption_florence遵循MIT许可证。请参考每个模型文件夹中的LICENSE文件:https://huggingface.co/microsoft/OmniParser。

## 📚 引用
我们的技术报告可以在[这里](https://arxiv.org/abs/2408.00203)找到。
如果您觉得我们的工作有用,请考虑引用我们的工作:
```
@misc{lu2024omniparserpurevisionbased,
title={OmniParser for Pure Vision Based GUI Agent},
author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah},
year={2024},
eprint={2408.00203},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2408.00203},
}
```
85 changes: 85 additions & 0 deletions docs/README_FR.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,85 @@
# OmniParser : Outil d'analyse d'écran pour agent GUI basé uniquement sur la vision

<p align="center">
<img src="../imgs/logo.png" alt="Logo">
</p>

<p align="center">
[ <a href="../README.md">En</a> |
<a href="README_CN.md">中</a> |
<b>Fr</b> |
<a href="README_JA.md">日</a> ]
</p>

[![arXiv](https://img.shields.io/badge/Paper-green)](https://arxiv.org/abs/2408.00203)
[![License](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)

📢 [[Page du projet](https://microsoft.github.io/OmniParser/)] [[Article de blog V2](https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/)] [[Modèles V2](https://huggingface.co/microsoft/OmniParser-v2.0)] [[Modèles V1.5](https://huggingface.co/microsoft/OmniParser)] [[Démo HuggingFace Space](https://huggingface.co/spaces/microsoft/OmniParser-v2)]

**OmniParser** est une méthode complète pour analyser les captures d'écran d'interfaces utilisateur en éléments structurés et faciles à comprendre, ce qui améliore considérablement la capacité de GPT-4V à générer des actions pouvant être précisément ancrées dans les zones correspondantes de l'interface.

## Actualités
- [2025/3] Nous ajoutons progressivement une orchestration multi-agents et améliorons l'interface utilisateur dans OmniTool pour une meilleure expérience.
- [2025/2] Nous publions OmniParser V2 [checkpoints](https://huggingface.co/microsoft/OmniParser-v2.0). [Regarder la vidéo](https://1drv.ms/v/c/650b027c18d5a573/EWXbVESKWo9Buu6OYCwg06wBeoM97C6EOTG6RjvWLEN1Qg?e=alnHGC)
- [2025/2] Nous présentons OmniTool : Contrôlez une VM Windows 11 avec OmniParser + votre modèle de vision choisi. OmniTool prend en charge nativement les modèles de langage suivants - OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) ou Anthropic Computer Use. [Regarder la vidéo](https://1drv.ms/v/c/650b027c18d5a573/EehZ7RzY69ZHn-MeQHrnnR4BCj3by-cLLpUVlxMjF4O65Q?e=8LxMgX)
- [2025/1] V2 arrive. Nous atteignons de nouveaux résultats de pointe avec 39.5% sur le nouveau benchmark d'ancrage [Screen Spot Pro](https://github.com/likaixin2000/ScreenSpot-Pro-GUI-Grounding/tree/main) avec OmniParser v2 (sera bientôt publié) ! Lisez plus de détails [ici](https://github.com/microsoft/OmniParser/tree/master/docs/Evaluation.md).
- [2024/11] Nous publions une version mise à jour, OmniParser V1.5, qui propose 1) une détection plus fine des petites icônes, 2) la prédiction de l'interactivité de chaque élément d'écran. Des exemples sont disponibles dans le fichier demo.ipynb.
- [2024/10] OmniParser était le modèle #1 tendance sur le hub de modèles HuggingFace (à partir du 29/10/2024).
- [2024/10] N'hésitez pas à consulter notre démo sur [HuggingFace Space](https://huggingface.co/spaces/microsoft/OmniParser) ! (restez à l'écoute pour OmniParser + Claude Computer Use)
- [2024/10] Les modèles de détection de région interactive et de description fonctionnelle des icônes sont publiés ! [Modèles HuggingFace](https://huggingface.co/microsoft/OmniParser)
- [2024/09] OmniParser obtient les meilleures performances sur [Windows Agent Arena](https://microsoft.github.io/WindowsAgentArena/) !

## Installation
Commencez par cloner le dépôt, puis installez l'environnement :
```python
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
```

Assurez-vous d'avoir les poids V2 téléchargés dans le dossier weights (assurez-vous que le dossier des poids de légende s'appelle icon_caption_florence). Sinon, téléchargez-les avec :
```
# téléchargez les checkpoints du modèle dans le répertoire local OmniParser/weights/
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
```

<!-- ## [déprécié]
Ensuite, téléchargez les fichiers de checkpoints du modèle sur : https://huggingface.co/microsoft/OmniParser, et placez-les sous weights/, la structure de dossier par défaut est : weights/icon_detect, weights/icon_caption_florence, weights/icon_caption_blip2.

Pour v1 :
convertissez le safetensor en fichier .pt.
```python
python weights/convert_safetensor_to_pt.py

Pour v1.5 :
téléchargez 'model_v1_5.pt' depuis https://huggingface.co/microsoft/OmniParser/tree/main/icon_detect_v1_5, créez un nouveau dossier : weights/icon_detect_v1_5, et placez-le dans ce dossier. Aucune conversion de poids n'est nécessaire.
``` -->

## Exemples :
Nous avons rassemblé quelques exemples simples dans le fichier demo.ipynb.

## Démo Gradio
Pour exécuter la démo Gradio, exécutez simplement :
```python
python gradio_demo.py
```

## Licence des poids du modèle
Pour les checkpoints de modèle sur le hub de modèles HuggingFace, veuillez noter que le modèle icon_detect est sous licence AGPL car il hérite de la licence du modèle yolo original. Et icon_caption_blip2 & icon_caption_florence sont sous licence MIT. Veuillez vous référer au fichier LICENSE dans le dossier de chaque modèle : https://huggingface.co/microsoft/OmniParser.

## 📚 Citation
Notre rapport technique peut être trouvé [ici](https://arxiv.org/abs/2408.00203).
Si vous trouvez notre travail utile, veuillez envisager de citer notre travail :
```
@misc{lu2024omniparserpurevisionbased,
title={OmniParser for Pure Vision Based GUI Agent},
author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah},
year={2024},
eprint={2408.00203},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2408.00203},
}
```
85 changes: 85 additions & 0 deletions docs/README_JA.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,85 @@
# OmniParser: 純粋な視覚ベースのGUIエージェントのためのスクリーンパーシングツール

<p align="center">
<img src="../imgs/logo.png" alt="ロゴ">
</p>

<p align="center">
[ <a href="../README.md">En</a> |
<a href="README_CN.md">中</a> |
<a href="README_FR.md">Fr</a> |
<b>日</b> ]
</p>

[![arXiv](https://img.shields.io/badge/Paper-green)](https://arxiv.org/abs/2408.00203)
[![License](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)

📢 [[プロジェクトページ](https://microsoft.github.io/OmniParser/)] [[V2ブログ記事](https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/)] [[モデルV2](https://huggingface.co/microsoft/OmniParser-v2.0)] [[モデルV1.5](https://huggingface.co/microsoft/OmniParser)] [[HuggingFace Spaceデモ](https://huggingface.co/spaces/microsoft/OmniParser-v2)]

**OmniParser**は、ユーザーインターフェースのスクリーンショットを構造化され理解しやすい要素に解析する包括的な方法で、GPT-4Vがインターフェースの対応する領域に正確に基づいたアクションを生成する能力を大幅に向上させます。

## ニュース
- [2025/3] OmniToolにマルチエージェントのオーケストレーションを追加し、ユーザーインターフェースを改善してより良い体験を提供しています。
- [2025/2] OmniParser V2の[チェックポイント](https://huggingface.co/microsoft/OmniParser-v2.0)をリリースしました。[動画を見る](https://1drv.ms/v/c/650b027c18d5a573/EWXbVESKWo9Buu6OYCwg06wBeoM97C6EOTG6RjvWLEN1Qg?e=alnHGC)
- [2025/2] OmniToolを紹介します:OmniParser + 選択した視覚モデルでWindows 11 VMを制御します。OmniToolは以下の大規模言語モデルをサポートしています - OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) または Anthropic Computer Use。[動画を見る](https://1drv.ms/v/c/650b027c18d5a573/EehZ7RzY69ZHn-MeQHrnnR4BCj3by-cLLpUVlxMjF4O65Q?e=8LxMgX)
- [2025/1] V2が登場します。新しいグラウンディングベンチマーク[Screen Spot Pro](https://github.com/likaixin2000/ScreenSpot-Pro-GUI-Grounding/tree/main)で39.5%の新しい最先端の結果を達成しました(近日リリース予定)!詳細は[こちら](https://github.com/microsoft/OmniParser/tree/master/docs/Evaluation.md)をご覧ください。
- [2024/11] 更新版OmniParser V1.5をリリースしました。1) より細かい/小さなアイコン検出、2) 各画面要素が操作可能かどうかの予測が特徴です。デモ.ipynbに例があります。
- [2024/10] OmniParserはhuggingfaceモデルハブで#1トレンドモデルになりました(2024/10/29開始)。
- [2024/10] [huggingface space](https://huggingface.co/spaces/microsoft/OmniParser)でデモをチェックしてください!(OmniParser + Claude Computer Useにご期待ください)
- [2024/10] インタラクティブ領域検出モデルとアイコン機能説明モデルの両方がリリースされました![Hugginfaceモデル](https://huggingface.co/microsoft/OmniParser)
- [2024/09] OmniParserが[Windows Agent Arena](https://microsoft.github.io/WindowsAgentArena/)で最高のパフォーマンスを達成しました!

## インストール
まずリポジトリをクローンし、環境をインストールします:
```python
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
```

V2の重みがweightsフォルダにダウンロードされていることを確認してください(caption weightsフォルダがicon_caption_florenceと呼ばれていることを確認してください)。ダウンロードされていない場合は、以下でダウンロードします:
```
# モデルチェックポイントをローカルディレクトリOmniParser/weights/にダウンロードします
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
```

<!-- ## [非推奨]
次に、モデルのckptsファイルを以下からダウンロードし、weights/の下に配置します。デフォルトのフォルダ構造は:weights/icon_detect, weights/icon_caption_florence, weights/icon_caption_blip2です。

v1の場合:
safetensorを.ptファイルに変換します。
```python
python weights/convert_safetensor_to_pt.py

v1.5の場合:
https://huggingface.co/microsoft/OmniParser/tree/main/icon_detect_v1_5から'model_v1_5.pt'をダウンロードし、新しいディレクトリweights/icon_detect_v1_5を作成し、そのフォルダ内に配置します。重みの変換は必要ありません。
``` -->

## 例:
demo.ipynbにいくつかの簡単な例をまとめました。

## Gradioデモ
Gradioデモを実行するには、以下のコマンドを実行します:
```python
python gradio_demo.py
```

## モデル重みのライセンス
huggingfaceモデルハブのモデルチェックポイントについては、icon_detectモデルは元のyoloモデルから継承されたライセンスであるためAGPLライセンスの下にあります。icon_caption_blip2とicon_caption_florenceはMITライセンスの下にあります。各モデルのフォルダ内のLICENSEファイルを参照してください:https://huggingface.co/microsoft/OmniParser。

## 📚 引用
技術レポートは[こちら](https://arxiv.org/abs/2408.00203)でご覧いただけます。
私たちの仕事が役に立った場合は、以下のように引用してください:
```
@misc{lu2024omniparserpurevisionbased,
title={OmniParser for Pure Vision Based GUI Agent},
author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah},
year={2024},
eprint={2408.00203},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2408.00203},
}
```