微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V秒懂屏幕截图-科技今日热点

IT之家10月29日消息，科技媒体marktechpost于10月24日发布博文，报道称微软公司宣布开源OmniParser，是一款解析和识别屏幕上可交互图标的AI工具。

项目背景

传统的自动化方法通常依赖于解析HTML或视图层次结构，从而限制了其在非网络环境中的适用性。

而包括GPT-4V在内的现有的视觉语言模型（VLMs），并不擅长解读复杂GUI元素，导致动作定位不准确。

项目简介

微软为了克服这些障碍，推出了OmniParser，是一种纯视觉基础的工具，旨在填补当前屏幕解析技术中的空白。

该工具并不需要依赖额外的上下文数据，可以理解更复杂的图形用户界面（GUI），是智能GUI自动化领域的一项令人兴奋的进展。

OmniParser结合可交互区域检测模型、图标描述模型和OCR模块等，不需要HTML标签或视图层次结构等显式基础数据，能够在桌面、移动设备和网页等上跨平台工作，提高用户界面的解析准确性。

OmniParser除了识别屏幕上的元素，还能将这些元素转换成结构化的数据。

测试表现

OmniParser在多个基准测试中显示出优越的性能。例如，在ScreenSpot数据集中，其准确率提高了73%，显著超越依赖HTML解析的模型。

这一设计不仅能生成类似文档对象模型（DOM）的结构化表示，还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。

同时，GPT-4V在使用OmniParser输出后，图标的正确标记率从70.5%提升至93.8%。这些改进表明，OmniParser能够有效解决当前GUI交互模型的根本缺陷。

OmniParser的发布不仅拓宽了智能体的应用范围，也为开发者提供了一个强大的工具，助力创建更智能、更高效的用户界面驱动智能体。微软目前已在HuggingFace上发布OmniParser，普及这一前沿技术，将进一步推动多模态AI的发展，特别是在无障碍、自动化和智能用户辅助等领域。

	美国惊现“AI杀人案”，AI爱人“杀死”14岁男孩，生前对话曝光
	KD救命8分击碎太阳魔咒湖人三连胜止步都怪老詹？
	陈都灵直播时工作人员在一旁大吼，网友：还是想有情绪稳定的同事
	舅舅是知名演员，曾自曝被周冬雨劝酒，24岁的他深藏不露
	不装了！菲戈突爆嘲讽言论！皇马很意外，球迷：不给老东家面子
	陈都灵《大梦归离》《永夜星河》都好美，2年播11部剧霸屏翻身了
	活久见，播了一年还能杀入年榜，网友：花少6是花少5最好的宣发
	AI赋能轻办公，全新小米平板7系列售价1999元起
	传统水产养殖设备，如何做到“机智过人”？一文全读懂
	AI全面赋能人车家全生态小米澎湃OS 2正式发布

头条资讯网_今日热点_娱乐才是你关心的时事