全球雙榜SOTA！明略科技專有大模型 Mano開(kāi)啟GUI智能操作新時(shí)代

2025-10-06 18:27

北京2025年10月6日 /美通社/ -- 2025年，Agent無(wú)疑是AI圈的熱詞。行業(yè)普遍認(rèn)為：真正有用的Agent，必須學(xué)會(huì)使用手機(jī)和電腦，像人一樣操作GUI。

近日，中國(guó)企業(yè)級(jí)大模型與數(shù)據(jù)智能企業(yè)——明略科技推出的專有GUI大模型 Mano在行業(yè)公認(rèn)的Mind2Web和OSWorld兩大基準(zhǔn)測(cè)試中，均取得了創(chuàng)紀(jì)錄的SOTA成績(jī)。通過(guò)在線強(qiáng)化學(xué)習(xí)和訓(xùn)練數(shù)據(jù)自動(dòng)採(cǎi)集兩大核心創(chuàng)新，Mano為GUI智能體領(lǐng)域提供了一套可擴(kuò)展、可持續(xù)進(jìn)化的新範(fàn)式。

Mano在OSWorld-Verified榜單的Foundation E2E GUI & Specialized Model評(píng)測(cè)中取得SOTA。

榜單鏈接：https://os-world.github.io/
技術(shù)報(bào)告鏈接：https://www.mininglamp.com/news/6394/

關(guān)鍵突破：

1．Mind2Web：Mind2Web覆蓋137個(gè)網(wǎng)站、2350+真實(shí)任務(wù)，旨在考察智能體能否在複雜多變的DOM結(jié)構(gòu)裡精準(zhǔn)找到目標(biāo)元素，並完成整個(gè)操作鏈。Mano展示出「看得準(zhǔn)、做得成」的核心優(yōu)勢(shì)。

技術(shù)報(bào)告顯示，Mano的元素精度 (Ele.Acc）和步驟成功率（Step SR）指標(biāo)遙遙領(lǐng)先，在準(zhǔn)確識(shí)別、定位界面元素，以及成功執(zhí)行多步任務(wù)能力上達(dá)到新高度。Mano的操作F1 (Op.F1) 指標(biāo)與此前頂尖模型持平甚至略高，能夠真正將複雜任務(wù)轉(zhuǎn)化為成功的操作序列。

2. OSWorld-Verified：更難的挑戰(zhàn)來(lái)自桌面端。OSWorld-Verified涵蓋了369個(gè)跨應(yīng)用任務(wù)，覆蓋10類(lèi)應(yīng)用，包含瀏覽器，辦公軟件等多個(gè)類(lèi)型，每一個(gè)操作都和真實(shí)桌面場(chǎng)景無(wú)縫對(duì)接。

技術(shù)報(bào)告顯示，在OSWorld-Verified榜單的Foundation E2E GUI & Specialized Model 評(píng)測(cè)中，Mano直接把成功率提升到 41.6±0.7%，超過(guò)qwen、GUI-Owl、opencua等模型。

技術(shù)創(chuàng)新：

亮點(diǎn)一：首次提出「在線強(qiáng)化學(xué)習(xí)」

自DeepSeek橫空出世以來(lái)，GRPO已經(jīng)成為強(qiáng)化學(xué)習(xí)黃金範(fàn)式。現(xiàn)有的模型訓(xùn)練大多局限在離線強(qiáng)化學(xué)習(xí)的範(fàn)疇，深度依賴事先收集好的數(shù)據(jù)集。但在GUI交互智能體領(lǐng)域，任何操作都與真實(shí)的系統(tǒng)交互環(huán)境密切相關(guān)。

因此，Mano在GUI交互領(lǐng)域首次提出「在線強(qiáng)化學(xué)習(xí)」的訓(xùn)練範(fàn)式，並推出訓(xùn)練數(shù)據(jù)自動(dòng)採(cǎi)集的「探索器」，讓智能體時(shí)刻依賴最新數(shù)據(jù)進(jìn)行學(xué)習(xí)，並在「嘗試新的行動(dòng)以獲取信息」和「基於已有知識(shí)採(cǎi)取最優(yōu)行動(dòng)」之間取得平衡。

為了在真實(shí)的交互環(huán)境中不斷強(qiáng)化以提高適應(yīng)性和靈活性，明略科技建立了一個(gè)模擬環(huán)境池，包括瀏覽器環(huán)境（BUA）和桌面環(huán)境（CUA），讓模型在真實(shí)交互中採(cǎi)集更多樣化的環(huán)境數(shù)據(jù)，彌補(bǔ)了離線軌跡分佈稀疏的局限性，最終在多樣化的Web GUI場(chǎng)景中展現(xiàn)出更強(qiáng)的魯棒性。

同時(shí)，採(cǎi)用在線採(cǎi)樣 + 離線過(guò)濾的創(chuàng)新方式：先收集軌跡，再過(guò)濾噪聲數(shù)據(jù)，動(dòng)態(tài)調(diào)節(jié)任務(wù)難度分佈，有效避免了因失敗軌跡導(dǎo)致學(xué)習(xí)效率低下的問(wèn)題。

消融實(shí)驗(yàn)結(jié)果顯示，加入在線強(qiáng)化學(xué)習(xí)後，模型在OSWorld-Verified數(shù)據(jù)集的平均分?jǐn)?shù)產(chǎn)生了質(zhì)的飛躍，相比離線強(qiáng)化學(xué)習(xí)的模型結(jié)果提升了 7.9，達(dá)到 41.6。

亮點(diǎn)二：智能探索，採(cǎi)集真實(shí)環(huán)境軌跡

儘管大模型能夠理解籠統(tǒng)的指令，但在多步驟操作的目標(biāo)驅(qū)動(dòng)型任務(wù)中，往往無(wú)法將大目標(biāo)分解為具體的執(zhí)行步驟。因此，研發(fā)人員需要為交互任務(wù)構(gòu)建專用的模型和智能體。在這一過(guò)程中，海量的高質(zhì)量交互軌跡數(shù)據(jù)不可或缺。過(guò)去，這類(lèi)數(shù)據(jù)往往需要人工構(gòu)建或標(biāo)注，成本高、耗時(shí)長(zhǎng)。對(duì)此，明略科技設(shè)計(jì)了訓(xùn)練數(shù)據(jù)自動(dòng)採(cǎi)集的方法，從根本上提升了數(shù)據(jù)收集的效率和準(zhǔn)確性，這正是Mano的第二大創(chuàng)新。

明略科技搭建了一個(gè)可擴(kuò)展的虛擬環(huán)境集群，用於模擬多種交互場(chǎng)景。針對(duì)每個(gè)目標(biāo)應(yīng)用，大模型自動(dòng)生成目標(biāo)清單，並對(duì)目標(biāo)進(jìn)行優(yōu)先級(jí)排序，過(guò)濾掉使用頻率極低的功能，為後續(xù)探索提供明確的上下文指導(dǎo)。

元素提取方面，明略科技為網(wǎng)頁(yè)環(huán)境定制了Chrome插件「Mano-C」，全面提取網(wǎng)頁(yè)中的交互元素，捕捉其空間坐標(biāo)與語(yǔ)義屬性。針對(duì)桌面環(huán)境，技術(shù)團(tuán)隊(duì)則採(cǎi)用A11y Tree解析與 OmniParseV2協(xié)同過(guò)濾的方法，確保覆蓋更多交互元素。

數(shù)據(jù)標(biāo)注方面，明略科技利用大模型為每個(gè)提取的元素生成語(yǔ)義標(biāo)籤、功能描述，以及交互類(lèi)別，形成結(jié)構(gòu)化的語(yǔ)義對(duì)齊數(shù)據(jù)，為後續(xù)訓(xùn)練提供有效監(jiān)督。

為了提升數(shù)據(jù)採(cǎi)集的智能程度，技術(shù)團(tuán)隊(duì)設(shè)計(jì)了基於Prompt的探索模塊，用於智能選擇交互元素，並引入顯式約束，避免路徑循環(huán)和冗余分支。在探索過(guò)程中，採(cǎi)用深度優(yōu)先搜索（DFS）策略，系統(tǒng)會(huì)截取截圖並保存帶註釋的交互數(shù)據(jù)。完成探索後，通過(guò)軌跡評(píng)估機(jī)制，篩選出高質(zhì)量的交互序列。整個(gè)過(guò)程不斷循環(huán)，每一步都會(huì)檢查是否達(dá)到最大探索深度。

Mano的SOTA表現(xiàn)，得益於明略科技多年來(lái)在大模型領(lǐng)域的積累。2024年，明略科技的超圖多模態(tài)大語(yǔ)言模型（HMLLM）和Video-SME數(shù)據(jù)集在腦電圖、眼動(dòng)等非標(biāo)模態(tài)數(shù)據(jù)處理領(lǐng)域取得顯著突破，榮獲ACM MM 2024最佳論文提名。2025年，明略科技推出企業(yè)級(jí)商業(yè)數(shù)據(jù)分析可信智能體DeepMiner，Mano作為DeepMiner的自動(dòng)化執(zhí)行引擎，讓智能體真正學(xué)會(huì)了「看」與「點(diǎn)」，在複雜的軟件與瀏覽器環(huán)境下實(shí)現(xiàn)了精細(xì)化操作。展望未來(lái)，明略科技將進(jìn)一步優(yōu)化Mano在應(yīng)用和端側(cè)部署能力，加速企業(yè)智能化轉(zhuǎn)型進(jìn)程。

消息來(lái)源: 明略科技

精選視頻

數(shù)據(jù)顯示視頻、圖片等元素讓新聞稿點(diǎn)擊量提升77%

簡(jiǎn)體中文 |
English |
日本語(yǔ) |
??? |
Bahasa Indonesia |
Ti?ng Vi?t

進(jìn)階搜尋搜尋

新聞稿

會(huì)展

全球站點(diǎn)

產(chǎn)品與服務(wù)
新聞稿中心
知識(shí)庫(kù)
博客
多媒體新聞稿
聯(lián)繫我們

繁體中文知識(shí)庫(kù)正在建設(shè)中，請(qǐng)您選擇簡(jiǎn)體中文或英文版查看。

美國(guó)
巴西
加拿大
歐洲
法國(guó)
以色列
墨西哥
荷蘭
英國(guó)

黄色亚欧美网站_日韩AAA毛片_免费全黄A片免费播放_黄色av资源网

黄色亚欧美网站_日韩AAA毛片_免费全黄A片免费播放_黄色av资源网

黄色亚欧美网站_日韩AAA毛片_免费全黄A片免费播放_黄色av资源网_A片高清无码免费片_亚洲婷婷五月中文字幕_‘亚州黄色毛片

全球雙榜SOTA！明略科技專有大模型 Mano開(kāi)啟GUI智能操作新時(shí)代

精選視頻

相關(guān)關(guān)鍵詞:

最近新聞稿

電腦/電子最近新聞稿

新產(chǎn)品/新服務(wù) 最近新聞稿

大數(shù)據(jù) 最近新聞稿

人工智能最近新聞稿

黄色亚欧美网站_日韩AAA毛片_免费全黄A片免费播放_黄色av资源网

黄色亚欧美网站_日韩AAA毛片_免费全黄A片免费播放_黄色av资源网

黄色亚欧美网站_日韩AAA毛片_免费全黄A片免费播放_黄色av资源网_A片高清无码免费片_亚洲婷婷五月中文字幕_‘亚州黄色毛片

全球雙榜SOTA！明略科技專有大模型 Mano開(kāi)啟GUI智能操作新時(shí)代

精選視頻

相關(guān)關(guān)鍵詞:

最近新聞稿

電腦/電子 最近新聞稿

新產(chǎn)品/新服務(wù) 最近新聞稿

大數(shù)據(jù) 最近新聞稿

人工智能 最近新聞稿

電腦/電子最近新聞稿

人工智能最近新聞稿