科大訊飛最新發布!打造下一代智能交互新范式

Chris Bergey:從云端到邊緣,Arm 推動端側 AI 規模化落地
2025 年,Arm 架構將占據超過 40% 的 PC 和平板整體出貨量和 50% 頭部超大規模云服務提供商算力。
在 2025 年臺北 COMPUTEX 展會前夕,Arm 高級副總裁兼終端事業部總經理 Chris Bergey 做了題為《從云端到邊緣:在 Arm 計算平臺上共筑 AI》的主題演講。
Chris Bergey 指出,人工智能正以前所未有的速度重塑科技,成為人們日常生活中不可或缺的一部分。Arm 計算平臺正處于這場變革的核心。基于 Arm 架構的芯片出貨量迄今已累計超過 3,100 億顆,廣泛應用于消費電子設備、AI 汽車以及 AI 優先的數據中心。AI 正從云端加速向邊緣終端滲透,Arm 正在推動端側 AI 規模化落地,通過三大核心優勢布局全域 AI 生態:
技術平臺:構建云端到邊緣的統一架構,支持 AI 負載無縫遷移。代號 Travis 的新一代 Armv9 旗艦 CPU 將實現兩位數 IPC 提升,并首次集成可伸縮矩陣擴展(SME),專為 AI 加速設計。
能效優先:AI 算力需求爆發式增長使「每瓦性能」成為關鍵指標。在數據中心,基于 Arm 技術的 Graviton 帶來了超過 40% 的能效提升。預計 Arm 架構將占據半數 2025 年出貨到頭部云服務提供商的算力。
生態協同:超 2200 萬人、也是全球最大的開發者生態,安裝量超過 80 億的軟件庫 Kleidi(一套面向 AI 框架開發者的計算內核,可以讓開發者能在各種設備上輕松獲得 Arm CPU 上的最佳性能)形成飛輪效應,覆蓋手機(2025年占PC/平板出貨40%+)、汽車、IoT等場景。Arm 目前擁有全球最大的開發者生態,匯聚了超過 2,200 萬名軟件開發者。去年推出了 Arm Kleidi 已累計超過 80 億次安裝。預估在 2025 年,Arm 架構將占據超過 40% 的 PC 與平板整體出貨量。開發者僅需一次開發,就能在整個半導體生態系統中眾多采用 Arm CPU 的 SoC 上運行。

Chris Bergey 不僅在主題演講中精彩呈現了這場快速發展的 AI 變革,還與兩家關鍵合作伙伴——聯發科技與 NVIDIA 的高層主管進行了深入對話。會后,Chris Bergey 還前往北京,與媒體記者做了一番交流,深圳灣也參與了這場交流活動。
以下是 Chris Bergey 的演講和交流內容精華,根據閱讀需要,略有整理和標注。
Chris Bergey:人工智能 (AI) 的發展無處不在,這正是我們所觀察到的趨勢。AI 將滲透到我們生活中的方方面面、滲透進眾多不同行業與經濟體。僅回顧過去一年中所發生的變化,其發展速度之快令人驚嘆。
正因如此,AI 模型正變得更加智能。并且它們的規模也在各個方面變得更小且能力更強。這是由于所需計算量的變化以及模型本身的演進,正在真正推動端側 AI 的發展。而且,這一趨勢已經遠遠超出了智能手機的范疇。

一年前經常會被問及的一個問題是:端側 AI 真的會實現嗎?現在已經基本沒有這樣的疑問了,因為我們正在親眼見證計算量的增長,以及在各個場景中部署 AI 所帶來的巨大機遇。
此外,我們還開始看到 AI 智能體的出現,以及由實體 AI 衍生的新機遇。具體而言,在 AI 智能體方面,已經出現了一些非常有趣的應用場景和非常成功的商業項目或初創公司。其中兩個頗受關注的領域是:第一,利用 AI 進行編程、代碼審查和修改;第二,利用 AI 提升客戶支持與客戶服務。在這兩個領域中,一些初創公司正迅速成長,在員工人數不到 100 人的情況下快速實現一億美元的營收。
顯然,實體 AI 也蘊藏著巨大的機會。我們已經看到機器人技術開始在多個領域得到應用,比如機器狗、配送機器人、掃地機器人等。這些設備在某種程度上已經實現了自主運行,但很難說它們已經達到了與人類操作相當的智能水平。不過,在接下來的一到三年內,我們很快就會迎來這樣的轉變:當這些設備處于自主模式運行時,其表現將能夠媲美人類操作。這將帶來巨大的發展機遇。
從構建 AI 系統的基礎要素來看,我們認為有三個關鍵因素:首先,從云端到邊緣打造一個無處不在的平臺將具有極大的價值。因為很多時候 AI 是在端側運行的,但在某些情況下,又希望能夠將工作負載轉移到云端。因此,擁有一個高度且可移植的平臺,對于推動先進技術及產品的實現,以及為現有產品增加新功能,都是非常有價值的。
第二個關鍵點是電力和每瓦性能。AI 催生了巨大的機遇,但同時也極為耗電。在數據中心,我們已經看到其能耗從兆瓦級 (MW) 躍升至吉瓦 (GW) 級,而其中超過 50% 實際上來自于機架和半導體設備。因此,在 AI 賦能的世界里,雖然存在巨大的發展潛力,但也需要海量的計算能力,這意味著「每瓦性能」可能是最關鍵的衡量指標。
雖然為 AI 構建硬件頗具挑戰性,但軟件同樣至關重要。Arm 目前擁有全球最大的開發者生態,匯聚了超過 2,200 萬名軟件開發者。與此同時,基于 Arm 架構的芯片出貨量迄今已累計超過 3,100 億顆。這種規模帶來了一個良性循環:大量的基于 Arm 技術的設備推動了豐富的 Arm 軟件生態,而強大的軟件生態又進一步催生了更多硬件的發展機會。


我們在去年推出了 Arm Kleidi,旨在提供一個 AI 軟件庫,能夠讓 AI 工作負載在最新的 Arm CPU——也就是 Armv9 架構上加速運行,同時也具備面向未來的可持續性。目前我們已經看到 Kleidi 在多個市場中得到了廣泛應用:迄今為止,Kleidi 已累計超過 80 億次安裝,且仍在持續增長中。Kleidi 也與許多全球主流的 AI 框架進行集成,包括國內的騰訊混元的 Angel 機器學習框架。

Arm 在終端設備和邊緣側的應用已為大家所熟知。與此同時,我們也一直強調在數據中心領域布局,并已在這個領域深耕十多年之久。因此,不僅僅是邊緣側的 AI 軟件運行在 Arm 架構之上,數據中心中的 AI 也將基于 Arm 架構運行。
譬如,全球最大的云服務提供商亞馬遜云科技 (AWS) 去年秋季就曾分享,他們有相當一部分自身的工作負載是運行在基于 Arm 架構的 AWS Graviton 處理器上。
而這不局限于 AWS 的內部工作負載。AWS 還曾分享,其超過 90% 的重要客戶(不包括 Amazon)也在使用 Arm 的先進架構,并受益于 Arm 技術的卓越能效。這些客戶都是業界耳熟能詳的企業。這意味著,過去兩年,AWS 新部署的 CPU 算力中,有超過 50% 是基于 Arm 技術的 Graviton。

最初,云服務提供商自身的第一方工作負載遷移至 Arm 平臺,隨后,第三方工作負載也紛紛轉向 Arm 平臺,這為頭部云服務提供商帶來了超過 40% 的能效提升 。基于這樣的發展勢頭,我們預計 Arm 架構將占據半數 2025 年出貨到頭部云服務提供商的算力。
回到邊緣側,Arm CPU 在該領域占據舉足輕重的地位,被廣泛應用于各種主流操作系統 (OS) 的邊緣計算設備中。得益于此,近年來,Arm 架構在 PC 與平板市場的需求也大幅增長,因此我們預估,在 2025 年,Arm 架構將占據超過 40% 的 PC 與平板整體出貨量。

回顧近期市場上推出的一系列平臺,這些平臺都是基于我們在去年此時發布的 IP 所打造的。其中有一個產品我想重點介紹一下,那就是 NVIDIA DGX Spark,它搭載了 10 個 Arm Cortex-X925 核心和 10 個 Cortex-A725 核心,并配備了可實現高達 1 PetaFLOPs(即每秒 10^15 次浮點運算) AI 性能的 GPU。這是一種將數據中心級別的計算能力帶到了桌面級產品。

作為 AI 領域的領導者,NVIDIA 不僅在邊緣側通過 Arm技術進行 AI 計算,同時也將其數據中心產品轉向 Arm 架構。比如在 Grace Blackwell 等產品中,NVIDIA 將基于 Arm 架構的 CPU 與 GPU 緊密耦合,針對 AI 所需的帶寬和 I/O 密度進行了深度優化,從而實現了更高效的計算性能。
在中國手機市場,Arm 正在為眾多的生態合作伙伴(如 MediaTek)提供最前沿的 CPU 和 GPU 技術,并且這些合作伙伴正與眾多一線手機廠商攜手,將搭載 Arm 技術的優秀手機產品推向市場。
而這些獲得高度認可的手機產品,均是基于我們一年前發布的計算平臺打造而成,其中包括 Arm Cortex-X925。我們曾強調,Cortex-X925 具備業內最高水平的 IPC 性能。這一點至關重要,因為 IPC(每時鐘周期指令數)與頻率的乘積決定了整個平臺的性能。相較于單純依賴提高頻率來提升性能,提升 IPC 可以更高效地實現性能的增強,同時還能顯著改善能耗表現。對于移動終端設備而言,控制功耗無疑是一個關鍵考量因素。

雖然我們今天不是要發布新產品,但我可以提前透露的是,我們將在今年晚些時候推出新的 Armv9 旗艦 CPU(代號Travis)。屆時,在目前業內 IPC 性能最高的 Arm 處理器基礎上,再次實現兩位數的 IPC 性能提升。

此外,這也將是第一代引入 Armv9 可伸縮矩陣擴展 (Scalable Matrix Extensions) 的處理器。該擴展功能是專門為加速 AI 工作負載而設計的,并將成為安卓生態系統中最先進的可伸縮矢量擴展實現。
Arm 在 GPU 方面也持續進行大量投入,并迅速被中國生態系統視為手機高性能 GPU 的領先提供商。今年我們還在此基礎上加入了 Arm 精銳超級分辨率技術 (ASR),使用戶能夠在移動設備上實現游戲主機級畫質和游戲體驗。
從云端到邊緣,Arm 正在處于一個非常令人振奮的發展時期。Arm 的生態系統合作伙伴亦是如此。尤其是那些基于 Arm 架構、將最先進產品推向市場的中國合作伙伴,他們正迎來一個激動人心的新時代。
我們相信 AI 的未來前景廣闊,而這個未來將由 Arm 及其合作伙伴共同打造,包括我們在中國市場的重要合作伙伴。
媒體問答
提問:AI 推理功能在今年會加快落地,目前已有手機廠商提出在手機中嵌入復雜的智能體。從智能手機的角度,這些更旺盛、復雜的端側 AI 推理需求會給 Arm 提出什么新挑戰?
Chris Bergey:AI 能力的確將持續提升。這對 Arm 而言意味著更大的機遇。當前的很多討論都集中在模型的構建和訓練上。但現實情況是,在構建好模型之后,推理才是實現 AI 商業價值的唯一方式。因為正是推理賦予了 AI 智能性,包括讓機器人做出正確決策,讓手機比預想得更智能。事實上,訓練當今世界上最大規模模型所需的計算量,大約是推理所需的10 的 11 次方倍。舉例來說,全球每天的網頁搜索次數大約是 10 的 10 次方。也就是說,需要把全球十天內的所有搜索量加起來,才能抵得上訓練一個這樣的模型所需的計算量。由此可以想象,我們需要運行多少推理,才能讓投入訓練的計算資源實現商業回報。
提問:近期有 140 美元以內價位且帶有 AI 功能的智能手機進入市場,Arm 如何看待將 AI 能力下沉到更低價的手機中,這對 Arm 來說會帶來什么新需求?
Chris Bergey:毋庸置疑,AI 會越來越多地應用到入門級產品中,主要原因如下:第一,AI 在 Arm CPU 和 GPU 上都能很好地運行,而這些硬件覆蓋了各個價格區間。第二,AI 將為這些用戶帶來巨大的價值。設想在新興市場,一部能運行大語言模型 (LLM) 的手機,將能讓從未接觸過專家指導的人群獲得教育機會。這將帶來巨大的經濟潛力,不僅有助于抵消本地部署 AI 的成本,還會激發用戶對更強大 AI 的需求。
提問:Arm 預計在 2025 年,出貨到頭部超大規模云服務提供商的算力中,有近 50% 是基于 Arm 架構,同時在 PC 與平板方面,預估在 2025 年將占整體出貨量的 40%。這一成績是否在 Arm 的預期之內?在這個過程中,相比目前的競爭對手(比如 x86),您認為 Arm 的哪些優勢推動了這一進程?
Chris Bergey:數據中心和 PC 此前是 Arm 架構普及程度相對較低的領域。x86 架構過去長期在數據中心占主導地位,如今我們預測在 2025 年,出貨到頭部超大規模云服務提供商的算力中,有近 50% 是基于 Arm 架構,這將是一個巨大的成就,我們對此深感自豪,這也確實讓行業感到驚訝。而推動這一增長的,正是云計算的發展,如今 AI 計算也成為強勁驅動力。

我們對在 PC 和平板領域這些過去由 x86 主導的市場所取得的進展也感到滿意。Arm 架構在 PC 與平板市場的需求大幅成長,預估在 2025 年將占整體出貨量的 40% 以上。而在智能手機、物聯網和汽車等其他市場,Arm 的普及程度顯然要高得多。Arm 的真正優勢在于我們在全球范圍內有超過 2,200 萬名的軟件開發者。幾乎所有重要的軟件開發不僅能在 Arm 架構上運行,而且都針對 Arm 架構進行了優化。再加上 Arm 架構本身的設計及商業模式,開發者僅需一次開發,就能在整個半導體生態系統中眾多采用 Arm CPU 的 SoC 上運行。
提問:關于剛才提到的近 50% 這一數據,是否其中絕大部分還是 NVIDIA Grace Hopper 或其下一代架構使用 Arm 的 CPU?
Chris Bergey:AWS 此前表示,在他們去年部署的 CPU 中,超過 50% 是基于 Arm 處理器的。此外,幾乎所有主要的云服務提供商都已經打造了基于 Arm 架構的自研芯片,這實際上是推動 Arm 出貨量快速增長的主要動力。
與此同時,數據中心的發展正逐步從通用計算向 AI 計算轉型,領先的 AI 平臺也正基于 Arm 架構優化,比如 NVIDIA Grace Blackwell 和Vera Rubin 以及許多云服務提供商的自研加速器。這些加速器無論是用于訓練還是推理,通常都會與 Arm 處理器配合使用,因為在芯粒層級,它們之間可以實現緊密耦合,從而帶來卓越的計算密度、I/O 密度和帶寬表現。
提問:在 COMPUTEX 上,NVIDIA 發布了 NVLink Fusion,這對 Arm 有何影響?另外,Arm 在 ASIC 芯片方面有什么計劃和進展?
Chris Bergey:我想強調的是,數據中心的未來將是 Arm 計算與加速器的緊密耦合。而這一趨勢在很大程度上是建立在 Arm 生態系統之上的。整個行業在不斷推動 Arm CPU 與加速器的緊密耦合,這正代表了未來的發展方向。
事實上,在今年的 COMPUTEX 演講中,我提及了 NVIDIA CEO 黃仁勛早在 2021 年的 GTC 大會上就已經提出的觀點——他指出,傳統的 x86 架構及其 I/O 設計并不適配 AI 計算,這也是他們轉向 Grace 架構的原因。這儼然成為一種趨勢——NVIDIA 及云服務提供商都在基于 Arm 架構運行 AI。
提問:當我們提到移動端 AI 時,更多談論的是 GPU 和 NPU,請您介紹一下 Arm 怎么看 CPU 在終端 AI 方面扮演的角色和作用?
Chris Bergey:我們通常以異構計算的角度去思考邊緣 AI 計算,這包括 CPU、GPU 和 NPU 之間的協同運作。目前 NPU 較受關注,主要因為它是新興技術,并且在每瓦特算力方面具有顯著優勢。但與此同時,NPU 在軟件開發生態和靈活性方面也面臨不小的挑戰。我們實際觀察到,開發者在進行 AI 開發時,會根據具體需求來決定是在 CPU、GPU 還是 NPU 上運行。大多數第三方應用實際上都是在 CPU 上進行 AI 開發的,其中有 70% 會始終運行在 CPU 上,而不會遷移到 GPU 或 NPU,當然也有不少應用借助 GPU 進行加速。
這一切都在不斷演進中,我們堅信異構計算是未來的發展方向,因為 AI 工作負載本身也在持續變化。我們之前也談到過對 AI 的預期,實現這些預期需要多種計算單元的協同。因此我們才會在 CPU 和 GPU 的研發上投入如此之多,確保它們在 AI 任務中具備強大的性能,包括在軟件層面 Kleidi 上的投入,以及現在在可伸縮矩陣擴展 (SME) 方面的推進。
提問:請問大模型部署在云、邊緣以及在手機移動終端上,對于硬件的要求有何不同?
Chris Bergey:對于大語言模型而言,有兩個關鍵考量。一方面是算力,另一方面是內存占用和內存帶寬。我認為這兩方面是云端與終端設備之間最大的區別之一,因為大語言模型對內存(特別是 DRAM)造成了很大壓力。
提問:有看到 Arm 和云服務提供商合作研發定制處理器,請問 Arm 會給芯片設計公司具體提供哪些支持來應對現在的 AI 計算新趨勢?
Chris Bergey:Arm 的大部分業務實際上是向整個行業提供標準化產品和平臺解決方案,比如標準化 IP 模塊,這些模塊被集成到各種不同的 SoC 中,應用于各個細分市場。正是通過這種方式,Arm 技術才能在半導體行業得以廣泛采用。
當前,隨著AI 的快速演進,芯片設計變得越來越具有技術挑戰性,成本也越來越高;產品的上市時間變得愈發關鍵,其重要性甚至與技術本身相當。此外,由于摩爾定律放緩,設計過程中對工藝的定制化需求也持續增長。這也是 Arm 推出計算子系統 (CSS) 的原因之一。通過 CSS,我們為從云端、汽車到終端等不同細分市場的合作伙伴提供計算子系統,幫助合作伙伴有效提升性能、降低成本,并加快產品上市周期。但 CSS 仍然是標準化產品,而非定制化業務。Arm 的主要業務仍然是提供標準化的平臺解決方案。
提問:之前我們看到 Arm 在 GPU 方面的進展更多是在端側,目前有計劃擴展到數據中心嗎?
Chris Bergey:目前,我們關注的重點是在邊緣側的 GPU,Arm 針對物聯網和終端市場中都有相應的 GPU 產品,我們在這方面投入了大量資源。同時,我們也在汽車領域的 GPU 進行了大量投入。但目前,我們尚未針對數據中心中的 GPU 進行投入的計劃。
提問:在端側 AI 中,如果要在降低功耗的同時更好地平衡算力和能效,需要在芯片設計方面做好哪些準備?
Chris Bergey:有以下幾個關鍵因素:第一是內存帶寬;第二是確保我們在平臺中集成的是最強大、最具靈活性的硬件。因為 AI 的發展速度非常快,從開始設計到產品上市往往需要一到兩年時間,而這期間 AI 模型可能已經發生了巨大變化。正因如此,CPU 和 GPU 有時反而能優于一些專用硬件加速器,因為它們在應對變化需求方面更具靈活性。所以,核心要素在于內存、內存帶寬,以及設計上的靈活性。第三個關鍵因素是軟件。AI 軟件開發非常具有挑戰性。比如,一些初創公司一開始可能是 50 名硬件工程師與 50 名軟件工程師一起開發 AI 加速器。十八個月后,硬件工程師人數依然是 50 人,但軟件工程師已經增長到了 300 人。如果沒有成熟的軟件及其生態系統,要跟上所有行業標準和各種 AI 框架,將會是一項非常繁重且具有挑戰性的工作。
附:Chris Bergey 簡介

△ Chris Bergey:Arm 高級副總裁兼終端事業部總經理
Chris Bergey 現為 Arm 高級副總裁兼終端事業部總經理,他負責帶領終端事業部定義計算平臺,為智能手機、元宇宙、游戲以及筆記本/平板電腦等市場塑造用戶體驗。此前,他曾負責 Arm 基礎設施事業部。
在加入 Arm 之前,Chris 在西部數據公司 (Western Digital) 擔任設備產品高級副總裁,負責該公司在數據中心、終端、移動、車用與 IoT 領域的硬盤與閃存等營收超 100 億美元的產品管理與產品市場營銷。
Chris 擁有美國德雷克塞爾大學 (Drexel University) 電子和計算機工程理學學士學位以及馬里蘭大學史密斯商學院的 MBA 學位。
編輯:曉月 / 深圳灣