0
| 本文作者: 周蕾 | 2025-09-08 10:51 |
5:30 A.M.
天空已露出魚肚白,但從事水產(chǎn)養(yǎng)殖的農(nóng)戶最怕在這個時候看見“魚肚白”:經(jīng)過一整夜的消耗,魚塘中的氧含量已降至全天最低,等五六點鐘養(yǎng)殖戶起身巡塘時,極有可能發(fā)生“翻塘”現(xiàn)象。
中易物聯(lián)的工作重心之一,就是在魚塘內(nèi)布放水質(zhì)傳感器采集水質(zhì)數(shù)據(jù),實時告警提醒養(yǎng)殖戶。物聯(lián)網(wǎng)系統(tǒng)的24小時穩(wěn)定在線,對于降低翻塘概率有不小幫助。
7:30 A.M.
上班高峰期到來,許多人步履匆匆,涌入街角的利客便利店購買早餐。一杯豆?jié){、一個包子的下單,背后是訂單同步、會員積分抵扣等一系列操作,近千家門店的數(shù)據(jù)片刻間洶涌而至,這也是對利客便利店后臺系統(tǒng)的集中考驗。
10:30 A.M.
菲尼基的換電系統(tǒng)即將進入流量高峰期——數(shù)以千萬計的外賣騎手整裝待發(fā),他們會借助換電柜換上新電池,再開啟新一天的送餐工作。技術人員會緊盯換電系統(tǒng)的狀態(tài),視流量洪峰的情況來決定是否臨時擴容。
6:30 P.M.
放學后的中小學生開始攻克家庭作業(yè)和今日新學的知識點。數(shù)萬人同時在線呼叫AI家教“寒雪老師”,進入一對一“名師”輔學模式。智能精準學的技術人員需要確保“寒雪老師”和每位學生每一次的提問、追問、講解100%精準流暢,幫助學生省出更多“操場時間”。
這些看似瑣碎平凡的日常場景,背后是無數(shù)中小企業(yè)在服務器與代碼間的堅守。企業(yè)期盼的,是鄉(xiāng)村中的魚塘又度過了平靜的一夜,是便利店“支付成功”的聲音安心地響起,是外賣騎手換電的等待時長又節(jié)省了一秒,是學生聽到AI家教流暢的一句應答。
中小企業(yè)的成長,大致可分為三個階段:初出茅廬期、業(yè)務爆發(fā)期、技術進階期。究竟在不同的時期里,他們需要怎樣的陪伴和支持?我們與五家中小企業(yè)聊了聊他們的經(jīng)歷,以下是他們的故事。
處在啟動階段的中小企業(yè)創(chuàng)業(yè)者們深知,穩(wěn)定性是業(yè)務“站穩(wěn)腳跟”的前提,更是他們發(fā)展的安身立命之本。最好在此基礎上,能再節(jié)省一部分IT成本。
中易物聯(lián)的經(jīng)歷是一個絕佳的例子。位于武漢的中易物聯(lián),從2015年左右開始與阿里云合作。這是一家以智慧漁業(yè)云平臺為核心產(chǎn)品,為水產(chǎn)行業(yè)提供物聯(lián)網(wǎng)一站式系統(tǒng)解決方案的高新技術企業(yè),主要產(chǎn)品就是水質(zhì)監(jiān)測設備,監(jiān)控養(yǎng)殖池塘的水環(huán)境指標。
要保一池蝦蟹魚類安然存活,實屬不易:如開頭所說,下半夜池塘易缺氧,養(yǎng)殖戶夜間休息難以及時巡塘,或醉酒或熟睡,錯失挽救良機;夏天還容易碰到農(nóng)村電網(wǎng)不穩(wěn)定,電壓波動燒毀設備。
有時還會遇上運營商凌晨系統(tǒng)升級,中易物聯(lián)還會無法順利致電養(yǎng)殖戶,通知他們巡查魚塘。
而一旦出現(xiàn)險情,留給養(yǎng)殖戶和中易物聯(lián)的時間只有30分鐘左右;如果是高溫天,這個時間還要再縮短,去晚了恐怕只能看見一池塘翻了肚子的魚。
CTO余峰華表示,他們的業(yè)務場景實在是對服務器穩(wěn)定性、安全性、故障響應速度要求極高,“客戶會直接質(zhì)疑你們企業(yè),如果一年毫無預兆地掉線三四次,更加不會考慮繼續(xù)使用我們的系統(tǒng)。”
他回憶,那時正值業(yè)務初期,用戶分散,規(guī)模不算大,自建機房需要自購服務器、招運維、研究硬件,再算上后期擴容和硬件升級的賬,還是上公有云劃算——但十年前國內(nèi)做公共云做得好的廠商極少,中易物聯(lián)很快把目光鎖定了阿里云。
2015年1月30日,中易物聯(lián)的第一個測試服務器部署在了阿里云青島節(jié)點上。
非凸科技也有類似的考慮。CEO王浚澎告訴雷峰網(wǎng),他們的目標是面向機構和個人投資者提供智能算法和交易整套解決方案,在交易時段提供穩(wěn)定優(yōu)質(zhì)服務,如果A股交易期間,尤其是開盤時段,保障鏈路和信號傳輸順暢至關重要,否則網(wǎng)絡問題可能影響大量券商及眾多機構客戶和個人投資者。
股票市場瞬息萬變,決勝于微秒之間。網(wǎng)絡的擾動耽擱了哪怕一秒,都有可能造成不小的損失。穩(wěn)定性就像是巨額數(shù)字前的“1”,沒有這個“1”,其他的因素都是后面無意義的“0”。
非凸科技創(chuàng)業(yè)初期規(guī)模較小,人手也有限,需要將重心放在業(yè)務發(fā)展上,當時經(jīng)過選型調(diào)研,基于穩(wěn)定性和成本綜合考量,選擇了阿里云ECS云服務器,如今七年時間過去,現(xiàn)在非凸科技部署在阿里云不同節(jié)點的ECS服務器數(shù)量有幾十臺甚至上百臺。

啟動期的中小企業(yè)需要將有限的人手和精力,盡可能投入到業(yè)務上,因此運維便捷、部署門檻低、服務響應快,也同樣是他們看重的特性。
中易物聯(lián)的工程師回顧:“由于當時云計算還屬于新生事物,云服務器的部署與使用大家都還不是很熟悉,阿里云的工程師積極指導和及時解決。我們的服務涉及到硬件,得前往偏遠的鄉(xiāng)村地區(qū)。一開始,軟硬件都不成熟,加之客戶所在位置信號不好,經(jīng)常在半夜會出一些問題,我們兩邊的工程師(阿里云和中易物聯(lián))都不辭辛勞,連夜解決系統(tǒng)問題。”
非凸科技CEO王浚澎進一步提到,使用阿里云后,不用擔心硬件故障和硬件升級問題,不用跑機房或聯(lián)系托管人員,阿里云有專人支持,解決了運維難題,讓他們可以專注于核心業(yè)務發(fā)展。同時他也表示,自建機房即使有豐富儲備和多路網(wǎng)絡準備,仍無法完全避免波動。因此,即使有托管機房,非凸科技仍借助阿里云服務提升穩(wěn)定性,其多地部署方案也提高了服務確定性。
同樣考慮了服務穩(wěn)定可靠和數(shù)據(jù)安全的企業(yè),還有菲尼基。這家企業(yè)從2019年開始和阿里云合作,主要為外賣騎手、社區(qū)居民及商用低速車輛用戶提供智能換電軟硬件系統(tǒng)整套解決方案,致力于在日常出行高峰時段保障穩(wěn)定高效的換電服務。尤其在早晚用電高峰期間,換電柜電力供應和系統(tǒng)穩(wěn)定運行至關重要,一旦出現(xiàn)服務中斷,將直接影響大量用戶及眾多配送訂單的完成時效。
除了可靠和安全,他們也有自己的顧慮:自建的數(shù)據(jù)中心,包括購買服務器、存儲設備,執(zhí)行托管,成本是一方面,靈活性也有影響,自己的技術團隊能不能保證服務的高可用性、高可靠性?
菲尼基CTO高志星也講到,他們看中了阿里云彈性計算的靈活性,投入成本和時間成本都有所節(jié)約,采用阿里云產(chǎn)品前后,菲尼基節(jié)省的IT成本大約在原來的40%左右。
雷峰網(wǎng)了解到,包括菲尼基在內(nèi)的一批中小企業(yè),使用的是第八代企業(yè)級計算實例g8a,并標配eRDMA加速功能,將網(wǎng)絡延遲降至8微秒,顯著提升集群間通信性能。同時,它們還全面采用了NVMe技術,并支持共享盤功能,使得存儲延遲降低至百微秒級別。
而最近新推出的第九代AMD企業(yè)級實例,包含u2a、g9ae、g9a 三個系列。其中,u2a 實例為阿里云推出的首款基于AMD處理器的通用算力型實例,性能相比u1實例高20~35%,價格低9~22%,可幫助中小企業(yè)實現(xiàn)快速的成本降低;g9ae 實例基于 AMD 最新 TurinD 處理器,搭配阿里云最新CIPU架構,采用物理核設計,算力性能比g8a最高提升67%,性能提升67%。這意味著在大規(guī)模的數(shù)據(jù)處理器集群中,用以前三分之一的機器,完成相同的數(shù)據(jù)任務處理,通過技術實現(xiàn)降本;而 g9a 實例搭配的是 AMD TurinC 處理器,CPU睿頻最高達4.1Ghz,對那些需要強大的單進程處理能力的業(yè)務,是一個非常好的選項。
當中小企業(yè)在創(chuàng)業(yè)荊棘中劈出生路時,阿里云彈性計算已悄然成為他們“后勤組”的一員,為啟動階段的他們省去了一些后顧之憂。省下的每一分IT成本,都是業(yè)務擴張的彈藥;解放的每一寸運維心力,都化作開拓新賽道的利器,或許可以換來工程師和養(yǎng)殖戶的安心入眠,也讓換電柜得以遍布大江南北。彈性計算已不僅是技術底座,更是創(chuàng)業(yè)公司把“敢想”轉(zhuǎn)化為“敢試”的杠桿支點。
中小企業(yè)們走過了啟動期,一切步上正軌,但有時會出現(xiàn)超出預料的業(yè)績爆發(fā),例如某件新產(chǎn)品突然爆紅出圈。企業(yè)這時通常還在慶祝自己迎來了“潑天的富貴”,卻很容易忽略一點:后臺系統(tǒng)做好承接爆發(fā)的準備了嗎?
智能精準學就親身經(jīng)歷過業(yè)務爆發(fā)對后臺系統(tǒng)的挑戰(zhàn)。
這家教育科技公司成立于2018年,2024年推出了全球首位超擬人一對一家教“寒雪老師”,半年時間迅速拿到該賽道的第一個銷售top1。“AI家教名師,就是‘寒雪老師’”的口號走進家長內(nèi)心。
創(chuàng)立之初,智能精準學就在使用阿里云的彈性計算?!拔覀冇冒⒗镌茝椥杂嬎愕漠a(chǎn)品挺多的,應該基本上都用過?!痹诮涣鞯倪^程中,CTO李貴賓從ECS、ACK、VPC數(shù)到了高性能存儲、OSS對象存儲和GPU云服務器,種類之多連他自己也十分感嘆。無狀態(tài)容器和其他阿里云的創(chuàng)新產(chǎn)品,他們也有所嘗試。
2024年10月開始,智能精準學的“寒雪老師”正式上線銷售,僅半年時間就成為抖音高端AI大屏學習機的銷售第一,整體用戶數(shù)幾乎是以每周翻倍的速度在增長。

“銷售走得很快,而整個流量的增長,其實我們一開始沒有很快感知到?!眻F隊沉浸在業(yè)務迅速發(fā)展的喜悅當中,而流量洪峰的新挑戰(zhàn)已經(jīng)站在門外。
“寒雪老師”的用戶流量分布有顯著周期性。一般來說,周一到周五晚上放學后的6-10點,流量會比白天大概要高好幾倍。另一個比較有風險的時段是周末,不上學的孩子們從早上8點一直到晚上10點會隨時呼叫“寒雪老師”,尤其是周末的兩個白天。
在某個周末,阿里云彈性計算向技術團隊推送預警策略,智能精準學的團隊同時發(fā)現(xiàn),整個系統(tǒng)的響應在變慢。
“技術同學收到了運維短信?!彼麄兊谝粫r間登上阿里云控制臺查看,發(fā)現(xiàn)流量的峰值比以往高了五六倍,超出了他們的預料。
同時還有大量的超時請求,多項數(shù)據(jù)指標都在上漲,技術團隊沿著整個鏈路查看服務負載情況,由于當時集群規(guī)模由十余臺服務器組成,進一步排查發(fā)現(xiàn)關鍵服務模塊的QPM(每分鐘查詢量,Queries Per Minute)已遠超預設閾值。很快他們通過故障診斷工具FG(Fault Diagnosis Graph),最終確認服務瓶頸所在。
所幸阿里云的整體彈性策略足夠健全,團隊運維只需對一些基礎配置進行操作,例如調(diào)整負載配置,實時監(jiān)控了系統(tǒng)響應時間和錯誤率,也基于ARMS(阿里云應用實時監(jiān)控服務,Application Real-Time Monitoring Service)配置了動態(tài)閾值規(guī)則,并與集成的Kubernetes容器編排系統(tǒng)打通,進行快速擴容操作,通過Kubernetes集群管理平臺新增了3個服務實例。
算下來,總共就是30秒的時間,完成了從動態(tài)節(jié)點的申請,到擴容,再到流量引入,包括容器鏡像拉取與服務啟動階段。系統(tǒng)抖動并沒有持續(xù)太久,擴容后系統(tǒng)負載也迅速回落至正常范圍。
“阿里云的資源快速拉起,無論是ECS還是容器,都做得相當不錯?!崩钯F賓透露,今年他們曾經(jīng)嘗試過自主拉起一些特殊狀態(tài)的服務,從基礎鏡像的構建到資源的拉起,相比起使用阿里云,自主拉起的整個過程得用上兩分鐘?!斑@兩分鐘對我們來說,是一個至暗時刻,因為什么都不能做?!?/p>
他感慨道:“尤其像我們這種業(yè)務正在快速突破的、大規(guī)模服務用戶的企業(yè),阿里云彈性計算的這種專業(yè)、強大、這種彈性能力和高效的協(xié)同的賦能對我們極其重要?!?/p>
遇到“業(yè)務爆發(fā)挑戰(zhàn)系統(tǒng)承載”情況的,還有菲尼基。
目前菲尼基的系統(tǒng)服務著兩百多萬外賣騎手。受到近期外賣大戰(zhàn)的影響,換電頻次直線上升。加上各地運營商也在搶占市場,設備大量投入到市場當中并接入菲尼基的服務,這就導致菲尼基的壓力倍增。
高志星告訴雷峰網(wǎng),他們也借助了阿里云的彈性計算能力,在不調(diào)整應用架構的大前提下,迅速對系統(tǒng)進行擴容。
前面提到的智能精準學和菲尼基,都來自創(chuàng)新行業(yè),創(chuàng)建初期已有自建技術團隊,但對于來自傳統(tǒng)行業(yè)的企業(yè)而言,情況又有些不一樣,他們是怎樣在推進深度數(shù)字化的同時,應對客流高峰、業(yè)務爆發(fā)的?利客便利店就是一個經(jīng)典案例。
內(nèi)蒙古利客便利店在全國擁有近千家門店,電子支付、會員積分同步、跨店調(diào)貨等操作在后臺匯聚成密集的數(shù)據(jù)洪流。一開始,利客便利店的后臺由供應商提供并運維,沒有組建自己的技術團隊。隨著業(yè)務規(guī)模擴大,尤其在實時支付和調(diào)取貨物信息環(huán)節(jié),磁盤I/O和內(nèi)存性能瓶頸突顯,無法順利應對近千家門店的數(shù)據(jù)同步要求,嚴重制約業(yè)務擴展進度。
利客決定將核心系統(tǒng)遷移至更加自主可控的技術平臺。在技術選型過程中,阿里云作為綜合云服務提供商進入評估視野,其基于AMD EPYC處理器的云實例因出色的性價比引起關注。
經(jīng)過多輪技術溝通與場景驗證,利客團隊與阿里云共同深入梳理了便利店供應鏈系統(tǒng)的關鍵需求,雙方通過多次方案論證與性能壓測,最終選定第八代AMD企業(yè)級ECS實例作為核心部署方案,相較原有方案CPU算力提升約50%,顯著改善了近千家門店數(shù)據(jù)同步延遲的問題。
當無數(shù)學生在周末打開學習機與“寒雪老師”say Hi,當無數(shù)用戶在周末搶大額紅包點起了外賣,很少有人知道智能精準學和菲尼基的技術團隊曾直面過這樣的“流量海嘯”。以秒計算的擴容戰(zhàn)役,成了創(chuàng)業(yè)公司對抗不確定性的經(jīng)典注腳。
原來突如其來的業(yè)務爆發(fā),會讓中小企業(yè)喜上眉梢,也會成為系統(tǒng)瀕臨崩潰的信號。而增長越迅猛,地基越需堅不可摧。阿里云彈性計算也用十余年的陪伴,為他們托住那些搖搖欲墜的“爆單時刻”。彈性計算早已不僅是成本優(yōu)化器,更是業(yè)務海嘯中的救生艇,搭載中小企業(yè)從“敢試”前往“敢贏”的彼岸。
而另一場更深刻的變革已雛形漸顯,創(chuàng)業(yè)者們眺望起了遠方的海域——AI。
前文提到的“寒雪老師”。是搭載在智能精準學AI家教機上AI家教,為K12學生提供全語音交互和一對一個性化輔學服務。這位老師要手把手帶著孩子寫作業(yè),精準定位到孩子學習薄弱項,背后需要的AI能力之復雜、之強大,可想而知。

智能精準學的AI科學家向雷峰網(wǎng)介紹,常規(guī)的拍照搜題、知識點搜索、推理和計算,可以直接調(diào)用阿里云一些公開的API,但文本轉(zhuǎn)語音(TTS)和語音轉(zhuǎn)文本(ASR)就得從零做起,因為教育領域會有很多具體的場景,比如理解學生稀奇古怪的提問,比如講解過程中涉及數(shù)學物理的符號公式。
實時性也是對AI能力的一大考驗。用戶會希望這位數(shù)字家教能在1.2-1.8秒之后就給出回復,因為這是人類正常對話的神經(jīng)反應速度,在這個區(qū)間內(nèi)返回才不會讓用戶察覺到明顯的延遲。但現(xiàn)在很多公開的語音能力,通常用于翻譯或是會議記錄,并不太涉及反應速度這一指標,智能精準學的科學家們也要在此做出不少努力。
既然是可以互動的家教,那么輔導能力也得過硬。這背后的數(shù)據(jù),首先需要包括大量題庫和解題的過程,看懂數(shù)學幾何圖、物理電路圖等等,其次模型要學會像老師一樣在黑板上寫寫畫畫,像老師一樣看得懂學生寫在草稿紙上的操作,還要“看得到”學生的表情反饋。
工作的第一環(huán)節(jié)是訓練,面對顯卡資源短缺的困境,阿里云穩(wěn)定的算力供應保障了模型的持續(xù)運行,助力智能精準學節(jié)省硬件成本、高效創(chuàng)新。AI科學家Peter表示,訓練最怕過程有中斷,一旦中斷,之前投入的費用可能就打水漂了,因此在算力選擇時做了許多橫向比較,綜合穩(wěn)定性和效率各方面因素選擇了阿里云。
在深度學習領域,阿里云GPU云服務器的多卡并行計算能力,大幅提升了智能精準學“寒雪老師”的模型迭代效率,其監(jiān)控管理工具更是讓故障問題排查時間減少50%。
在推理部署上,Peter透露,一是考慮到推理速度,二是如前文所說,用戶通常在工作日晚上集中使用,可以利用其彈性特質(zhì),避免高峰期資源不足、閑置期資源浪費。他們曾對比試驗過,如果供應商的基礎設施管理軟件,其彈性設計不夠健壯,就便是有充足的物理機器,也容易導致他們在高峰期搶占不到資源,或是無法正常運行。
有阿里云這類高質(zhì)量的GPU集群支持,智能精準學也加速迭代模型、加快產(chǎn)品推出進度?!拔覀兊摹├蠋煛桥c目前市場上學習機有代際差的產(chǎn)品。而且這個代差只會實質(zhì)性地拉大。”
以智能算法見長的非凸科技,也看中了阿里云彈性計算在AI上的支持,靈活試驗、小步快跑是他們使用阿里云發(fā)展AI能力的心得。CEO王浚澎告訴雷峰網(wǎng)(公眾號:雷峰網(wǎng)),非凸的業(yè)務核心本就需要大型計算支持,今年公司又重點發(fā)力AI方向,自建了AI實驗室。但自建機房年建設費用高達幾千萬,部分業(yè)務偏實驗性或靈活性,非凸會借助阿里云的服務來對這部分業(yè)務進行前期驗證,等驗證通過后用機房進行進一步拓展和采購,如此一來,可以省下一部分成本。
他透露,目前階段非凸的自建機房與阿里云是互補關系,一方面阿里云靈活性強、穩(wěn)定性高,適合線上服務;另一方面自建機房用于離線訓練,二者可以發(fā)揮各自優(yōu)勢構建公司開發(fā)體系。
對一些中小企業(yè)而言,需要關注的不止有遠方AI的探索,眼前的硬件與彈性計算產(chǎn)品之間的協(xié)同,對業(yè)務可靠性和連續(xù)性的影響,也是一道重要考題。菲尼基CTO高志星表示,菲尼基會根據(jù)實際需求靈活配置硬件資源,可有效平衡成本與性能;也會通過集群方式分攤?cè)哂?,降低系統(tǒng)風險。
誠然,聚光燈下總是那些大公司跌宕起伏的故事,但在聚光燈之外的世界,無數(shù)中小企業(yè)的故事同樣值得被看見。他們或許沒有動輒千萬的IT預算,但他們對技術創(chuàng)新的渴望、對業(yè)務增長的追求同樣熾熱。某種比技術更深刻的變化正在發(fā)生,微小而動人,他們的每一步都是充滿勇氣的嘗試。
而阿里云彈性計算,自2010年發(fā)布至今,已用十五年時間,默默成為這些“勇敢嘗試”背后最穩(wěn)定的支撐。
近幾年來,AMD與阿里云共同將彈性計算能力不斷進化,整體可靠性、穩(wěn)定性和算力都持續(xù)提升,這使得中小企業(yè)在應對流量沖擊時更加游刃有余,也為他們提供了以更低成本在AI上探索創(chuàng)新的機會。
技術的溫度,在于它從未忘記托舉起那些看似微小的夢想。
它用穩(wěn)定、可靠、彈性的算力,默默守護了千行百業(yè)無數(shù)個拼搏的日與夜,讓每一次創(chuàng)新的“敢想敢試”,都有了最堅實的支持。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。