AI加劇網(wǎng)絡(luò)可靠性風(fēng)險(xiǎn),SRE成宕機(jī)事件“良藥”
- 發(fā)布時(shí)間:2024-07-12 17:24:59
- 瀏覽量:909
近來,全球宕機(jī)事件頻發(fā),引發(fā)用戶和業(yè)內(nèi)人士對(duì)網(wǎng)絡(luò)穩(wěn)定性與安全性的擔(dān)憂。7月1日,鴻雪科技董事長(zhǎng)兼CEO鄭乃東在接受《中國(guó)電子報(bào)》獨(dú)家專訪時(shí)表示,隨著大量傳統(tǒng)應(yīng)用變成了互聯(lián)網(wǎng)應(yīng)用,且已深入到工作生活場(chǎng)景中,宕機(jī)事件帶來的影響越來越大。推動(dòng)SRE(網(wǎng)站可靠性工程)是解決可靠性、避免各種宕機(jī)的重要路徑。
宕機(jī)事件頻發(fā)加劇系統(tǒng)可靠性擔(dān)憂
4月8日,“騰訊云崩了”沖上熱搜。大量網(wǎng)友反饋,稱騰訊云出現(xiàn)服務(wù)故障,接口響應(yīng)報(bào)錯(cuò)、網(wǎng)頁(yè)顯示504錯(cuò)誤,范圍覆蓋全國(guó)各地。6月4日,ChatGPT遭遇近8小時(shí)大規(guī)模宕機(jī),包括其網(wǎng)站和應(yīng)用程序在內(nèi)都無法訪問,全球數(shù)百萬用戶受到影響。7月2日,阿里云發(fā)生宕機(jī)事件,雖說從發(fā)現(xiàn)故障到解決用時(shí)31分鐘,從發(fā)現(xiàn)故障到影響恢復(fù)用時(shí)38分鐘,但B站、小紅書、戀與深空、酷安等多家大廠APP均受到波及。
“大家之所以感覺到宕機(jī)事件變多了,主要原因是互聯(lián)網(wǎng)應(yīng)用的數(shù)量變多了,像以前的Office和WPS這種單機(jī)軟件現(xiàn)在也都連接了云服務(wù),大量傳統(tǒng)應(yīng)用都變成了互聯(lián)網(wǎng)應(yīng)用,僅蘋果商店的互聯(lián)網(wǎng)應(yīng)用數(shù)量就超過200萬個(gè),而且這類互聯(lián)網(wǎng)應(yīng)用已經(jīng)深入到我們的工作生活當(dāng)中,比如微信、嘀嘀、美團(tuán)、抖音、騰訊會(huì)議等,因此我們對(duì)宕機(jī)的感知也會(huì)越來越明顯。”鄭乃東分析說道。
ChatGPT宕機(jī)事件
實(shí)際上,隨著互聯(lián)網(wǎng)軟件功能越來越多,結(jié)構(gòu)越來越復(fù)雜,在日常運(yùn)營(yíng)過程中出現(xiàn)問題的概率也會(huì)越來越大。一些大型科技公司,如亞馬遜、微軟和谷歌等,每年在系統(tǒng)可靠性上的投入占其整體技術(shù)預(yù)算的15-20%。而在國(guó)內(nèi),很多公司依然存在不重視可靠性、可靠性人才奇缺、沒有可靠性管理、對(duì)可靠性認(rèn)識(shí)模糊等問題。
“最要緊的是主觀上的重視程度,不管是云供應(yīng)商、軟件開發(fā)商,還是運(yùn)維環(huán)節(jié)的服務(wù)廠商等,各方都需要重視線上事故的預(yù)防、發(fā)現(xiàn)、定位、處理、復(fù)盤的全鏈條保障;比如投入專門的資金,設(shè)置專門的崗位來從事可靠性管控方面的工作。”鄭乃東表示。
SRE有望在國(guó)內(nèi)市場(chǎng)快速推廣應(yīng)用
SRE全稱是Site Reliability Engineering,指網(wǎng)站可靠性工程,最早由Google提出,旨在提高軟件系統(tǒng)的可用性、低時(shí)延、性能、效率、變更管理、監(jiān)控、應(yīng)急響應(yīng)和容量管理等方面的能力。
“SRE主要通過自動(dòng)化、監(jiān)控、預(yù)防性措施和持續(xù)改進(jìn)來減少故障發(fā)生的概率,并且降低故障所造成的影響。”鄭乃東向記者介紹說道。首先,SRE能通過監(jiān)控和告警系統(tǒng)提前發(fā)現(xiàn)潛在問題,并快速響應(yīng)和恢復(fù)系統(tǒng)服務(wù);其次,SRE采用軟件工程的方法,與開發(fā)人員緊密合作,倡導(dǎo)構(gòu)建業(yè)務(wù)系統(tǒng)內(nèi)置的可靠性,并在運(yùn)維過程中使用自動(dòng)化和標(biāo)準(zhǔn)化的流程,減少人為錯(cuò)誤,從而進(jìn)一步提升系統(tǒng)的穩(wěn)定性;此外,通過降低瑣事和持續(xù)優(yōu)化的運(yùn)營(yíng)流程,SRE可以減少運(yùn)維人員的工作負(fù)擔(dān),提高運(yùn)營(yíng)效率。
近年來,隨著中國(guó)互聯(lián)網(wǎng)產(chǎn)業(yè)、云計(jì)算快速發(fā)展,系統(tǒng)復(fù)雜性和對(duì)可靠性的需求大幅增加,SRE的價(jià)值逐漸被廣泛傳播和認(rèn)可。國(guó)內(nèi)互聯(lián)網(wǎng)大廠如百度、阿里巴巴、騰訊、京東等大型互聯(lián)網(wǎng)公司由于業(yè)務(wù)規(guī)模龐大、用戶數(shù)量眾多、系統(tǒng)復(fù)雜度高,率先認(rèn)識(shí)到SRE的重要性,并積極推動(dòng)SRE的實(shí)施。
鄭乃東分析說道:“這些公司需要確保其平臺(tái)能夠在高流量情況下穩(wěn)定運(yùn)行,避免服務(wù)中斷對(duì)用戶體驗(yàn)和公司收入以及聲譽(yù)造成的負(fù)面影響。因此,SRE成為了它們提升系統(tǒng)可靠性、提高服務(wù)質(zhì)量的重要手段。”
傳統(tǒng)型企業(yè)乃至中小企業(yè)也開始主動(dòng)關(guān)注,并在生產(chǎn)環(huán)境中應(yīng)用SRE。據(jù)權(quán)威調(diào)研機(jī)構(gòu)統(tǒng)計(jì),到2022年,中國(guó)約有40%的大型企業(yè)和20%的中小型企業(yè)正在推行SRE實(shí)踐,并且這樣的企業(yè)逐年遞增。“未來,隨著技術(shù)的不斷發(fā)展和企業(yè)需求的增加,SRE在全國(guó)的應(yīng)用將更加廣泛和深入。”鄭乃東判斷稱。
AI給SRE帶來挑戰(zhàn)與機(jī)遇
盡管SRE可以顯著提升系統(tǒng)的可靠性和穩(wěn)定性,但鄭乃東同時(shí)也指出,SRE存在局限性,并不能完全消除宕機(jī)現(xiàn)象和所有的技術(shù)問題。比如,復(fù)雜的業(yè)務(wù)邏輯問題,SRE主要關(guān)注系統(tǒng)可靠性層面的問題,復(fù)雜的業(yè)務(wù)邏輯錯(cuò)誤仍需依賴開發(fā)團(tuán)隊(duì)解決。再比如,基礎(chǔ)設(shè)施故障,硬件故障、網(wǎng)絡(luò)中斷等基礎(chǔ)設(shè)施問題可能超出SRE的控制范圍。另外,自然災(zāi)害、突發(fā)事件等不可預(yù)見的災(zāi)難,SRE無法完全避免,但可以通過災(zāi)備方案減小影響。
在他看來,AI的到來既為SRE帶來了新的挑戰(zhàn),也帶來了新的機(jī)會(huì)。一方面,AI系統(tǒng)本身往往具有很高的復(fù)雜性,復(fù)雜的架構(gòu)與當(dāng)前系統(tǒng)的依賴關(guān)系,使得企業(yè)需要花費(fèi)很大成本學(xué)習(xí)和駕馭AI技術(shù)。據(jù)調(diào)研,超過60%的企業(yè)認(rèn)為AI系統(tǒng)的復(fù)雜性是實(shí)施過程中最大的挑戰(zhàn)之一。
另一方面,AI系統(tǒng)依賴大量數(shù)據(jù),數(shù)據(jù)質(zhì)量和完整性問題可能導(dǎo)致模型誤差和系統(tǒng)故障,SRE需要通過軟件工程的方法,配合統(tǒng)一的數(shù)據(jù)模型,確保所有管理數(shù)據(jù)管道的穩(wěn)定性和可靠性。利用高質(zhì)量的數(shù)據(jù),才能使 AI 算法和大模型更加精確和高效。
此外,許多AI應(yīng)用,特別是大語(yǔ)言模型相關(guān)的會(huì)話交互型場(chǎng)景里,都需要實(shí)時(shí)處理和及時(shí)響應(yīng)。在一項(xiàng)2023年的研究中,85%的AI應(yīng)用對(duì)響應(yīng)時(shí)間的要求在毫秒級(jí)以內(nèi)。SRE需要確保相關(guān)系統(tǒng)具有足夠的性能和低延遲,以滿足這些實(shí)時(shí)性要求。
“AI模型管理、數(shù)據(jù)工程、安全性這三點(diǎn)非常重要。”鄭乃東表示。他認(rèn)為,SRE需要掌握AI模型的部署、監(jiān)控和管理技能,確保模型在生產(chǎn)環(huán)境中的穩(wěn)定性和性能,同時(shí)也要增加數(shù)據(jù)工程的能力,確保數(shù)據(jù)、管道的可靠性和數(shù)據(jù)質(zhì)量,以支持AI系統(tǒng)的正常運(yùn)行。此外,AI系統(tǒng)可能面臨新的安全威脅,SRE還應(yīng)該關(guān)注AI模型和數(shù)據(jù)的安全性,防止內(nèi)部敏感數(shù)據(jù)泄露和受到攻擊。
國(guó)內(nèi)SRE產(chǎn)業(yè)生態(tài)建設(shè)亟需提速
隨著新質(zhì)生產(chǎn)力發(fā)展步伐加快,企業(yè)數(shù)字化轉(zhuǎn)型逐漸走向深水區(qū)。在這一過程中,構(gòu)建穩(wěn)定、可靠且高性能的基礎(chǔ)設(shè)施至關(guān)重要。SRE作為基礎(chǔ)設(shè)施戰(zhàn)略的關(guān)鍵組成部分,為業(yè)界提供了實(shí)現(xiàn)先進(jìn)基礎(chǔ)設(shè)施策略的關(guān)鍵思路。
然而,業(yè)內(nèi)人士普遍認(rèn)為,國(guó)內(nèi)SRE產(chǎn)業(yè)生態(tài)建設(shè)仍然面臨人才短缺、技術(shù)積累不足、文化轉(zhuǎn)型難、工具和平臺(tái)集成難等多重挑戰(zhàn)。以人才建設(shè)為例,SRE是一個(gè)相對(duì)較新的領(lǐng)域,具備相關(guān)技能和經(jīng)驗(yàn)的人才供不應(yīng)求,根據(jù)2023年的數(shù)據(jù)顯示,中國(guó)SRE工程師的供需缺口超過30%。這導(dǎo)致企業(yè)在招聘和培養(yǎng)SRE工程師時(shí)面臨困難。
第六期信創(chuàng)工程師高級(jí)研修班現(xiàn)場(chǎng)
“相比國(guó)外,我國(guó)在SRE實(shí)踐上的技術(shù)積累相對(duì)較少,很多企業(yè)缺乏成熟的SRE實(shí)施經(jīng)驗(yàn)和最佳實(shí)踐指導(dǎo)。而與國(guó)際上對(duì)比,約60%的國(guó)外大型企業(yè)已經(jīng)實(shí)施了成熟的SRE實(shí)踐。”鄭乃東坦言。
為緩解人才短缺的問題,越來越多的培訓(xùn)機(jī)構(gòu)正在開設(shè)SRE相關(guān)課程。鴻雪科技便是其中之一。其培訓(xùn)涵蓋了SRE的各個(gè)維度,包括自動(dòng)化、可觀測(cè)性、AIOps、平臺(tái)工程、高可用、災(zāi)備等,確保學(xué)員能夠全面掌握SRE所需的各項(xiàng)技能。講師團(tuán)隊(duì)皆為行業(yè)內(nèi)資深SRE專家,不僅具備豐富的SRE實(shí)踐經(jīng)驗(yàn),還參與過許多大型項(xiàng)目的實(shí)施,能夠提供深刻的洞見和實(shí)用的建議。據(jù)統(tǒng)計(jì),2023年參加了專業(yè)SRE培訓(xùn)的企業(yè)系統(tǒng)可靠性提升20% ,運(yùn)維效率提升15% 。
“SRE人才保障了AI以及所有業(yè)務(wù)系統(tǒng)生產(chǎn)環(huán)境的可靠性和性能,通過自動(dòng)化和可觀測(cè)性減少宕機(jī)風(fēng)險(xiǎn)。他們確保所有服務(wù)在高并發(fā)情況下穩(wěn)定運(yùn)行,是AI系統(tǒng)和所有其他業(yè)務(wù)的‘守護(hù)者’。SRE團(tuán)隊(duì)的存在能夠?qū)⑾到y(tǒng)宕機(jī)時(shí)間減少50%以上。”鄭乃東強(qiáng)調(diào)。他指出,算法和數(shù)據(jù)提供智能和支持,SRE確保系統(tǒng)可靠運(yùn)行,三者共同協(xié)作才能實(shí)現(xiàn)AI系統(tǒng)的全面成功。
免責(zé)聲明:部分文章信息來源于網(wǎng)絡(luò)以及網(wǎng)友投稿,本網(wǎng)站只負(fù)責(zé)對(duì)文章進(jìn)行整理、排版、編輯,意為分享交流傳遞信息,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,如本站文章和轉(zhuǎn)稿涉及版權(quán)等問題,請(qǐng)作者在及時(shí)聯(lián)系本站,我們會(huì)盡快和您對(duì)接處理。
