與阿里云攜手合作,百家云三天擴(kuò)容數(shù)十倍
- 作者:騰曦網(wǎng)絡(luò)
- 發(fā)表時(shí)間:2020-03-09 15:49:28
- 來源:shmuchen.com
- 瀏覽量:3155
由于疫情的肆虐,原本該回歸各大校園的師生們涌入線上,突如其來的流量洪峰給在線教育行業(yè)迎來了極大挑戰(zhàn)。目前已有2億學(xué)生在線上課。
長期服務(wù)教育企業(yè)的百家云也不例外。在疫情期間,百家云-作為一家致力于為教育機(jī)構(gòu)提供一站式云課堂解決方案的企業(yè),接到來自多家教育機(jī)構(gòu)搭建在線云課堂的需求,同時(shí)原來以線下為主的教育機(jī)構(gòu)流量瞬間轉(zhuǎn)到了線上。
為了響應(yīng)教育部門停課不停學(xué)的號(hào)召,幫助學(xué)生老師們開學(xué),百家云全體員工縮短了假期,從大年初二開始在家辦公,初七開始全員辦公。
短時(shí)間內(nèi)爆發(fā)式的需求,對(duì)于每一家教育企業(yè)而都是始料未及的。據(jù)百家云CEO李鋼江透露,百家云的業(yè)務(wù)量短時(shí)間內(nèi)增長了數(shù)十倍。如此迅速的擴(kuò)容需要,還要在客戶無感知的情況下完成,比交付一個(gè)新系統(tǒng)難度更大。
不幸中的萬幸是,百家云團(tuán)隊(duì)對(duì)敏捷架構(gòu)的探索讓他們在如此高并發(fā)場景上早有準(zhǔn)備。這場戰(zhàn)役之前,百家云已在阿里云團(tuán)隊(duì)的幫助下,優(yōu)化自身容器集群架構(gòu)與規(guī)劃,通過以阿里云容器服務(wù)ACK、彈性裸金屬(神龍)實(shí)例的核心方案,從容實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)容與高效管控。
一、探索容器化改造,具備應(yīng)對(duì)洪峰敏捷能力
百家云非常幸運(yùn),在這輪爆發(fā)之前完成了容器化改造。其他沒有使用容器的在線教育企業(yè),面對(duì)暴漲的用戶,只能成倍堆積機(jī)器,導(dǎo)致部署時(shí)間拉長,業(yè)務(wù)成本劇烈升高。
百家云從2017年誕生之初就是在做直播大班課產(chǎn)品,是行業(yè)內(nèi)擁有最純正的教育基因的云視頻公司。在2018年已經(jīng)實(shí)現(xiàn)了過億營收,服務(wù)了超過1000多家教育企業(yè)。
隨著業(yè)務(wù)高速增長,促使百家云技術(shù)團(tuán)隊(duì)探索自身技術(shù)架構(gòu)的優(yōu)化。到了2019年,百家云逐步推出小班課產(chǎn)品,該產(chǎn)品的處理方式與大班課不同,需要通過音視頻抓屏的方式,將課程錄制下來回放。此過程中,還需要將音頻與視頻進(jìn)行隔離。用虛擬機(jī)級(jí)別的隔離成本太高;若跑在統(tǒng)一虛擬機(jī)里,各個(gè)進(jìn)程則會(huì)互相干擾。百家云團(tuán)隊(duì)于是關(guān)注到了容器這種更為輕量級(jí)的虛擬化技術(shù)。
在2019年上半年開始,百家云內(nèi)部就開始嘗試小規(guī)模對(duì)業(yè)務(wù)進(jìn)行容器化改造,完成了基本流程的跑通。
然而,隨著百家云容器規(guī)模的擴(kuò)大,調(diào)度與管理成為了新的問題。阿里云的容器管理平臺(tái)(ACK,AlibabaCloudContainerServiceforKubernetes),大大減少百家云的工作。百家的技術(shù)團(tuán)隊(duì)表示,容器減少了運(yùn)維和測試的工作量;方便了對(duì)應(yīng)用運(yùn)行環(huán)境實(shí)現(xiàn)版本控制;且相比虛擬機(jī)有著更小計(jì)算開銷,降低了IT成本。
彼時(shí)基于容器的云原生大潮已然席卷,基于容器技術(shù)的云原生架構(gòu),為百家云可能出現(xiàn)的業(yè)務(wù)峰值做了敏捷彈性的技術(shù)儲(chǔ)備。
只是,這還是第一步。
瞬間來臨的洪峰,還是給百家云帶來了考驗(yàn)。瞬間來臨的洪峰,還是給百家云帶來了考驗(yàn)。
二、借助阿里云“容器+神龍”,三天內(nèi)實(shí)現(xiàn)數(shù)十倍擴(kuò)容
疫情是全國共同的敵人。業(yè)務(wù)持續(xù)穩(wěn)定增長的百家云,未曾料想到新禧之年將面臨這樣一場“戰(zhàn)役”,原來容器集群的許多配置沒有按大規(guī)模集群去規(guī)劃,導(dǎo)致單個(gè)集群可容納的節(jié)點(diǎn)受限,原來使用的小規(guī)格實(shí)例也限制了單個(gè)節(jié)點(diǎn)的容量。潮水襲來,百家云的問題很直接:擴(kuò)容。
針對(duì)百家云的擴(kuò)容問題,阿里云團(tuán)隊(duì)建議客戶選用大規(guī)格的彈性裸金屬服務(wù)器(神龍)。根據(jù)百家云的應(yīng)用負(fù)載特點(diǎn),結(jié)合容器服務(wù)管控合適規(guī)格的彈性裸金屬實(shí)例來優(yōu)化成本、避免浪費(fèi),提升彈性供給保障。
首先,阿里云彈性裸金屬服務(wù)器(神龍)服務(wù)器的規(guī)格較高,可以幫助百家云顯著提升了單個(gè)節(jié)點(diǎn)的容量。
更重要的是,百家云的K8s集群對(duì)性能要求極高。神龍服務(wù)器的性能優(yōu)勢明顯,“容器+彈性裸金屬(神龍)”的解決方案非常契合百家云大流量、高并發(fā)的場景。基于容器化構(gòu)建方式,可以滿足業(yè)務(wù)快速發(fā)放和彈性的要求。神龍服務(wù)器完全消除了虛擬化損耗,提升了8%的計(jì)算性能,其類物理機(jī)特性,可進(jìn)行二次虛擬化。神龍的性能,加上容器的彈性,形成了天作之合。數(shù)據(jù)顯示,容器運(yùn)行在云上神龍反而比非云物理機(jī)的性能要好10%-15%。主要是因?yàn)樘摂M化開銷已經(jīng)offload到MOC卡上,神龍的CPU/Mem是無虛擬化開銷的,而上云后運(yùn)行在神龍上的每個(gè)容器都獨(dú)享ENI彈性網(wǎng)卡,能提升13%的網(wǎng)絡(luò)吞吐量。
第三,神龍服務(wù)器是存儲(chǔ)帶寬+計(jì)算帶寬是分離,能滿足百家云的業(yè)務(wù)場景的大量讀寫需求。使用神龍服務(wù)器之后,計(jì)算能力大增,但是同時(shí)也遇到了存儲(chǔ)I/O性能瓶頸的問題。百家云通過使用阿里云的高性能NAS服務(wù),并通過水平擴(kuò)展為4個(gè)集群,解決了I/O的瓶頸。
基于以上方案,借助自身的大規(guī)模集群管理能力,在短短幾天之內(nèi),阿里云團(tuán)隊(duì)幫助百家云團(tuán)隊(duì)有效升級(jí)了原有的架構(gòu)方案,實(shí)現(xiàn)了數(shù)十倍的擴(kuò)容,大幅提升了其性能與穩(wěn)定性,并擁有了應(yīng)對(duì)爆發(fā)性規(guī)模的能力。
三、優(yōu)化架構(gòu)與集群規(guī)劃,顯著降低運(yùn)維成本
面對(duì)突增流量壓力,如何迅速動(dòng)態(tài)彈性擴(kuò)容以及高效管控運(yùn)維成為迫切問題。
改變了原來虛擬化嵌套的形式,百家云利用神龍實(shí)現(xiàn)了容器的高密度部署。配合容器的敏捷管理能力,起碼節(jié)省了25%的成本,降低了80%的運(yùn)維工作量。同時(shí),合理規(guī)劃K8s集群,優(yōu)化整體架構(gòu)如網(wǎng)絡(luò)、存儲(chǔ)方案、擴(kuò)容原則,確保后續(xù)運(yùn)維的穩(wěn)定性并降低使用成本。
此外,百家云還使用了阿里云高效運(yùn)維管理的工具,顯著降低了運(yùn)維工作量。
由于百家云業(yè)務(wù)上容器的時(shí)間非常緊迫,根本沒有多少時(shí)間可以花在運(yùn)維監(jiān)控上。通過使用ARMSPrometheus,僅僅半小時(shí)百家云就實(shí)現(xiàn)了容器節(jié)點(diǎn)環(huán)境的監(jiān)控。相比開源Prometheus監(jiān)控,ARMSPrometheus的數(shù)據(jù)量無上限且與阿里云容器服務(wù)ACK無縫對(duì)接,讓百家云在容器里高效快速定位問題,了解可如何改善自己的產(chǎn)品。
阿里云容器平臺(tái)的日志服務(wù)(SLS)里中小應(yīng)用事件中心,詳細(xì)展示了集群的狀態(tài)變更和組件異常等事件,幫助百家云把節(jié)點(diǎn)里面日志的異常信息匯總到控制面板,及時(shí)告警。
李鋼江總結(jié),阿里云帶給百家云的價(jià)值主要是以下三點(diǎn):
1、提供了彈性計(jì)算的空間與敏捷安全的擴(kuò)容能力
阿里云對(duì)應(yīng)用鏡像進(jìn)行了鏡像預(yù)熱等手段,在擴(kuò)容時(shí)可第一時(shí)間拉起容器。基于容器鏡像服務(wù)ACR安全托管大規(guī)模容器鏡像資產(chǎn),通過細(xì)粒度的鏡像授權(quán)管控,安全快速地對(duì)應(yīng)用鏡像進(jìn)行全生命周期管理。
2、提供了相對(duì)穩(wěn)定的服務(wù)與優(yōu)異性能
基于阿里云自研的神龍軟硬一體架構(gòu),彈性裸金屬服務(wù)器(神龍)有著物理機(jī)的性能和虛擬機(jī)的使用體驗(yàn)。通過利用神龍,百家云實(shí)現(xiàn)更好地調(diào)度K8s集群,加上高性能NAS服務(wù),解決了I/O瓶頸問題。
3、技術(shù)支持團(tuán)隊(duì)響應(yīng)及時(shí),幫助百家云優(yōu)化架構(gòu)
百家云之所以后來面臨擴(kuò)容問題,部分源于其原來業(yè)務(wù)架構(gòu)規(guī)劃未做好管理大規(guī)模集群的準(zhǔn)備,阿里云幫助了百家云在短時(shí)間內(nèi)優(yōu)化了業(yè)務(wù)架構(gòu),優(yōu)化集群的管理能力。
阿里云作為全國第一、世界頂尖的云服務(wù)商,在IaaS和PaaS層能力強(qiáng)大;百家云在教育SaaS層的積累,可以與阿里云互補(bǔ),一同以完整的在線教育方案去覆蓋市場。雙方正在逐步深化合作,百家云將很快上線阿里云云市場——阿里云SaaS加速器的商業(yè)平臺(tái),即“軟件天貓”,后續(xù)用戶可直接在云市場選購百家云的服務(wù)。
聲明:本文由 騰曦網(wǎng)絡(luò) 收集整理的《與阿里云攜手合作,百家云三天擴(kuò)容數(shù)十倍》,如轉(zhuǎn)載請保留鏈接:http://m.asmond.com/news_in/161
- 開發(fā)App的5個(gè)基本步驟
- 手機(jī)App的發(fā)展前景展望
- 網(wǎng)站制作從原型圖架構(gòu)到設(shè)計(jì)開發(fā)的具體步驟
- 站長必看網(wǎng)站建設(shè)系統(tǒng)選擇知識(shí)
- 高端網(wǎng)站建設(shè)必須要滿足哪些要求--木辰建站
- 企業(yè)用網(wǎng)站進(jìn)行網(wǎng)絡(luò)宣傳的優(yōu)勢
- 淺析影響網(wǎng)站百度權(quán)重排名的幾大要點(diǎn)
- 個(gè)人網(wǎng)站應(yīng)該選擇哪種虛擬主機(jī)?
- 什么是偽靜態(tài)?偽靜態(tài)有何作用?哪種好?
- 「高端網(wǎng)站定制」企業(yè)網(wǎng)站要如何做好頁面標(biāo)題設(shè)置?-木辰網(wǎng)站建站