本文的標(biāo)題是《RTX 3090 AI性能實(shí)測(cè):FP32訓(xùn)練速度提升50%》來(lái)源于:由作者:陳水萍采編而成,主要講述了曉查 發(fā)自 凹非寺 量子位 報(bào)道 | 公眾號(hào) QbitAI
NVIDIA最近發(fā)布了備
曉查 發(fā)自 凹非寺 量子位 通訊 | 大眾號(hào) qbitai
nvidia邇來(lái)頒布了備受憧憬的rtx 30系列顯卡。
個(gè)中,性能最宏大的rtx 3090具備24gb顯存和10496個(gè)cuda中心。而2018年推出的**顯卡titan rtx同樣具備24gb顯存。
rtx 3090在深度進(jìn)修演練工作中,性能展現(xiàn)畢竟怎樣,它是否代替titan rtx變成最強(qiáng)耗費(fèi)級(jí)ai演練卡?此刻仍舊有了謎底。
海外兩位ai在業(yè)者在拿到這款顯卡后,第一功夫嘗試了其在tensorflow上的ai演練性能。
因?yàn)閞tx 3090現(xiàn)階段不許很好地扶助tensorflow 2,所以先在tensorflow 1.15長(zhǎng)進(jìn)行嘗試。
話不多說(shuō),先看數(shù)據(jù)。在fp32工作上,rtx 3090每秒可處置561張圖片,titan rtx每秒可處置373張圖片,性能提高50.4%!
而在fp16工作上,rtx 3090每秒可處置1163張圖片,titan rtx每秒可處置1082張圖片,性能僅提高7.5%。
何以在fp32工作上的性能提高比在fp16上更鮮明,主假如由于rtx 3090大大普及了cuda中心的數(shù)目。然而用來(lái)處置fp16的張量中心數(shù)目鮮明縮小,這大概會(huì)感化fp16性能。
即使如許,張量中心更少的rtx 3090在很多fp16工作上,性能仍舊有小幅提高。
隨后,英偉達(dá)官方供給了扶助rtx 3090的cuda 11.1,谷歌官方在tensorflow nightly版中供給了對(duì)最新顯卡的扶助。
又有效戶再次嘗試了兩款顯卡的性能比較。
△ 演練性能:每秒處置的圖片數(shù)目
不妨看出,運(yùn)用fp32舉行的一切模子演練,rtx 3090都能實(shí)行40%~60%的演練提高。而大普遍模子的fp16演練速率簡(jiǎn)直靜止,最多提高20%,以至在inception模子上再有所低沉。
只能說(shuō)rtx 3090在張量中心上的“刀法”頗為精準(zhǔn),即使你對(duì)fp16演練性能有較高訴求,大概不妨等候此后的晉級(jí)版。
然而rtx 3090掛牌價(jià)格僅1499美元,比titan rtx廉價(jià)1000美元,仍不失為“性價(jià)比”之選。
參考鏈接:
https://www.pugetsystems.com/labs/hpc/rtx3090-tensorflow-namd-and-hpcg-performance-on-linux-preliminary-1902/
https://www.evolution.ai/post/benchmarking-deep-learning-workloads-with-tensorflow-on-the-nvidia-geforce-rtx-3090
— 完 —
量子位 qbitai · 頭條號(hào)簽訂契約作家
關(guān)心咱們,第一功夫獲知前沿高科技動(dòng)靜
正文原作家為陳水萍,連載請(qǐng)證明:根源!如該文有不當(dāng)之處,請(qǐng)接洽站長(zhǎng)簡(jiǎn)略,感謝協(xié)作~
原創(chuàng)文章,作者:陳水萍,如若轉(zhuǎn)載,請(qǐng)注明出處:http://www.uuuxu.com/20220218166247.html