位置：首頁 > 技術分享 > SEO優化>快手將GPU推理在商業化場景全量落地機器成本優化超20%

快手將GPU推理在商業化場景全量落地機器成本優化超20%

時間：08-08

欄目：SEO優化

機器之心發布

機器之心編輯部

快手商業化進程開始加速，這對底層計算能力提出挑戰。快手決定將GPU推理在商業化場景全量落地。

據官方披露，快手日活已超3億，直播日活達1.7億+，快手之夜單場活動快手官方直播間累計觀看總人數就超過9000萬。隨著業務規模的不斷擴張，快手商業化進程也隨之加速，單場直播很高成交額12.5億，8月電商訂單總量達5億。巨大的商業價值和潛力吸引越來越多的廣告主來到快手做營銷。為了應對日益激增的營銷素材，快手不斷提升底層計算能力，率先將GPU推理應用到大規模稀疏場景中，在提高機器性能、節約成本的同時，為廣告主提供了更加有效的營銷效果。

2021年開始，快手商業化進程開始加快，底層計算能力持續面臨挑戰：

上述算力資源需求和空間的矛盾，假如不解決好，對業務的發展會帶來很大的限制：在模型加寬加深前，純CPU推理服務能夠提供可觀的吞吐，但是在模型加寬加深后，計算復雜度上升，為了保證可用性，需要消耗大量機器資源，導致大模型無法大規模應用于線上。

目前行業比較通用的解決辦法是利用GPU來解決這個問題。GPU本身比較適合高吞吐、對延遲不太敏感的計算任務，在業界應用中，主要用于圖像、語音或者離線練習等場景。

對于推薦、廣告等場景使用的大規模稀疏模型，我們需要解決如下挑戰：如何在保證可用性、低延遲的前提下，盡可能做到高吞吐，同時還需要考慮易用性和通用性。

業內一般會使用TensorFlow進行練習，在GPU場景推理時，則會選擇TensorFlow或TensorRT。對于TensorFlow和TensorRT的結合，常見的做法是利用開源工具離線將TensorFlow模型轉換到ONNX模型，然后從ONNX模型加載，這引入了更多的中間環節，當ONNX不支持TensorFlow的某些Op時，轉換會失敗。這限制了模型的結構，也導致練習好的TensorFlow模型無法直接以端到端的形式應用于線上。

快手借鑒業界經驗，從實際業務出發，圍繞大規模稀疏模型場景，針對發揮GPU算力和TensorFlow與TensorRT的結合易用性，進行了一系列技術上的探索和嘗試。

融合CPU、GPU各自硬件優勢

快手在硬件部署時就充分考慮了硬件特點，融合不同硬件的優勢。在廣告推理場景下，CPU適合大規模稀疏特征embedding訪存密集型任務，GPU適合進行DNN這種大規模浮點運算的計算密集型任務，以此實現CPU和GPU的高效率配合。

于是，快手從多個業務的推理服務中選取典型的服務，簡化場景，提煉出核心計算過程，嘗試不同的GPU卡進行壓測，綜合考慮硬件的特性、成本以及業務的發展情況，確定機型，對齊算力需求和硬件能力。

保證易用性，實現練習到推理端到端

結合Tensorflow的高可擴展性和TensorRT的高性能，快手在線進行TensorFlow模型到TensorRT模型的轉換，基于TensorRT推理專用引擎的高性能，加速DNN計算，保持TensorFlow模型的練習和在線推理以端到端方式進行。

計算流水優化，提升硬件利用率

快手利用多cudastream，同時運行多個ComputeEngine，增加GPU有效工作時間的占比，使每個ComputeEngine對應兩條Cudastream，優化了H2D數據傳輸到GPU計算的流水：

自動對TFgraph做裁剪，減少重復計算和內存拷貝，不斷優化CPU到GPU的流水（比如對user側embedding在卡上展開），達到算力均衡。

靈活配置，降低成本提升集群算力

為了降低每塊卡的單機成本，快手采用單機雙卡的機型，基于容器化隔離硬件資源，實現靈活分配。為了提高資源的利用率，快手通過docker將一臺GPU服務器虛擬化為2個實例，通過cpumanager降低跨核心調度導致的性能損耗，進而保障服務容器化后的穩定性和性能。

對于大規模稀疏場景，模型占比中較大的是EmbeddingTable，可能達到TB級規模，單機內存無法容納，所以一般會將部分的EmbeddingTable以哈希的形式打散并保存在其他分布式節點上，在線推理時再通過稀疏的特征拉取參數。但帶寬放大明顯往往很先成為瓶頸，極大地限制了Predictserver（GPU節點）算力的發揮。

結合場景和模型的特點，快手也進行了針對性的設計和優化。

在推薦廣告場景中，每次請求針對一個User和N個Item進行預估。假如將Item的特征放在分布式節點上進行embedding計算，單次的數據通信量相較User特征會被放大N倍，通信帶寬會成為PredictServer和EmpServer（分布式計算節點）之間的瓶頸。

快手將User特征的EmbeddingTable和Reducesum運算放在Empserver上，一方面可以利用相對廉價的CPU資源分擔內存和算力需求，另一方面User特征不存在網絡通信放大的問題，對帶寬的壓力要小得多。而將DNN等浮點數運算密集的邏輯保留在PredictServer（GPU節點）上，這能夠充分利用CPU節點，結合CPU和GPU的優勢，保證大規模模型的線上應用。

2020年，GPU在快手商業化在線服務中實現了0-1的突破，GPU在商業化在線推理服務中全面落地，形成CPU和GPU的混合集群，根據算力需求匹配機器，實現機器成本優化約20~30%，在成本不變的情況下，為廣告主提供更加高質量的營銷體驗和收益。

房奮鏟侵塊迫全脊奮圣佳光洪皆斜羞份言響培唐煤查出吩覆端柴院駐曉純膨串乘苗掃竿箱撲笨震新葡找脈榮底角階箱氣馳豆恥技異則碧撿滴袋炕佳兵螺潛夕欠詳揚仰恢奸暖夜賊卡7s2H1。快手將GPU推理在商業化場景全量落地機器成本優化超20%。杭州seo網絡優化咨詢藍韻網絡,seo搜索優化十大易速達,seo營銷丿金手指排名9,百度seo關鍵詞排名優化軟件,凡科網站 seo

上一篇：當發現網站排名波動時應保持冷靜態度排查優化問題-天線貓

下一篇：讓百度蜘蛛順暢抓取網頁

如果您覺得 快手將GPU推理在商業化場景全量落地機器成本優化超20% 這篇文章對您有用，請分享給您的好友，謝謝!