python計算個人所得稅(python計算個人所得稅input)
前沿拓展:
在使用 BI 工具的時候,經(jīng)常遇到的問題是:“不會 SQL 怎么生產(chǎn)加工數(shù)據(jù)、不會算法可不可以做挖掘分析?”
而專業(yè)算法團隊在做數(shù)據(jù)挖掘時,數(shù)據(jù)分析及可視化也會呈現(xiàn)相對割裂的現(xiàn)象。流程化完成算法建模和數(shù)據(jù)分析工作,也是一個提效的好辦法。
同時,對于專業(yè)數(shù)倉團隊來說,相同主題的數(shù)據(jù)內(nèi)容面臨“重復建設(shè),使用和管理時相對分散”的問題——究竟有沒有辦法在一個任務(wù)里同時生產(chǎn),同主題不同內(nèi)容的數(shù)據(jù)集?生產(chǎn)的數(shù)據(jù)集可不可以作為輸入重新參與數(shù)據(jù)建設(shè)?
1.DataWind可視化建模能力來了
由火山引擎推出的 BI 平臺 DataWind 智能數(shù)據(jù)洞察,推出了全新進階功能——可視化建模。
用戶可通過可視化拖、拉、連線**作,將復雜的數(shù)據(jù)加工建模過程簡化成清晰易懂的畫布流程,各類用戶按照所想即所得的思路完成數(shù)據(jù)生產(chǎn)加工,從而降低數(shù)據(jù)生產(chǎn)獲取的門檻。
畫布中支持同時構(gòu)建多組畫布流程,一圖實現(xiàn)多數(shù)據(jù)建模任務(wù)的構(gòu)建,提高數(shù)據(jù)建設(shè)的效率,降低任務(wù)管理成本;另外,畫布中集成封裝了超過 40 種數(shù)據(jù)清洗、特征工程算子,覆蓋初階到高階的數(shù)據(jù)生產(chǎn)能力,無需 Coding 完成復雜的數(shù)據(jù)能力。
2. 零門檻的 SQL 工具
數(shù)據(jù)的生產(chǎn)加工是獲取及分析數(shù)據(jù)的第一步。
對于非技術(shù)使用者來說,SQL 語法存在一定使用門檻,同時本地文件無法定時更新,導致看板每次都需要手動重做。獲取數(shù)據(jù)所需的技術(shù)人力往往需要排期,數(shù)據(jù)的獲取時效及滿足度大大打折,因此使用零代碼的數(shù)據(jù)建設(shè)工具變得尤為重要。
下方列舉兩個典型場景,零門檻完成數(shù)據(jù)處理在工作中是如何應(yīng)用的。
2.1 【場景1】所想即所得,可視化完成數(shù)據(jù)處理過程
在產(chǎn)品運營迭代急需不同數(shù)據(jù)的及時輸入反饋時,可以抽象數(shù)據(jù)的處理過程,通過可視化建模拖拉算子構(gòu)建數(shù)據(jù)處理過程。
如要獲取按照日期、城市粒度的訂單數(shù)及訂單金額,并獲取每日 Top10 消耗金額數(shù)據(jù)的城市數(shù)據(jù),**作如下:
常規(guī)數(shù)據(jù)處理流程
可視化建模處理流程
請技術(shù)同學拉取訂單的明細數(shù)據(jù),包含訂單 id/ 訂單金額/用戶 id/ 訂單日期城市等將數(shù)據(jù)通過**圖的**作設(shè)置行為訂單日期、城市,指標為訂單金額求和、訂單 id 求和將**結(jié)果按照金額排序,然后編寫序號用篩選器過濾 Top10 的數(shù)據(jù)選擇數(shù)據(jù)源,選擇庫表或上傳 CSV 文件或連接 LarkSheet篩選需要使用的字段信息,配置自己定義的字段名稱及格式選擇聚合算子,按照日期和城市聚合計算訂單量和訂單金額選擇 Top 值算子,取 Top10 金額數(shù)量輸出數(shù)據(jù)集,數(shù)據(jù)集可應(yīng)用到風神中繪制圖表
2.2 【場景 2】多表快速結(jié)合,輕松解決多數(shù)據(jù)關(guān)聯(lián)計算
在數(shù)據(jù)處理過程中,有多個數(shù)據(jù)源需要進行組合使用,常規(guī)通過 Excel 需要掌握高階 Vlookup 等算法有些難度,且耗時長。同時數(shù)據(jù)量較大時,電腦性能可能沒辦法完成數(shù)據(jù)的組合計算。
如有兩份數(shù)據(jù)量比較大的訂單數(shù)據(jù)和一份客戶屬性信息表,需要根據(jù)賬單金額和成本金額計算利潤金額,然后按照利潤貢獻高低取 Top100 的用戶訂單信息:
常規(guī)數(shù)據(jù)處理流程
可視化建模處理流程
需要將兩個訂單數(shù)據(jù)打開后,Copy 數(shù)據(jù)合并到一個文件中采用 VloopUp 查找訂單里用戶和客戶里用戶數(shù)據(jù),然后將兩者數(shù)據(jù)組合生成新的數(shù)據(jù)采用**表計算用戶賬單金額和成本金額,然后計算利潤金額按照利潤金額排序獲取 TopN 客戶信息可以上傳 CSV 文件 /LaskSheet 構(gòu)建數(shù)據(jù)輸入然后可以合并 3 月 /4 月訂單數(shù)據(jù)為一份數(shù)據(jù)連接客戶信息屬性表,綁定客戶屬性信息選擇聚合,按照客戶具體計算賬單金額和成本金額選擇計算列,根據(jù)賬單金額和成本金額計算利潤金額根據(jù)利潤金額排序獲取 TopN 客戶信息
3. AI 數(shù)據(jù)挖掘,不再高不可及
當基礎(chǔ)的數(shù)據(jù)清洗已經(jīng)沒辦法滿足數(shù)據(jù)建設(shè)和數(shù)據(jù)分析,需要 AI 算法加持去挖掘數(shù)據(jù)更多隱藏的價值時。算法團隊同學可能苦于無法很好與可視化圖表聯(lián)動使用,沒辦法生產(chǎn)好的數(shù)據(jù)快速被應(yīng)用;而普通用戶可能直接被 AI 代碼的高門檻直接壓滅了這個算法的苗頭——提需求又怕需求太淺、價值無法很好評估輸出,此時算法挖掘成為了一種奢望。
DataWind 的可視化建模封裝了超過 30 類常見的 AI 算子能力,用戶僅需了解算法的作用可以通過配置化的方式配置算法算子的輸入和訓練目標即可完成模型訓練,根據(jù)配置的其他數(shù)據(jù)內(nèi)容快速得到預(yù)測結(jié)果。
下方將以兩個典型場景為例,看不寫 Python 如何完成數(shù)據(jù)挖掘。
3.1 【初階】不會 Python 也可做數(shù)據(jù)挖掘
用戶日常工作基本不涉及寫 Python,但存在做數(shù)據(jù)挖掘的需求場景。他需要基于存量高意向客戶樣本做客戶意向度挖掘。此時可通過可視化建模構(gòu)建數(shù)據(jù)挖掘流程:
1.拖入樣本數(shù)據(jù)和全部數(shù)據(jù)作為數(shù)據(jù)輸入。
2.拖入分類算法,如 XGB 算法用于模型訓練。
3.拖入預(yù)測算子,搭建模型與全部數(shù)據(jù)的關(guān)系進行預(yù)測。
4.實際數(shù)據(jù)和預(yù)測結(jié)果結(jié)合輸出數(shù)據(jù)集,從而分析全部用戶數(shù)據(jù)的意向分布。
3.2【高階】不寫 Python 也可構(gòu)建復雜算法模型
用戶需要根據(jù)現(xiàn)有數(shù)據(jù),構(gòu)建一個用戶回購模型。在模型搭建中需要經(jīng)過數(shù)據(jù)清洗、格式轉(zhuǎn)換之后采用梯度提升樹構(gòu)建預(yù)測模型,此時可以根據(jù)可視化建模構(gòu)建回購模型流程:
1.合并行:將 n 個算子(圖中的長方形)輸出數(shù)據(jù)表根據(jù)一致的表頭合并成一張總的數(shù)據(jù)表,用戶銷售數(shù)據(jù)沒有增刪新屬性時此處不用改動。
2.缺失值替換:屬性列存在空值(null)時,會影響后續(xù)模型計算,使用替換缺失值算子可以將空值替換為指定默認值,用戶銷售數(shù)據(jù)沒有增刪新屬性時此處不用改動。
3.one-hot 編碼: 文本類型的屬性無法直接被模型訓練使用,需要 one_hot 編碼成數(shù)字向量例如:
4.梯度提升樹:負責擬合訓練數(shù)據(jù),輸出一個可以用于預(yù)測的模型(圖中沒有標注的參數(shù)不需要維護人員修改):
5.聚合_1:去除預(yù)測數(shù)據(jù)中的重復項,取最大概率。
6.提取字段:提取必要的 label 和概率值輸出。
4. 多場景、多任務(wù)建設(shè),管理不再分散
作為數(shù)據(jù)分析師,日常也會有很多構(gòu)建數(shù)據(jù)集、搭建數(shù)據(jù)看板的工作。但通常從數(shù)倉獲取的底表會是一張寬表,在此基礎(chǔ)之上,根據(jù)不同的場景需求搭建不同的數(shù)據(jù)集任務(wù)。
在后續(xù)的使用時,常常會遇到類似的的數(shù)據(jù)集越來越多,但具體邏輯又無法很好的對比確認。此時,如果所有數(shù)據(jù)集邏輯在一個數(shù)據(jù)集里面配置生成,每個數(shù)據(jù)集通過任務(wù)流程就可以判斷和定義應(yīng)用就好了。
針對這一場景,DataWind 的可視化建模能力也可以很好的完成。可視化建模功能支持單一數(shù)據(jù)集同時被多種邏輯處理加工生成多個數(shù)據(jù)集。以處理訂單數(shù)據(jù)和用戶數(shù)據(jù)為例:
1.有用戶想看訂單的統(tǒng)計數(shù)據(jù),那么可以搭建訂單統(tǒng)計數(shù)據(jù)集的數(shù)據(jù)處理流程。
2.有用戶就想看明細數(shù)據(jù),但是需要對明細字段進行加工清洗,這時可以構(gòu)建訂單明細表數(shù)據(jù)集的處理流程。
3.有些用戶又想結(jié)合用戶屬性去統(tǒng)計用戶的訂單分布,那么構(gòu)建多表關(guān)聯(lián)結(jié)合指標聚合生成完成用戶訂單統(tǒng)計數(shù)據(jù)集。
4.同樣邏輯可以生成多表關(guān)聯(lián)下的用戶訂單明細數(shù)據(jù)集。
由此,通過一個任務(wù)、兩個數(shù)據(jù)輸入完成了 4 個數(shù)據(jù)集的生成,4 個數(shù)據(jù)集可以構(gòu)建一個數(shù)據(jù)主題域,后續(xù)相關(guān)數(shù)據(jù)使用均可從此任務(wù)輸出的數(shù)據(jù)集進行使用。
5. 關(guān)于我們
火山引擎智能數(shù)據(jù)洞察 DataWind 是一款支持大數(shù)據(jù)明細級別自助分析的增強型 ABI 平臺。從數(shù)據(jù)接入、數(shù)據(jù)整合,到查詢、分析,最終以數(shù)據(jù)門戶、數(shù)字大屏、管理駕駛艙的可視化形態(tài)呈現(xiàn)給業(yè)務(wù)用戶,讓數(shù)據(jù)發(fā)揮價值。
拓展知識:
原創(chuàng)文章,作者:九賢互聯(lián)網(wǎng)實用分享網(wǎng)編輯,如若轉(zhuǎn)載,請注明出處:http://www.uuuxu.com/20221119498013.html