-
有贊數據治理之提質降本
有贊數據治理的精髓就是九個字:大質量、全成本、重運營,其中涉及的質量分、成本賬單都有可借鑒之處! 導讀:有贊是通過SaaS起家的,經過多年的數據沉淀,有大量數據,可以說是一家大數據公司,但是有贊的最終目標是成為AI公司。在這個階段,數據積累到一定體量,數據治理是非常有必要的。數據治理的最終目的也是服務AI、做智能應用,發揮數據的價值,而質量和成本是數據價值的核心所在。在有贊,是如何衡量質量好壞、成本高低的?又是如何依靠產品,結合運營的手段,提升質量,降低成本的?本文,為你揭曉。 一、數據治理概述…
-
Hive SQL遷移Spark SQL在網易傳媒的實踐
在整個遷移過程,除了前期踩坑階段,期間線上基本沒出什么問題,十分平滑的將2000左右的任務遷移到了sparkSql,而且也沒耗費過多人力,這說明整個遷移方案的設計和實施是比較成功的。 引言:把基于mapreduce的離線hiveSQL任務遷移到sparkSQL,不但能大幅縮短任務運行時間,還能節省不少計算資源。最近我們也把組內2000左右的hivesql任務遷移到了sparkSQL,這里做個簡單的記錄和分享,本文偏重于具體條件下的方案選擇。 遷移背景 SQL任務運行慢Hive SQL處理任務雖然…