8月2日,由 CIO 時代主辦,螞蟻集團協辦,新基建創新研究院作為智庫支持的“央國企十五五數智化戰略與機遇 | 首屆央國企CIO及數科公司數智創新峰會”圓滿舉辦!主題演講環節,騰訊云大數據首席架構師宋企皋帶來“Data x AI構建數據管理新范式”主題分享。
騰訊云大數據首席架構師 宋企皋
精彩觀點
AI與數據治理的深度融合將成為未來數據多模態管理、深度洞察與統計分析的重要發展方向。騰訊提出"AI for Data"技術方案,通過部署數據分析智能體與數據工程Agent,實現多模態數據的高效處理,降低業務人員數據開發門檻并提升質量效率。
在 AI 技術飛速發展的今天,大模型應用的效果越來越多地被歸因于數據質量 —— 當算力瓶頸逐步緩解、通用大模型日益普及,數據資產的質量與管理能力正成為決定 AI 落地成效的核心變量。從 “Data + AI” 到 “DataXAI”,數據與人工智能的融合已進入深度協同階段,這不僅帶來了業務價值的重構,更對傳統數據治理模式提出了顛覆性挑戰。
技術架構升級:
支撐人機協同的數據底座
AI 與數據的深度融合,對基礎設施提出了更高要求。傳統私有化大數據平臺以結構化數據存儲為主,難以應對多模態數據的爆發式增長與算力需求的彈性波動。因此,數據平臺向云原生架構演進成為必然:通過存算分離實現資源彈性調度,依托統一元數據管理打通數據孤島,最終構建能支撐多樣化 AI 場景的技術底座。
組織架構的協同同樣關鍵。過去,企業的數據團隊與 AI 團隊往往獨立運作,形成 “兩套工具、兩份數據” 的割裂狀態。而從去年下半年開始,越來越多的企業將兩支團隊整合,實現 “一個團隊、一個工具、一份數據” 的協同模式,這一調整不僅大幅提升了 AI 應用開發效率,更保障了數據資產的一致性與安全性。
2022 年起,騰訊啟動數據智能升級項目,核心解決三大問題:讓 AI 精準理解業務需求、讓 AI 高效識別與調用數據、讓 AI 生成高質量代碼以快速響應需求。具體措施包括:
一、構建 “人機共懂” 的數據資產體系。通過大模型識別通用業務特征,沉淀核心數據的標準化代碼片段,讓 AI 可直接調用成熟模塊;同時搭建數據資產語義層,將業務含義、指標與代碼有機關聯,提升自然語言到機器語言的轉化精度。
二、建立 “人機協同” 的工程體系。在傳統 “人 - 流程” 協作模式中引入多 Agent 協同機制,讓業務人員可實時參與 AI 生成過程并基于經驗修正,形成 “越用越好” 的正向迭代循環。
智能數據湖:
面向未來的數據治理方案
基于上述實踐,騰訊云將大數據平臺升級為 “智能數據湖” 方案,核心包含四大能力:
數據分析智能體:以類 ChatBI 能力為核心,支持自然語言轉 SQL 或代碼,目前在國際數據集測試中排名全球第三、國內第一。通過多軌并行解析(基礎需求、Excel 需求、路徑分析等),進一步提升代碼生成的準確性與效率。
數據工程 Agent:聚焦數據開發質量提升,可快速定位代碼問題,同時將 AI 能力融入數據分類分級環節,強化數據安全識別與風險監測。
Data 與 AI 一體化平臺:彌補傳統 AI 平臺在數據安全管控、資產管理上的短板,通過原有數據開發平臺的能力復用,實現大模型訓練與應用開發的全流程高效支撐。
多模態數據管理與智能運維:提前布局多模態數據存儲與治理能力,通過統一元數據管理(涵蓋技術元數據、業務元數據、模型及自定義函數)實現跨應用數據服務;引入大模型輔助平臺運維,提升大規模任務的穩定性保障效率。
寫在最后
盡管AI 與數據治理的融合仍處于探索階段,但在未來,隨著多模態數據的持續涌入,數據治理將迎來新一輪升級,AI 在深度洞察與統計分析中的作用將更加凸顯。騰訊云期待與更多企業攜手,共同完善數據智能體系,讓數據更好地支撐 AI 時代的業務創新與發展。