会员登录|免费注册|忘记密码|管理入口 返回主站||保存桌面
【原】2025年如何利用AI人工智能加强数据治理和应用|必读
2025-01-30IP属地 湖北1

人工智能如何增强数据产品生命周期、用户体验的重要性以及以较少资源专注于高级垂直行业的能力呢?

大多数组织目前正在研究如何将人工智能融入其数据货币化战略,或者人工智能如何帮助直接影响可货币化指标:面向客户的应用程序和体验。

为了实现人工智能的宏大目标,我们首先需要对数据也就是人工智能的粮食有强大的目标。从根本上解决“垃圾进垃圾出”的问题。

在本文中,我们想专门讨论如何通过人工智能优化数据产品开发,以更快、更自然、更有效地构建和扩展数据产品

常见问题:数据产品不就是为了推动更好的 AI 解决方案而构建的吗?
反过来又何尝不是如此呢?

人工智能的类别

人工智能有多种类型,复杂程度也各不相同。从简单模型到超级复杂的神经网络和树形算法。在操作层面,即使是简单的人工智能结构也能证明非常有效。例如,用于识别异常数据库更新的人工智能数据爬虫。

这不需要很高的语境理解,并且可以在结构模式的最基本层面上运作。这也是为什么最简单的人工智能——回归仍然是最常用的人工智能形式的原因

数据产品生命周期极大地受益于这种多类操作型人工智能。从设计到演进,数据产品可以以比以前想象的更快的速度开发。通过人工智能增强,任何明显的复杂性都被简化为更简单的操作。

组织在构建数据产品时面临的挑战

虽然数据产品是解决多项数据挑战的解决方案,但构建这些目的驱动的数据产品的过程可能会被许多组织视为一个巨大的文化飞跃,尤其是那些深陷遗留系统的组织。

  • 数据团队缺乏足够的技能来提供类似产品的功能和角色

  • 无法扩展到数据产品生态系统(缺乏技能和资源)

  • 数据产品清洗:添加另一层冗余,而不是真实的数据产品层(缺乏产品思维和理解)

  • 数据产品生命周期耗时较长(对产品实施存在误解)

  • 优先级排序失误:任何产品驱动因素的首要技能都是优先级排序,但由于有太多预先存在的请求,很容易忽视

正如您所看到的,大多数挑战都源于文化或思维方式的差距,这无疑是真正采用数据产品的一大障碍。采用“产品思维”不能仅仅强加给那些长期习惯以某种方式在传统或现代数据堆栈中工作的数据人员。

人工智能比任何其他技术都更接近人类。至少在数据领域是如此。它能够介入人类思维徘徊或抗拒的地方,使流程看起来更自然、更简单。从本质上讲,人工智能不仅有助于消除习惯性阻力并围绕顽固流程发展文化,而且在此过程中,它还推动我们在建立大规模数据产品方面取得进展

本文将探讨人工智能可以补充数据产品之旅以及弥合数据与用户之间差距的关键领域。

人工智能补充数据产品过程的关键领域

数据产品堆栈中可选 AI 增强的潜在领域。

0-1. 语义层的完善过程

优先考虑正确的用例

跨领域识别关键用例的过程必须主要依靠人工,因为这需要高度的战略性和批判性思维。但是,使用现有流程或数据产品的指标和见解可能会增加更多的优势。

例如,营销经理可以向现有的数据产品询问“哪个客户群体在过去两个季度表现不佳,以及与该群体相关的潜在异常是什么”。

基于这些洞察,可以开发新的用例来提高细分市场的表现。乍一看,这个过程是这样的:

语义层由数据产品原型的逻辑模型提供支持。这是由业务问题引发的。

想象一下使用 ChatGPT 或其企业 LLM 的企业

这些工具可让每个人立即熟练地提出问题,无需任何专业技能或资质。无需与 REST 接口对话、掌握复杂的 SQL 查询或配置复杂的 API,您只需要学习如何提出问题(这也非常重要)。

当我们确定业务痛点并围绕它们提出一些问题时,AI 可以帮助我们提出更多问题或建议修改现有问题。这有助于创建更大的“问题树”,并且创建的正确问题越多,围绕这些问题构建的指标就越准确。

解决空白画布问题以构建 Fastrack 度量树

空白画布问题是所有以人为本的流程中最大的摩擦点之一就像写作障碍一样,在白板上写下一堆指标并根据手头用例所需的查询和问题找出潜在的关联可能很有挑战性。

虽然人工智能(较低等级)无法为您提供与您的领域目标或背景相匹配的完美结果,但它有助于立即克服空白画布障碍。您可以清楚地了解潜在关系可能在哪里以及如何建立,然后从那里开始,利用只有人类才能获得的战略能力和背景。

LLM 生成的指标树,用于在大规模构建指标树时跳过空白画布。只需使用像 ChatGPT 这样的公共 LLM 或更了解公司业务领域(如电子商务)的企业 LLM,PM、SME 和其他相关利益相关者就可以快速获得更复杂的子问题的建议。这减少了头脑风暴的时间,并快速提供大量可直接使用或有助于激发新想法和策略的问题。

解决空白画布问题以快速构建逻辑模型或数据产品原型

对语义模型进行重复这一过程。人工智能可以参与的地方:

  • 推断场景。

  • 为实体、度量和维度推荐上下文描述/标签。

  • 建议通常在该域级别实施的标准访问 SLO

  • 根据实体、维度或度量的描述、含义或标签推荐质量检查

2. 简化模拟数据生成

由于特定领域数据的复杂性和底层细微差别,生成用于验证数据产品原型的模拟数据流可能是一项繁琐的任务。但如今,人工智能让这一任务变得轻而易举。

假设您是物流企业的运营团队成员,并且想要构建一个数据产品,例如“路线效率优化器”。

该图描绘了使用 NLP 生成合成数据的一般流程,然后为该流程提供动力以生成实时模拟数据流。

模式生成

物流数据集的模式可能包括路线 ID车辆 ID、起点位置终点位置距离、运行时间运送量运送时间窗口费用等列。

人工智能可以解释这种模式并生成适当的数据类型,例如:

  • 路线 ID、车辆 ID、运送量和停靠次数的整数;

  • 距离、行程时间、配送量和成本的浮动值,以及

  • 起始位置、结束位置和交付时间窗口的字符串。

然后,AI 可以分析这些数据以识别模式、优化路线并提高整体路线效率。AI 可以处理更复杂的结构,例如嵌套的 JSON 对象或数组,这些结构在现实世界的数据场景中很常见。

人工智能引擎还可以查找可以连接形成数据产品的数据资产(例如表或其他实体)之间的关系。

在创建模拟数据和处理真实数据的两个阶段,模式生成过程都同样得到了人工智能的辅助。

数据合成

一旦定义了模式,AI就可以生成模仿现实世界数据模式的合成数据。这包括:

  1. 随机数据生成:创建遵循指定分布的多样化数据点,例如为财务数据生成一系列交易金额。

  2. 模式识别:生成遵循特定模式或相关性的数据,例如监控系统的时间序列数据。

实时模拟数据流

使用 API 发送提示并接收生成的模式。例如,与 OpenAI 的 API 集成可以实现无缝模式创建。OpenAI 的 GPT-4 或类似的 LLM。AI 可以生成实时模拟数据流,这对于测试事件驱动架构和实时分析平台至关重要。

这对于实时个性化、欺诈检测和动态库存管理等应用特别有用。

3. 简化物理数据层的流程

让我们以搬家公司为例。

假设您是搬家企业的运营团队成员,想要构建一个数据产品,比如“路线效率优化器”,用于优化运输路线,减少燃料消耗、时间和运营成本。

为了实现这一目标,他们需要整合来自各种来源的数据,例如 GPS 跟踪系统、交通数据、客户地址和车辆性能指标。

在物理数据层,这需要从不同来源获取多样化的数据集。AI引擎在这里起什么作用?