合成数据(Synthetic Data),顾名思义,是由AI程序人工生成的数据。
它可以是文本、图像、语音甚至视频片段等一切内容。
现在真正的问题是——为什么不简单地使用真实数据呢?
原因是缺乏对数据的控制。
推荐:用 NSDT编辑器 快速搭建可编程3D场景
仅亚马逊每天就会产生超过 1000 PB 的数据。 许多其他科技或社交媒体巨头生成大量用户数据。 但这些真实数据的控制权只掌握在少数科技巨头手中。
然而,规模较小的公司或初创公司无法获得如此丰富的资源。 因此,合成数据可以成为训练原型和创建模型的有利可图的机会。
此外,数字化也为公司捕获我们的数据来训练他们的机器学习模型铺平了道路。 只要他们使用我们的数据来产生收入,这对我们来说就不是问题。
但当黑客闯入系统并检索敏感数据时,就会出现大问题。
使用传统的匿名技术是另一个问题。
该技术使用假名化、行和列改组、目录替换和加密。
虽然看起来很有希望,但研究表明,80% 的信用卡持卡人的身份可以从最近 3 笔交易中重新识别,如果他们的出生日期、性别和邮政编码暴露,其中 87% 的人将面临风险。
为了克服这个问题,公司现在正在转向合成数据生成工具。 虽然它们提供了另一种捕获现实世界数据的方法,但处理后的数据不会受到影响。
合成数据生成(Synthetic Data Generation)是由机器学习模型执行的数学和统计过程,这些模型使用真实的物体、人和环境进行训练。
然而,输出数据不携带任何敏感数据,但保留了真实数据的行为特征。
合成数据生成不仅是一项创新,而且是准确、安全且经济高效的数据建模的解决方案。
据 Gartner 称,到 2030 年,合成数据将超越真实数据。此外,一些初创公司正在利用这项创新,其影响已经显而易见。
合成数据有什么好处?
- 与传统的匿名工具相比,合成数据生成是一种安全、快速且可扩展的解决方案。 它通过自动化手动和日常数据准备来节省时间和成本。
- 现实世界的数据高度偏向于特定的结果或类别。 合成数据消除了这种偏差行为,并提供了对可能性的多样化看法。
- 它提供对数据的完全控制,开发人员可以调整参数以适应不断变化的环境。
- 借助合成数据,研究人员可以对可能不存在的场景进行建模,从而促进创新。
- 在不影响敏感数据的情况下,营销人员可以创建类似于真实客户旅程和行为的客户角色。
- 重新平衡功能可能有助于减少不准确和缺失信息,以提供全面且高质量的数据集。
- 合成数据可以在遵循隐私政策的同时,通过数据的公平分配来确保数据的公平性。
合成数据几乎可以应用于所有行业——IT 和软件、零售、金融、国防、医疗保健、农业、食品生产、建筑、游戏等等。
接下来我们将介绍 15 个最佳的合成数据生成平台,这些平台可以缩小现实世界与模拟世界之间的差距。
Hazy 是一家总部位于英国的合成数据生成初创公司,旨在为金融科技行业训练原始银行数据。 Hazy 的数据建模使开发人员能够加快分析工作流程,同时避免在收集真实客户数据时发现的任何高欺诈风险。
尽管银行应该提供 API 以保证数据隐私和透明度,但处理 Hazy 的合成数据让人松了一口气,因为它提供了安全性并符合 GDPR 政策。
金融服务过程中会产生大量复杂的数据,这些数据通常存储在公司内部的孤岛中。
然而,不同业务领域内共享真实财务数据,特别是出于研究目的,受到法律的严格限制。
这也阻碍了公司在销售有价值的客户洞察的同时创造新的收入来源。 因此,Hazy 确保公司可以通过出售见解而不是身份来将数据货币化。
共享数据是银行机构运营要求的一部分。
这使他们能够根据交易了解客户行为并合成新样本,而无需存储任何真实数据或部分数据。 但在手头合成了客户数据后,将其映射回原始形式是不可能的。
Hazy 还确保在几天内管理此类资源密集型流程,否则可能需要几个月的时间。
K2View 的合成数据生成工具先进且准确,可大规模创建真实且合规的合成数据。你可以使用它们为多种目的提供有用的数据。 示例包括软件测试和训练机器学习模型。
K2View 的主要产品是创新的业务实体方法。 它在生成合成数据时保持引用完整性。 为了实现这一目标,他们使用数据模型蓝图来显示业务实体如何连接。
因此,所产生的数据在不同事物中都是准确且一致的。
K2View 提供了四种生成数据的方法,可以组合使用以获得更好的结果。
- 生成式AI利用先进的机器学习算法来模仿真实的数据分布和模式,即使原始数据稀疏也是如此。
- 基于规则的生成非常适合为新功能和负面测试场景生成数据。
- 数据克隆,复制生产数据的子集以进行性能测试。
- 数据脱敏,通过匿名或加密来保护 PII 数据。
Datomize 于 2020 年推出,是顶级初创公司之一,也是新兴的合成数据生成工具。 Datomize 的 AI/ML 建模适用于全球银行的客户数据。
拥有一个了解技术要求并尊重监管委员会的供应商就已经成功了一半。
Datomize 作为一个成功的人工数据生成器、测试、开发、创新以及货币化方面的第三方合作者,真正脱颖而出。
借助 Datomize,你可以轻松连接到企业数据服务器,例如 PostgreSQL、MySQL、Oracle 等……并处理复杂的数据结构和包含成百上千个表的依赖关系。
然后,该算法从原始数据中提取行为特征,并创建相同的数据孪生,但与原始数据完全无关。
凭借 API 集成、云协作、数据模拟和隐私功能,Datomize 提供最先进的 AI 解决方案。
最近,Datomize 获得了价值 600 万美元的种子资金,用于其服务的商业化,并使组织能够提升其数字化转型服务。
Tonic.ai 通常被称为“假数据公司”,它提供了一种自动化、匿名的数据合成方式,用于测试和开发。
该平台还实现了数据库去标识化,即从真实数据中过滤掉个人身份数据(PII),保护客户隐私。
Tonic 强大的 AI 算法借助生成对抗网络 (GAN) 模型对数据库中的不同表进行分类。
它由两个子模型组成——生成器和判别器。 他们互相对抗。
生成器获取真实的输入数据并创建类似但全新的数据实例。 判别器是通过生成器对真实数据和合成数据进行训练的,可以区分这两种数据。 只要鉴别器无法区分真实数据和虚假数据,这个过程就会继续。
该平台保留了数据中的行为和依赖关系,使数据科学团队可以通过消除大量的手动工作来轻松处理同样有价值的数据。
最近,Tonic 推出了智能链接生成器,它利用神经网络来模拟需要大量分类的复杂数据集。
Mostly.AI 是一个位于维也纳的综合数据平台,为保险、银行和电信等行业提供服务。 它支持尖端的人工智能和顶级隐私,同时从原始数据中提取模式和结构以准备完全不同的数据集。
Mostly.AI严格遵守GDPR的隐私法,并声称是第一个获得SOC 2 Type 2认证的合成数据生成器。 这意味着公司的职业道德遵循安全、透明和保密。
该平台允许用户从头开始采样原始数据,同时考虑创建与他们没有直接关系的合成数据的可能性。
但这也意味着不存在可以逆转合成数据重新识别的双向系统。
不仅仅是数据合成。 Mostly.AI 的机器学习系统还为数据工程师可视化多种攻击场景并在需要时采取风险规避措施铺平了道路。
Mostly.AI 具有预测建模、高级分析和欺诈检测功能,是寻求无缝性能、协作和创新的企业的首选软件。
Sogeti 是Capgemini集团的子公司,是一个基于认知的数据处理和合成解决方案。
它使用一种名为人工数据放大器 (ADA) 的原生技术,可以学习和推理输入的任何类型的数据,无论是结构化文档还是非结构化文档,例如手写、照片、扫描或表格副本。
ADA 使用深度学习方法,可以模仿人类的识别能力,使 Sogeti 从竞争对手中脱颖而出。
无论是数据提取,ADA系统都可以识别待处理信息的相关性,并根据类别进行分类。
生成合成数据后,Sogeti 会保留与原始数据在统计上相似但不存在任何同一性的数据特征和相关性。
通过实施 ADA 系统,Sogeti 已成为专门针对工程、研究、质量保证和测试的最佳基于数据科学的解决方案之一。
Synthesized.io 是一款用于数据供应、增强、安全共享和协作的一体化 AI dataOps 解决方案。
该平台生成原始数据的版本以及识别缺失值和敏感信息的多个测试数据场景。 该公司了解数据不平衡的问题,例如有关预测模型的缺失值或有偏差的信息。
因此,该平台使用称为 Synthesized SDK 的自动生成模型,有助于根据需要重塑数据。 该模型可以确保数据相关、没有任何偏见,并且不包含敏感信息。
此外,数据工程师还可以将数据匿名化以供重新利用。
最近,该公司在 Google Colab 中发布了 Synthesized SDK,这使其成为获得重要见解并在深度学习库上合作的理想平台。
该平台让研发团队和企业客户相互熟悉,并让他们学习创建高端合成数据所需的功能。
此外,该公司还推出了名为 FairLens 的开源 Python 库,该库与 Synthesized SDK 配合使用,允许开发人员获得数据洞察、发现偏见并确保公平使用数据。
现在,多家保险公司和银行公司信任该综合 SDK,并使其成为数据科学家要求较高的平台,能够比传统综合技术提供更快、更好的结果。
YData 是一家总部位于葡萄牙的初创公司,帮助数据科学家使用可扩展的人工智能解决方案解决数据质量差或访问大量用户数据的问题。
该公司提供专有工具和自动化框架,以简化数据访问、分析和生成合成数据的过程,同时遵循用户隐私和保护合规性要求。
YData 不仅提供高质量的合成数据,而且确保它们没有偏见或任何 PII(个人身份信息)。
尽管该平台于 2019 年推出,但其服务已被许多组织采用,例如零售、金融、医疗保健、电信,甚至电力或供水等公用事业。
在执行推理攻击等测试时,YData 工程师要对任何身份泄露或重新识别的风险负责。 因此,他们利用 TSTR(训练综合测试真实)方法来评估人工智能生成的数据用于训练预测模型的能力。
YData 最近完成了价值 270 万美元的种子资金,以将其服务扩展到全球,从而使合作伙伴能够使用其数据生成功能。
医疗保健行业的数字化产生了大量的患者数据,使该行业能够利用这些信息进行个性化护理。
然而,为了获取临床数据,研究人员必须依赖中介来获取患者的数据。 然而,这个过程很慢,并且限制了数据的灵活性和可访问性。 患者的隐私也是一个主要问题。
因此,MDClone 提供了一种系统化的方法来民主化医疗保健数据,以进行实时研究、分析和合成,而不会侵犯患者的敏感数据。
这个位于以色列的生命科学平台使用 ADAMS 基础设施(询问、发现、行动、测量和共享)来帮助用户克服数据可用性、创新、安全性等常见障碍,并培育新的合作机会。
MDClone 在提供克隆但匿名的患者数据方面迈出了变革性的一步。 该技术有助于根据患者的真实统计特征创建合成数据,而无需此类患者。
借助虚构的患者数据,医疗保健提供者可以根据患者的年龄、性别、病史等获得各种信息。例如,他们可以研究针对特定疾病开出的不同类型药物的反应,从而帮助 他们找到更好的治疗措施。
Facteus 是一种基于金融科技的合成数据生成器,可从信用卡和借记卡交易等交易详细信息中获取可操作的见解,而不会泄露客户的敏感详细信息。
该平台使用原生技术、Mimic 和 Quantamatics 来执行分析、测试、培训和云共享,同时遵守监管和隐私法。
Mimic 的数据合成技术使工程师能够访问高质量的用户数据、加强创新并产生新的收入系统。
Mimic 有助于生成合成数据,而 Quantamatics 则允许用户填补缺失的信息并预测未来的表现。
Facteus 最近与投资研究公司 Pacific Epoch 联手,向亚洲市场的投资者提供综合的美国消费者支出详细信息。
此次合作将为投资者提供独特的市场洞察,以加强亚洲和美国的投资模式。
该公司还与 Snowflake Partner Network 合作,利用 Snowflake 的云服务来利用数据迁移、分析工具的使用以及平台的计算功能。
感知建模是机器学习领域的前沿技术。 Anyverse 使用该技术创建综合模拟 3D 环境。
这一切都是为了捕捉现实世界的镜头并生成需要验证、训练和测试的传感器特定数据。
Anyverse 在光线追踪引擎的帮助下渲染和配置样本数据的不同场景。 该技术在物理层面上计算光束与场景中物体的相互作用。
这对于重新创建完全不同的场景和动态属性,同时填充原始场景中的任何数据间隙非常有用。
去年,Anyverse 与基于激光雷达的安全解决方案提供商 Velodyne 合作,为快速增长的自主开发行业提供服务。
该平台支持广泛的用例,开发人员可以通过编程方式控制捕获的镜头并生成多个版本的数据。
例如,为无人机、车辆或闭路电视等室内场景训练智能摄像头使平台能够收集丰富的数据库并使用它们来建模场景。
这有助于对智能城市或交通拥堵问题进行建模,同时捕获现实世界中人们的行为和物理现象。
CVEDIA 包含多种 ML 算法,提供综合计算机视觉解决方案,以改进对象识别和 AI 渲染。
该平台与 NVIDIA 的 Metropolis 计划配合使用,该计划包含用于高端工程解决方案的硬件和软件。 它使用一套工具、传感器和物联网来开发高级人工智能应用程序。
例如,CVEDIA 的 TALOS 是一种先进的人体检测器,即使在人群拥挤的情况下也能高精度识别人脸。
在疫情肆虐的世界,保持社交距离已成为一种新常态。 因此,ACESO 工具使用热图来深入了解公共热点区域及其行为。
同样,HERMES 使用深度学习算法对从自行车到公共汽车的车辆类型进行分类。 尽管该工具会对车牌进行匿名处理,以确保符合 GDPR 法规。
这同样适用于 TALOS 和 ACESO,确保面孔绝对无法识别。
此外,TALOS还可用于检测枪支和步枪,以及比较正常行人和持枪者,同时在繁忙环境中保持准确性。
Neurolabs 是一家位于罗马尼亚的综合数据平台,该平台使用杂货市场的计算机视觉模型。 零售店经常面临实时库存管理、产品放错或丢失以及缺货的问题。
因此,Neurolab 集成了名为 Re-Shelf 的自制解决方案来监控此类问题并向内部员工发出警报。
Re-Shelf 使用机器学习和计算机生成的图像来实时训练像素完美的数据。
该平台允许用户访问数千个流行的库存单位(用于从清单或发票中识别库存的产品代码),并使用它们添加数据库中缺少的合成产品图像。
为了获得最佳性能,他们在计算机视觉模型和合成数据之间使用自动反馈循环。 这会产生高品质的 3D 复制品,其颜色和灯光变化与真实产品非常相似。
Neurolabs 声称其物体识别能力大约快 20 倍,而且价格便宜 100 倍。
该平台目前正在研究多个用例,例如农业中的制造缺陷识别、分类和作物分级、废物回收等。
Rendered.AI 为卫星、自动驾驶汽车、机器人和医疗保健行业生成基于物理的合成数据集。
该公司声称只需点击按钮即可轻松生成合成数据。 有一个无代码配置工具和 API,可供工程师对数据集进行快速更改和分析。 它们可以在浏览器上执行数据生成,并且无需太多计算能力即可轻松操作机器学习工作流程。
假设一家公司想要推出一种用于卫星图像传感的传感器,并希望获得该项目的资金。 在这种情况下,该公司需要真实的数据来演示该应用程序。
因此,Rendered AI 的合成数据解决方案开始发挥作用,该公司可以渲染各种实时场景并复制类似卫星的图像。
该平台还支持协作,多个用户可以在数据生成通道上协同工作,并通过云安全地共享见解。
Gretel.ai 是用于创建合成数据的新兴平台之一。 Gretel 自称为“隐私工程即服务”,可生成统计上等效的数据集,而无需原始来源的任何敏感客户数据。
在训练数据进行合成时,Gretel 的机器学习算法通过使用序列到序列模型来比较实时信息,以便在生成新数据的同时进行预测。
该平台由称为长短期记忆 (LSTM) 的神经网络提供支持,可以模仿原始数据中的任何结构化数据。
Gretel 还实现了差分隐私,确保系统中不会记忆或重新识别原始数据。
Gretel 作为下一代数据生成器看起来很有前途,因为该平台誓言很快将在金融、医疗保健和游戏领域发挥作用。
对于客户来说,数据将不再令人恐惧。 然而,通过更好地实施隐私政策,公司将减少对客户的依赖。
对于黑客来说,我认为他们可能需要改变他们的职业。
对于数据来说,事情会很有趣。
随着机器学习模型的进步,洞察力可以像人类的思考和感知一样真实。 不同的排列和组合将有可能获得不同的结果——即使是在没有人经历过的规模上。
这听起来和多元宇宙理论一样激烈,不是吗?
最后,对于科技巨头的首席执行官来说是个好消息。 对他们来说,合成数据意味着不再需要举行国会听证会。