在增强现实中可视化多维数据

现实增强技术应用_ar增强现实_现实增强技术/

 

想象一下几年后的一个星期一早上走进你的办公室。

你给自己倒了一杯咖啡,阅读新闻,然后戴上一副 AR 眼镜。

您会发现自己被一个巨大的、闪闪发光的彩色圆圈包围。

Orb 代表驱动您业务的所有数据。

你很了解数据。

这些光点的图案和颜色就像指纹一样。

但咖啡机上方漂浮的数据有些不寻常。

您伸出手并选择该数据。

所有相关详细信息的摘要都可以在附近的计算机屏幕上看到。

如果某件事对您的业务很重要,您的系统会跟踪它。

当你想要消费所有这些信息时,你可以使用这种身临其境的视觉效果; 打破电脑屏幕的界限,信息密集、高效、美观。

我在 IBM 的团队正在努力使这种体验成为现实。

Immersive Insights 是一款增强现实数据可视化应用程序。

概述

这篇文章概述了我的团队最近一直在研究的一项技术。

我们一直在尝试一种通过沉浸式洞察来总结和可视化高维数据的方法。

这种总结复杂数据中重要关系的能力是我们长期愿景的关键部分。

数据可以有很多属性。

以Instacart的开源数据为例。

该数据集中的每个人都可以被视为一个数据点。

每个数据点都可以通过购买的产品列表来描述。

对于每个用户来说,这个数字超过了 50,000。

了解所有这些人之间的关系非常有用。

但我们如何开始理解如此多的数据呢?

通常,当数据科学家第一次获得数据集时,他们会使用二维散点矩阵来快速扫描内容。

二维散点图显示属性对的关系。

但对于具有大量属性的数据,这种类型的分析无法扩展。

ar增强现实_现实增强技术_现实增强技术应用/

受 的启发,我们使用以下技术分析了数据:

将复杂数据简化为三个维度并总结重要关系(本例中应用PCA)

使用 IBM Immersive Insights 可视化数据

根据对嵌入关系不断发展的理解,迭代地标记数据和颜色代码。

通过使用沉浸式洞察来导航这个特征空间,我们可以更快地验证假设并对立方体实体之间的关系有更好的直觉。

Immersive Insights 与 IBM DSX 集成。

这使得使用沉浸式可视化技术作为典型数据分析工作流程的扩展成为可能。

在 R、Python 和 Immersive Insights 之间来回切换相对容易。

适合该技术的数据集通常用于训练机器学习模型。

如果数据科学家利用这个过程来理解数据中嵌入的关系,这将有助于他们改进机器学习功能和模型。

这项技术还可以帮助人们更好地了解黑盒预测模型在幕后所做的事情。

短期内,Immersive Insights 团队的重点是为精通编程的数据专家提供可视化技术。

我们正在为这些专家开发可视化时间序列、地理和网络数据的方法。

从长远来看,我们希望扩大产品的范围,让业务分析师也能使用沉浸式洞察!

Instacart分析代码

我们如何在所附视频中创建可视化效果?

首先,在 python 笔记本中准备数据。

请参阅此处的代码。

Instacart 用户使用矢量图来描述他们与每个产品的关系。

该向量的形式是由 0 和 1 组成的稀疏数组。

每个1对应于用户至少购买过一次的产品。

每个0对应一个未购买的产品。

这种技术称为“one-hot 编码”。

然后对数据进行 PCA(主成分分析),用三个数字或“主成分”描述每个用户。

每个主成分总结了数据变化的一个方面。

在实践中,我在执行PCA时只能分析120,000个用户的内存限制。

执行PCA后,准备好的数据将输出到CSV。

接下来,数据被发送到耳机,通过单独的 R 笔记本进行可视化。

请参阅此处的代码。

笔记本根据可能影响潜在空间中用户分布的不同标准对用户进行颜色编码。

用户根据他们最常订购商品的部门(例如冷冻食品、零食、农产品)进行颜色编码。

另一种颜色编码方案显示用户是否购买了有机食品。

我还在 Immersive Insights 中引用了不同用户的 ID,然后在 R 笔记本中查找他们的购买历史记录。

这让我能够想象购买哪些产品会导致用户被放置在潜在空间的不同区域。

分析结果

未购买任何有机食品的用户在潜在空间中紧密聚集在一起。

这一发现是令人信服的证据,支持从可视化中得出的定性观察:购买优质商品的用户和喜欢相同产品的低成本版本的用户之间的 Instacart 购买模式存在显着差异。 。

注重成本的买家和高级买家之间的这种差异对 Instacart 的营销、促销和推荐策略具有深远的影响。

我们还发现 Instacart 用户购买的产品远多于任何其他产品。

喜欢产品的用户有很多不同类型。

几乎每个人都买农产品!

当用户根据购买商品的模式部门进行分类时,它们不是线性可分的。

我们发现,虽然有助于理解用户购买模式之间的一些关系,但这种类型的分类似乎忽略了数据集三个主要组成部分描述的大部分变化。

综上所述

本文介绍了一种使用增强现实分析大数据的技术。

该技术最适合准备创建机器学习模型的数据科学家。

大数据、增强现实和机器学习正在成为塑造商业和社会未来的三大颠覆性技术。

正如我们所展示的,这些颠覆性技术可以以创造性和有用的方式相互加强。