博士马修burfitt讨论映射器型算法

2019年8月21日

南安普敦扬声器,博士马修burfitt,大学解释说,这项研究调查的拓扑数据分析工具的稳定性 映射器 在聚类各种类型的数据到集群子集的数量有限。映射器,第一工作由底层度量空间的选择的覆盖(有一些重叠) Rn 的数据,并且聚类的数据覆盖的各构件的内部,使用聚类算法。然后的曲线图被创建的节点是该组的所有集群的和边缘,在相邻的覆盖物,只要它们共享某些数据集簇之间绘制。输出图形可以是或可以不是平面的而是简单地映射器映射的图分成 R3 没有交叉,即映射器提供了任何尺寸的数据的低维可视化在簇质心的拓扑结构而言,但映射器输出变化很大与输入群集参数的变化。许多方法来选择所述底层度量空间的覆盖 Rn。经典的方法使用 过滤 功能:和构造一组开放的间隔重叠的前图像。

影响映射器的性能参数,涉及覆盖的选择范围,聚类算法(一个或多个)。在经典情况下,覆盖参数包括过滤器,间隔的数量和重叠的宽度。试错是有显着不同的结果选择参数的唯一途径。主要的挑战是克林伯格不可能定理:“没有集群功能,满足规模不变性,丰富性和一致性。”

为了定义集群不稳定,几簇质量的措施进行了综述。应用任何质量功能的替代集群有助于消除一个独特的现有最小的聚类功能的需要。围绕数据点的排列工作将需要聚类图中最小的匹配距离。这是通过使用维诺图所示。

然后聚集的不稳定已经普及到一个映射器设置。特别是,映射器的稳定性的数值量度在这些变化聚类灵敏度方面中提出的。这允许获得映射器不稳定的高值和实验表明它是如何被应用以确定在参数的变化很好映射器输出。

扬声器示出了这些概念与几个例子。适应的方法处理了聚类算法的聚类无关的不稳定性,并且需要很少的数据细节,使得它适用于任何映射器型工具。扬声器指出,这种做法对乳腺癌和糖尿病的数据集表现良好。

呈现在白金汉宫模拟关于这一主题的适用性,认真讨论了许多研究数据分析,以及一些有趣的问题,提出了可以帮助我们更好的数据科学领域的主要挑战的理解。

主讲嘉宾计算的学校呈现给研究生和本科生见识到了他们的研究,显示他们已进行的研究项目的范围。这是扩大其计算的理解和确定的进一步研究感兴趣的领域的机会。鼓励所有参加。

检查出即将到来 计算活动和研讨会的学校.

了解更多关于我们 在计算课程.