研究数据相似性理论
数据相似性是衡量数据对象之间的关系、研究数据和分析数据的基础。数据相似性理论研究包括:相似性的定义、相似性计算、相似性函数的性质及分类、相似性函数评估准则等。相似性理论的建立将解决数据挖掘和大数据分析技术中的核心问题,使得数据挖掘的适应性和可伸缩性大幅提高,并将影响数据领域的技术发展。
研究数据测度和数据代数
数据度量和计算是数据科学中的另一个基础问题。一个正确完备的数据计算理论是数据科学的基础之一,这需要研究和建立针对不同类型数据的代数体系。关于数据代数,目前已经有“关系代数”为关系型数据的计算提供理论依据。对于非关系型数据,需要定义“由数据集构成的集合上的度量方法和运算”,形成一定论域上的数据代数,包括:研究和定义数据集;定义数据集上的测度;定义“单位元”(“零元”、“幺元”)、数据运算(“加法”、“乘法”等),分析数据集的代数结构特性。如同关系代数为关系型数据的计算提供理论依据一样,所建立的数据代数将为非关系型数据的计算提供理论依据,在复杂数据对象处理的技术上取得突破。
探索数据科学的研究方法
数据勘探、数据实验、数据感知化是目前数据科学所需要研究的一些基本方法。数据勘探是勘探数据集的总体特性和结构,数据勘探方法研究包括数据集价值判断、数据集分析方法选择和数据集可访问性分析。数据实验用于验证自然界和数据界(Datanature)的假说和规律,用于模拟人文与社会行为,也可以用于数据规律的发现,需要研究数据观测的方法和工具、研究数据实验的方法和工具、研究实验评价和可重复性等问题。数据感知化是将数据转化为通过视觉、听觉、触觉、嗅觉、味觉等方式可直接感知的形式。