数据科学

研究数据相似性理论

数据相似性是衡量数据对象之间的关系、研究数据和分析数据的基础。数据相似性理论研究包括：相似性的定义、相似性计算、相似性函数的性质及分类、相似性函数评估准则等。相似性理论的建立将解决数据挖掘和大数据分析技术中的核心问题，使得数据挖掘的适应性和可伸缩性大幅提高，并将影响数据领域的技术发展。

研究数据测度和数据代数

数据度量和计算是数据科学中的另一个基础问题。一个正确完备的数据计算理论是数据科学的基础之一，这需要研究和建立针对不同类型数据的代数体系。关于数据代数，目前已经有“关系代数”为关系型数据的计算提供理论依据。对于非关系型数据，需要定义“由数据集构成的集合上的度量方法和运算”，形成一定论域上的数据代数，包括：研究和定义数据集；定义数据集上的测度；定义“单位元”（“零元”、“幺元”）、数据运算（“加法”、“乘法”等），分析数据集的代数结构特性。如同关系代数为关系型数据的计算提供理论依据一样，所建立的数据代数将为非关系型数据的计算提供理论依据，在复杂数据对象处理的技术上取得突破。

探索数据科学的研究方法

数据勘探、数据实验、数据感知化是目前数据科学所需要研究的一些基本方法。数据勘探是勘探数据集的总体特性和结构，数据勘探方法研究包括数据集价值判断、数据集分析方法选择和数据集可访问性分析。数据实验用于验证自然界和数据界（Datanature）的假说和规律，用于模拟人文与社会行为，也可以用于数据规律的发现，需要研究数据观测的方法和工具、研究数据实验的方法和工具、研究实验评价和可重复性等问题。数据感知化是将数据转化为通过视觉、听觉、触觉、嗅觉、味觉等方式可直接感知的形式。

《大数据》期刊	华东师范大学数据科学与工程研究院	中国科学院虚拟经济与数据科学研究中心	上海世纪出版股份有限公司科学技术出版社
CCF大数据专家委员会	中关村大数据产业与创新联盟	农业大学数据产业技术创新战略联盟	上海市科学技术委员会