中国知网论文查重样例–大数据演化规律的公式发现

2017-08-21 作者:小编

中国知网论文查重样例--大数据演化规律的公式发现

寻求大数据的演化规律是机器推理的主要研究内容之一,其中公式发现是大数据机器推理和知识自动化领域的重要科学问题,并在众多其他领域中有着广泛的应用[67,68].对于自变量x和因变量y,公式发现的目标就是找到合适的函数f使得f(x,y)=0能够较好地描述变量x和y在不同状态的观测值.随着人们对知识推理的深入研究,已有多个基于观测数据的公式发现系统被提出,例如,Langley和Zytkow[69]开发的BACON系统和Chen等[70]提出的FDD(formuladiscoveryfromdata)系统.这些方法的提出推动了公式发现的研究,但人们仍然希望能够找到一种可以有效揭示多变量公式的公式发现方法.

事实上,已有的基于相关系数、熵和多项式拟合的方法,仅考虑了两个变量之间的依赖关系或者仅对单变量函数有效.当变量增多时,往往只能固定其他变量而仅考虑一个变量方向的数据变动情况[71,72].因此,传统方法在实际应用中具有相当大的局限性.随着知识碎片化程度的深入,信息之间的关联呈现愈加复杂的态势,这对传统的公式发现方法提出了更高的要求.例如,相对于双变量的情形,人们更加关注多个变量数据之间的内在规律性.能否提出一种适用于处理碎片化知识的理论或框架,是突破当前研究瓶颈的关键.

多变量要求:在当前背景下,知识与信息呈现出愈发复杂的关联关系,仅考虑两个变量的系统是不具有实用性的.可以处理多关联、多纠缠信息的公式发现方法亟待被提出.强表征能力:知识的复杂关联不仅体现在多变量层面,也体现在函数形式本身的复杂性上.单一函数已经不足以表达这种复杂的关系,我们需要拥有更加丰富表征能力的系统.高计算效率:随着大数据影响的深入,我们被淹没在信息的海洋中,却渴望知识的淡水.适用于大规模数据集的公式发现架构才是具有实用价值的.

卫生组织(WHO)数据集(如表2所示),包含了202个国家的356组数据.联合国(UNdata)数据集包含了34个数据库,600多万条记录.我们以这两个数据集为输入,得到了一些公式.这些公式具有直观的物理意义.但是还有许多不具有直观物理意义的公式被发现出来,这就为相关领域方面的学者提供了启发与进一步研究的方向.

.—— END ——.