当然,这只是狭义上的“维度灾难”,广义的“维度灾难”指的是在高维和分数维度中,基础规律和方法难以解析的困境。
崔教授停顿了一下,笑着说:面对“维度灾难”,现在哪些领域有了突破性进展呢?接下来,我们有请机器学习领域的谭教授为大家分享他在降维算法上的研究成果。
谭教授开始了他的演讲。
大家请看大屏幕,这是三维空间中的分类结果投影到二维空间的情景。我们可以看出,在低维空间中,数据没有显示出明显的可分性。实际上,通过增加第三维度来获得最优分类效果,这等价于在低维空间使用复杂的非线性分类器。复杂的模型结构往往也是导致过拟合的原因之一。结果就是,分类器学习了数据集中的很多特例,因此在面对现实数据时,效果往往较差。因为现实数据不包含这些噪声及异常特性。
如果我们不断增加特征,特征维度就会变得越来越大,同时数据也变得越来越稀疏。由于稀疏性的影响,随着特征维度的增加,我们很容易找到一个可以完美分开不同类别的超平面。因为训练样本落在该空间中超平面错误一侧的概率会随着维度的增加而无限变小。然而,如果将高维分类映射回低维空间,我们很容易发现一个严重问题:使用太多特征会导致过拟合。分类器学习了大量异常特征,因此对新数据的泛化性能降低。
维度灾难可以通过使用更少的特征来避免。这样分类器就不会对训练数据过拟合。另一方面,如果持续增加维度,训练数据的数量需要指数级增加,才能保持相同的距离分布,避免过拟合。
在实际处理中,我们通常会使用降维来应对高维复杂信息。降维是一种通过将数据点映射到更低维空间以寻求紧凑表示的技术,这种低维空间的表示能够进一步简化数据处理。从原始特征中提取新的特征是降维的重要目的之一。
降维作为多个研究领域的一个重要分支,方法多种多样,包括线性和非线性方法。还有一种特殊的降维方法,即基于分形的降维,也是我研究的主要方向。采用分形的思想,我们可以较为准确地估计出数据的本征维度,从而为进一步的降维提供指导参考。基于分形的方法能够得到非整数值的本征维度,通常称为分数维。通过分数维建模,可以更贴近一些复杂的混沌系统规律。如果大家感兴趣,可以考虑加入我的团队。
我们未来的研究方向已经很明确了。降维研究已持续多年,取得了丰硕的成果。通过分形降维方法,数学领域已经推导出同一数据在不同维度之间的转换规律。这可以说是一个前所未有的成就。维度之门已经打开,等待我们去探索其中的宝藏。我今天的讲解就到这里,感谢大家的聆听。
这是一个激动人心的时刻,我宣布该项基础工程正式立项。项目周期为五十年,代号为050工程,参与人员500人,涉及领域涵盖各类基础学科。在座的各位可以根据自身情况自由组合,成立课题组。接下来大家可以自由讨论,讨论结果请汇总到张助理那里。
璩峰听完了演讲,随后组织了一个关于跨维度自相似性研究的课题。几年前,李剑平临走前曾安排他加入崔教授的团队,继续推进跨维度自相似性的理论体系研究。崔教授也一直在积极申请基础理论方面的专项研究课题,直到今年,国家科技委意识到基础数学和物理理论研究的重要性,认为研究的时机已经成熟。再不开展此类研究,人类科技的发展将会遇到瓶颈。
璩峰倾听着团队专家们的意见,内心却有着不同的想法。他认为应当转变思路,而不是一味地通过降维的方式,使问题简单化。多年来的研究表明,这种方式固然易于实现、理解,并容易产生成果,但他发现降维、低维投影、维度缩放等方向会带来一个普遍的问题:除了本征维之外,还有更多的信息被忽视和丢弃。而这些隐藏的信息中很可能蕴藏着重要的规律,正是今后研究的关键,甚至可能引发科技的革命性突破。我们不能再将“维度灾难”视作不处理高维数据的借口。
璩峰反对降维的传统方法,提出了拓展维度的设想。在他看来,我们应该利用超级计算机的强大算力,像SVM(支持向量机)那样,寻找高维的超平面,从而使所有的信息变得可分辨。甚至可以将低维数据映射到高维空间,从而揭示更多的隐藏信息,帮助我们理解高维中的深层规律。
然而,小组内的专家们并不同意他的观点。他们认为,从古希腊到现代,从亚里士多德到爱因斯坦,科学研究的基本原则一直是将复杂问题简单化。物理规律越简洁明了,越接近真理的普适性规律,例如质能方程、麦克斯韦方程组。抓住主要矛盾,抛开次要矛盾,是科学研究的重要方法论。在降维领域,之所以能够取得成果,正是因为遵循了这一思路,没有偏离大方向。
讨论结束后,团队成员不欢而散,璩峰一个人走在大街上。习惯了的孤独感再次袭来,明亮的街灯给城市夜晚增添了一丝暖意。他抬头望向天空,漆黑的夜空令人倍感寂静。
多年来,他从未放弃寻找他们的下落,甚至对身边的所有人,包括明华的儿子明昊,隐瞒了一切。
自从五年前,李剑平去海南出差后杳无音信,璩峰愈发坚信,身边那些失踪的人们还活着。他相信他们加入了一个名为BT的秘密组织,正在从事一些不为人知的研究。为了揭开这个组织的秘密,璩峰一直在暗中寻找线索。