首页

科研动态

生成对抗网络提高样本数据质量研究进展

来源：未来食品科学中心图文：李伟；审核：周景文、汪超发布日期：2021-03-16 查看次数：次

近日，IEEE Transactions on Cybernetics近日收录了江南大学未来食品科学中心和人工智能与计算机学院崔晓晖教授团队的论文HausdorffGAN: Improving GAN Generation Quality WithHausdorffMetric。李伟副教授为第一作者，崔晓晖教授为通讯作者。

研究背景：生成对抗网络是当前流行的深度生成模型之一，广泛应用于不同领域的样本增强，是机器学习领域的研究热点。生成对抗网络包含辨别器和生成器，前者判别当前数据真假、后者生成模拟数据以欺骗辨别器。如生成数据分布和原始数据分布拟合，则训练终止。然而，二者分布在实际中很难完全拟合，从而导致生成数据质量不高。本研究从数据内在维度（即流形维度值）角度出发，解释二者分布为何在实际训练中难以完全拟合。图1描绘了原始数据内在维度大于生成数据内在维度。如果二者内在维度不一致，则很难利用传统距离公式衡量两个分布直接距离。在此情况下，合成数据质量得不到保证。

图1生成数据内在维度小于原始数据内在维度。本研究采样最大似然值内在维度评估器。

研究内容：本研究利用额外的转换网络将生成数据和原始数据全部转换到同一空间，避免生成数据和原始数据内在维度不一情况，并在此空间利用Hausdorff距离衡量两个分布距离。Hausdorff距离优点是：1）集合中每一点距离对方集合距离，无论远近，都被计算考虑到；2）计算得到的Hausdorff距离为真实距离，而传统比较流行的Wasserstain距离为模拟距离；3）通过损失函数减小两个分布的Hausdorff距离以此来引导生成数据逼近原始数据。实验表明，本研究提出的方法可以使得生成数据的内在维度更为逼近原始数据内在维度，如图2所示。而生成数据的质量和多样性也好于传统的GAN及其变体。

图2 本研究提出的HausdorffGAN合成的模拟数据内在维度更为逼近原始数据内在维度。

本论文得到了崔晓晖教授的国家重点研发计划项目（No.2018YFC1604000）支持，并以“HausdorffGAN: Improving GAN Generation Quality WithHausdorffMetric”为题，被期刊IEEE Transactions on Cybernetics收录，DOI：10.1109/TCYB.2021.3062396。

(编辑：潘梦妍)

上一篇：食品合成生物学：研究进展和未来方向下一篇：血红蛋白微生物发酵法合成研究进展