机器之心报道编辑:杜伟、紫文
如果论文中的图表不需要绘制,对研究人员来说方便吗?有人在这方面进行了探索,用文本描述生成了论文图表,结果相当不错!
生成式 AI 人工智能社区已经流行起来,个人和企业都热衷于创建文生图片、文生视频、文生音乐等相关模式转换应用。
最近,来自 ServiceNow Research、LIVIA 其他研究机构的几位研究人员试图根据文本描述生成论文中的图表。为此,他们提出了一个 FigGen 相关论文的新方法和新方法 ICLR 2023 收录为了 Tiny Paper。
论文地址:https://arxiv.org/pdf/2306.00800.pdf
也许有人会问,生成论文中的图表有什么困难?这对科学研究有什么帮助?
科学研究图表的生成有助于以简单易懂的方式传播研究结果,自动生成图表可以为研究人员带来节省时间和精力的优势,而无需从零开始设计图表。此外,设计视觉吸引力和易于理解的图表可以让更多的人访问论文。
然而,生成图表也面临着一些挑战,它需要表示框架、箭头、文本和其他离散组件之间的复杂关系。与生成自然图像不同,论文图表中的概念可能有不同的表达形式,需要细粒度的理解。例如,生成神经网络图将涉及高方差的不适。
因此,本文的研究人员在一个论文图表中训练了一个生成模型来捕捉图表组件与论文中相应文本之间的关系。这需要处理不同长度和高科技的文本描述、不同的图表样式、图像长度和宽度比以及文本渲染字体、大小和方向。
在具体实现过程中,受最近文本到图像结果的启发,研究人员利用扩散模型生成图表,提出了从文本描述生成科研图表的潜在扩散模型 ——FigGen。
这种扩散模型有哪些独特之处?让我们往下看细节。
模型与方法
研究人员从头开始训练潜在的扩散模型。
首先,学习图像自动编码器,将图像映射成压缩的潜在表示。使用图像编码器 KL 损失和 OCR 感知损失。调整使用的文本编码器在扩散模型的训练中端到端学习。下表 3 详细参数图像自动编码器架构。
然后,扩散模型直接在潜在空间中交互,实现数据损坏的前向调度,学习利用时间和文本条件来降低噪音 U-Net 恢复这个过程。
至于数据集,研究人员使用它 Paper2Fig100kkkkk,由论文中的图表文本组成,包括 81,194 训练样本和 21,259 验证样本。下图 1 为 Paper2Fig100kkkkk 用文本描述生成的图表示例进行测试。
模型细节
首先是图像编码器。在第一阶段,图像自动编码器学习从像素空间到压缩潜在表示的映射,使扩散模型训练更快。图像编码器还需要学习将潜在图像映射回像素空间,而不丢失图表的重要细节(如文本渲染质量)。
为此,研究人员在因子中定义了一个具有瓶颈的卷积编解码器 f=8 图像采样时。经过训练,编码器可以最小化高斯分布 KL 损失、VGG 感知损失和 OCR 感知损失。
其次是文本编码器。研究人员发现,通用文本编码器不适合生成图表任务。因此,他们在扩散过程中从零开始定义了一个训练 Bert transformer,其中使用的大小为 512 嵌入通道也是一个调整通道 U-Net 嵌入跨注意力层的大小。研究人员还探索了不同的设置(8、32 和 128)的 transformer 层数的变化。
最后是潜在的扩散模型。下表 2 展示了 U-Net 网络架构。研究人员在感知等效图像的潜在表示中执行扩散过程,其中图像的输入被压缩到 64x64x4,使扩散模型更快。它们被定义为 1,000 扩散步骤和线性噪声调度。
训练细节
研究人员使用了一种图像自动编码器来训练图像自动编码器 Adam 优化器的有效批量尺寸为 4 样本和学习率为 4.5e−六、期间使用 4 个 12GB 的英伟达 V100 显卡。为了实现训练的稳定性,他们在 50k 次迭代中 warmup 不使用判别器的模型。
研究人员还使用潜在扩散模型进行训练 Adam 优化器的有效批量尺寸为 32,学习率为 1e−4。在 Paper2Fig100k 他们在数据集上训练模型时使用了它 8 块 80GB 的英伟达 A100 显卡。
实验结果
在生成过程中,研究人员使用它 200 步的 DDIM 采样器为每个模型生成 12,000 原本计算的样本 FID, IS, KID 以及 OCR-SIM1。稳定使用无分类器指导(CFG)测试超调节。
下表 1 它显示了不同文本编码器的结果。可以看出,大型文本编码器产生了最好的定性结果,并且可以通过添加来增加 CFG 改进条件生成的规模。虽然定性样本没有足够的质量来解决问题,但 FigGen 已经掌握了文本和图像之间的关系。
下图 2 展示了调整无分类器的指导(CFG)在参数中产生的额外参数 FigGen 样本。研究人员观察到增加 CFG 规模(这也体现在定量上)可以提高图像质量。
下图 3 展示了 FigGen 更多的生成示例。注意样本之间长度的变化和文本描述的技术水平,这将密切影响模型正确生成可理解图像的难度。
然而,研究人员也承认,虽然这些生成的图表不能为论文作者提供实际帮助,但它们仍然是一个有前途的探索方向。