深度学习项目_Python

1条回答

2楼 · 2021-09-03 13:29

第一部分：启动一个深度学习项目

1. 应该选择什么样的项目？

很多人工智能项目其实并没有那么严肃，做起来还很有趣。2017 年初，我着手启动了一个为日本漫画上色的项目，并作为我对生成对抗网络 ( GAN ) 研究的一部分。这个问题很难解决，但却很吸引人，尤其是对于我这种不会画画的人来说！在寻找项目时，不要局限于增量性改进，去做一款适销对路的产品，或者创建一种学习速度更快、质量更高的新模型。

2. 调试深度网络（DN）非常棘手

训练深度学习模型需要数百万次的迭代，因此查找 bug 的过程非常艰难，而且容易崩坏。因此我们要从简单的地方着手，循序渐进，例如模型的优化（如正则化）始终可以在代码调试完成后进行。此外，我们还需要经常可视化预测结果和模型度量标准，并且我们首先需要令模型跑起来，这样就有一个可以后退的基线。我们最好不要陷在一个很大的模型，并尝试将所有的模块都弄好。

3. 度量和学习

宏伟的项目计划可能带惨烈的失败。多数个人项目的第一个版本会持续两到四个月，这个时间非常短暂，因为研究、调试和实验都需要花费大量的时间。一般我们安排这些复杂的实验，使其通宵运行，到第二天清晨时，我们希望得到足够的信息来采取下一步行动。在早期阶段，这些实验不应超过 12 小时，这是一条良好的经验法则。为了做到这一点，我们将漫画上色项目范围缩小到单个动画人物的上色。此外，我们需要设计很多测试，因此借助它们分析模型在实验中的不足之处。一般这些测试不要计划得太远，我们需要快速度量、学习，并为下一步设计提供足够的反馈。

4. 研究与产品

当我们在 2017 年春季开始讨论漫画上色项目时，Kevin Frans 有一个 Deepcolor 项目，用 GAN 为漫画添加色彩提示。

在确定目标时，你会花很大力气来确保项目完成后仍然具有意义。GAN 模型相当复杂，2017 年初还没达到嵌入产品所需的质量水准。然而，如果你把应用范围缩小到产品可以巧妙处理的程度，你就可以把质量提高到商用水准。为此，无论着手启动何种 DL 项目，都要把握好模型泛化、容量和准确性之间的平衡。

5. 成本

必须使用 GPU 来训练实际模型。它比 CPU 快 20 到 100 倍。价格最低的亚马逊 GPU p2.xlarge 站点实例要价 7.5 美元/天，而 8 核 GPU 的价格则高达 75 美元/天。在我们的漫画上色项目中，一些实验花费的时间就超过两天，因此平均每周花费至少需要 150 美元。至于更快的 AWS 实例，花费可能高达 1500 美元/周。我们可以购买独立计算机，而不是使用云计算。2018 年 2 月，搭载 Nvidia GeForce GTX 1080 Ti 的台式机售价约为 2200 美元。在训练精调的 VGG 模型时，它比 P2 实例大约要快 5 倍。

6. 时间线

我们将开发分为四个阶段，最后三个阶段在多次迭代中进行。

项目研究

模型设计

实现及调试

实验及调参

项目研究

我们会先对现有产品进行研究，以探索它们的弱点。许多 GAN 类型的解决方案使用空间颜色提示，图案有点不清晰，有时还会出现颜色混杂。我们为自己的项目设定了两个月的时间框架，其中有两个优先事项：生成不带提示的颜色及提高颜色保真度。我们的目标是：

在单个动画角色上为灰度漫画着色，且不使用空间颜色提示。

站在巨人的肩膀上

接下来，我们需要了解相关的研究和开源项目，许多人在开始实践之前至少要看几十篇论文和项目。例如，当我们深入研究 GAN 时，发现有十几个新的 GAN 模型: DRAGAN、cGAN、LSGAN 等，阅读研究论文可能会很痛苦，但非常有意义。

深度学习 ( DL ) 代码简练，但很难排查缺陷，且很多研究论文常常遗漏了实现细节。许多项目始于开源实现，解决的问题也很相似，因此我们可以多多搜索开源项目。因此我们在 GitHub 上查看了不同 GAN 变体的代码实现，并对它们进行若干次测试。

第二部分：创建一个深度学习数据集

深度学习项目的成功取决于数据集的质量。在本文的第 2 部分中，我们将探讨创建优质训练数据集的核心问题。

1. 公开及学术数据集

对于研究项目，可以搜索已建立的公开数据集。这些数据集可以提供更整齐的样本和基线模型性能。如果你有多个可用的公开数据集，请选择与你的问题最相关且质量最好的样本。

2. 自定义数据集

对于实际问题，我们需要来自问题领域的样本。首先尝试查找公共数据集。关于创建高质量自定义数据集的研究还有所欠缺。如果没有可用的资料，请搜寻你可以抓取数据的位置。该位置通常有很多参考，但数据质量通常较低，还需要投入大量精力进行整理。在抓取样本之前，要专门抽出时间评估所有选项并选择最相关的选项。

高质量数据集应该包括以下特征：

类别均衡

数据充足

数据和标记中有高质量信息

数据和标记错误非常小

与你的问题相关

不要一次爬取所有数据。我们经常借助标签和分类来抓取网站样本，从而获取与我们的问题相关的数据。最好的爬取方法是在你的模型中训练、测试少量样本，并根据得到的经验教训改善抓取方法。

清理你抓取的数据非常重要，否则，即使最好的模型设计也达不到与人类水平相当的表现。Danbooru 和 Safebooru 是两个非常受欢迎的动漫人物来源，但是一些深入学习的应用程序偏爱 Getchu，以获得更高质量的绘图。我们可以使用一组标签从 Safebooru 下载图像，并直观地检查样本并运行测试来分析错误（表现不佳的样本）。

模型训练和视觉评估都提供了进一步的信息来细化我们的标签选择。随着迭代的继续，我们将学到更多，并逐渐进行样本积累。我们还需要使用分类器进一步过滤与问题无关的样本，如清除所有人物过小的图像等。与学术数据集相比，小型项目收集的样本很少，在适当情况下可以应用迁移学习。

下面的左图由 PaintsChainer 提供，右图由最终的模型上色：

我们决定用一些训练样本来对算法进行测试。结果并没有给人惊喜，应用的颜色较少，样式也不正确。

由于对模型进行了一段时间的训练，我们知道什么样的绘图表现欠佳。正如预期的那样，结构错综复杂的绘图更难上色。

这说明好好选择样本非常重要。作为一款产品，PaintsChainer 专注于它们擅长的线条类型，这点非常明智。这次我使用了从互联网上挑选的干净线条艺术，结果再次给人惊喜。

这里有一些经验教训：数据没有好坏之分，只是有些数据不能满足你的需求。此外，随着样本类别的增加，训练和保持输出质量会变得更加困难，删除不相关的数据可以得到一个更好的模型。

在开发早期，我们认识到一些绘图有太多错综复杂的结构。在不显著增加模型容量的情况下，这些绘图在训练中产生的价值很小，因此最好不要使用，否则只会影响训练效率。

3. 重点回顾

尽可能使用公共数据集；

寻找可以获取高质量、多样化样本的最佳网站；

分析错误并过滤掉与实际问题无关的样本；

迭代地创建你的样本；

平衡每个类别的样本数；

训练之前先整理样本；

收集足够的样本。如果样本不够，应用迁移学习。

深度学习项目

相关问题推荐

等你来答

热门问答

相关文章

深度学习项目

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间