NIUHE

日々私たちが过ごしている日常というのは、実は奇迹の连続なのかもしれんな

RL - DQN & A3C & GAE

Deep Q-Network

Deep Q-Network (DQN) 是由DeepMind的Mnih等人于2013年提出的算法,该算法成功把深度学习应用到了RL领域,并(一定程度上)解决了训练不稳定的问题,在玩Atari游戏中取得了非常好的结果。

文章指出使用非线性函数拟合 Q-value 的RL算法不稳定主要因为:

  1. 同一个观测序列中的数据相关性较大
  2. 当 Q-value 发生了很小的改变,可能导致整个策略(policy)发生较大变化,从而导致 Q-value 和目标 \(r + \gamma * \max_{a'}Q(s' ,a')\) 的差距不稳定

中国象棋Zero技术详解

中国象棋Zero(CCZero)是一个开源项目,把AlphaZero的算法应用到了中国象棋上,旨在借助广大象棋爱好者之力一起训练出一个可以打败旋风名手的“象棋之神”。因为种种原因吧,这个目标到目前(2018/11/07)为止未能实现,或者说还差得远,而跑谱的人也越来越少了,很可能坚持不了多久了。

虽然未能实现目标,但在技术上还是有一定意义的,GitHub上也时不时有人询问技术细节,在此总结一下,记录一些坑以后不要再踩。

Hexo 搭建博客踩坑记录

博客迁移这个事早就想做了,但到现在才有时间和精力来完成。以前太年轻,写的博客系统并不方便维护,迁移的动力主要有以下几个:

  1. 原博客更新、维护较麻烦。以前的博客是用PHP写的,之前的写作方式是用Markdown写好导出HTML,再修改HTML代码使得静态资源(图片等)加载正确,这就使得修改博客很麻烦;更换主题也很麻烦,博客的主题和Markdown的主题通常会有冲突,所以想换个样式就要改半天CSS。
  2. 觉得UI有些难看,想要简洁一些;
  3. 安全问题。

现在的解决方案是Github Pages + Hexo,主题选的是Hacker,迁移了两天终于搞完了,在此简单记录一下遇到的坑。

Paper Reading - Stacked Attention Networks for Image QA

Zichao Yang, Xiaodong He, Jianfeng Gao , Li Deng , Alex Smola Stacked Attention Networks for Image Question Answering

这篇文章发表在CVPR2016,作者把 attention 机制应用在 Visual QA,不但能理解神经网络生成答案的 multiple resoning,而且获得了当时最好的效果。

SAN总共由三部分组成:

  • Image Model:用来编码图片信息
  • Question Moel:用来编码问题信息
  • Stacked Attention Networks:通过多层 attention layer 不断优化对问题的编码

Paper Reading - Neural Machine Translation In Linear Time (ByteNet)

ByteNet 可用于字符级的机器翻译模型并且有着很好的表现,它的特点在于可以在线性时间 (linear time) 完成翻译而且能够处理长距离依赖。它也采用编码器-解码器架构,并且编码器和解码器都由CNN组成。

ByteNet 之所以有上述的这些特性,是因为使用了如下一些技术:

  • Dynamic Unfolding
    • 解决了生成不同长度翻译的问题
  • Dilated Convolution
    • 缩短了依赖传播的距离
  • Masked 1D Convolution
    • 保证训练时只用过去的信息生成当前字符
  • Residual Blocks
    • 解决梯度消失问题

Paper Reading - Attention Is All You Need

Google的这篇论文提出了一个只使用Attention机制的神经翻译模型,该模型依旧采用编码器-解码器(Encoder-Decoder)架构,但未使用RNN和CNN。文章的主要目的是在减少计算量和提高并行效率的同时不损害最终的实验结果,创新之处在于提出了两个新的Attention机制,分别叫做 Scaled Dot-Product Attention 和 Multi-Head Attention.

揭秘二维码—原理与实践

什么是二维码

二维码,英文:Quick Response Code, 简称 QR 码。二维码最初由日本一家公司发明,后由国际标准化组织ISO批准进行标准化。现在二维码在我们生活中广泛使用,它具有比条形码更强的数据表示能力和更强的纠错能力。

我认为,二维码就是一种编码,把我们要传递的数据进行编码并转换成另外一种形式呈现出来

Random sample consensus

随机抽样一致(Random sample consensus ,RANSAC)是一种迭代方法,用来排除异常数据(outliers)对模型的影响。

这个算法基于一个基本假设:数据集中正常的样本(inliers)可以很好地拟合给定模型,异常数据则不行,比如异常样本代入模型损失会很大。

Powered by Hexo and Theme by Hacker
© 2019 NIUHE