ココアのお勉強ブログ

技術職の一般人です。趣味でコード書いたりソフト触ったり。

eXpose: A Character-Level Convolutional Neural Network with Embeddings For Detecting Malicious URLs, File Paths and Registry Keys

論文リンク:https://arxiv.org/abs/1702.08568
※少し古めの論文です

CLCNN(Character-Level Convolutional Neural Network)とは

CNNは画像に対して提案された手法で、基本的に自然言語では時系列モデルであるRNNとかLSTMが用いられる。
CNNを自然言語処理でも用いるなら1次元方向のみの畳み込みになる。



https://www.slideshare.net/sheemap/convolutional-neural-netwoks より

実際にCNNを用いて文書分類を行ったネットワークが Character-Level Convolutional Neural Networks(CLCNN)で高い精度を達成している。

処理の流れ

①文字を局所表現(埋め込み表現)にする

カーネルサイズが違う枚数のCNNに並列に入れて特徴を出力

https://www.slideshare.net/tdualdir/devsumi-107931922 より

③特徴を1つに結合

④全結合層に通して分類

となる。

全体のモデルの構造は以下のようになる。

次回は CE CLCNN について書きます。