摘 要:固體金屬垃圾具有巨大的回收利用空間和經濟再利用價值.在日常生活中,金屬垃圾的分類回收主要依靠傳統人工分類,費時費力.為此本文提出一種基于深度學習的方法對金屬垃圾進行分類:構建一個包含6類共 17 804張圖片的固體金屬垃圾數據集并命名為GX-TrashNet;采用ResNet-101作為分類模型,加入注意力機制模塊提升模型的分類準確率;使用卷積核大小為1*1的卷積層代替注意力機制模型中的全連接層,使用全局平均池化層作為分類器.實驗結果表明,改進后的模型在GX-TrashNet上的分類準確率為97.00%,在TrashNet上分類準確率為80.87%.
關鍵詞:固體金屬垃圾;垃圾分類;深度學習;注意力模塊;卷積神經網絡
呂東; 王萍; 王宇航; 王智文; 張燦龍, 廣西科技大學學報 發表時間:2021-11-12
0 引言
垃圾是放錯了位置的資源,相比于生活垃圾分類回收,金屬垃圾回收再利用有著巨大的經濟效益和社會效益,并且金屬垃圾形態相對固定,容易分辨.垃圾分類在計算機視覺中屬于圖像分類.圖像分類是人臉識別[1-2] 、目標檢測等高級任務的重要基礎.隨著人工智能技術的發展,越來越多的研究人員開始采用深度學習方法進行垃圾分類.文獻[3]構建了一個公開的包括6類共2 527張垃圾圖片的數據集TrashNet,在該數據集上有許多研究者進行了一系列實驗[4-15] ,其中具有代表性的有:Adedeji 等[11] 將 ResNet-101 的分類器替換為 SVM,在訓練中采用 ImageNet 數據集上預訓練好的權重,取得了 87.00% 的準確率 . 文獻[12]將輕量型網絡 Mo‐ bileNet用到該數據集上進行訓練,取得 87.20% 的準確率,并且推出了能用于實際測試的垃圾分類 APP.文獻[13]提出了一種輕量型垃圾分類模型Re‐ cycleNet,在實驗中盡管測試速度較慢,但該模型大大減少了模型參數,降低了模型復雜度 .Yang 等[14] 提出了一種輕量型模型 WasNet,在實驗中對比了AlexNet、VGG-19和Iception-ResNet在該數據集上的分類性能,其中WasNet的分類準確率最佳,為 96.10%;此外,該作者還將訓練好的模型嵌入移動端進行了測試 . 文獻[15]對比了多種卷積神經網絡模型,在訓練前加載 ImageNet 數據集上的預訓 練 權 重 , 在 訓 練 時 進 行 參 數 微 調 , 使 用 DenseNet-121取得了95.00%的準確率.
雖然TrashNet數據集憑借圖像尺寸統一和背景干凈的優勢使許多學者完成了一系列優秀的實驗,但是TrashNet數據量小,分類類別范圍模糊,模型訓練很容易過擬合.而且現階段實驗研究多為基于生活垃圾的分類,對于固體金屬垃圾的分類研究較少,因此,有必要采用深度學習方法對固體金屬垃圾進行分類研究.
1 相關內容簡介
1.1 數據集簡介
在垃圾分類任務中,最常用的數據集是由斯坦福大學 Yang 等[3] 收集構建的包括 6 類共 2 527 張垃圾圖像數據集TrashNet.TrashNet數據集如圖1、表 1所示.
通過實際調研發現,目前尚無開源的固體金屬垃圾數據集可供使用,因此,參考TrashNet數據集格式,構建了一個包含6類共17 804張固體金屬垃圾圖片的數據集GX-TrashNet. GX-TrashNet數據集如圖 2、表 2 所示 .GX-TrashNet 主要由手機實地拍攝、網絡爬蟲和人工手動數據增強3種不同方法構成.在初步收集部分數據集后,隨機對部分圖像做了旋轉、左右翻轉、對比度增強和亮度變化數據擴充操作,部分樣本數據擴充如圖3所示.
1.2 模型的選擇及改進
選擇ResNet-101作為固體金屬垃圾分類模型. 在 ResNet 提出之前,研究人員發現隨著神經網絡層數的加深,神經網絡的訓練不可避免地出現了退化問題 . 而 ResNet 的提出很好地解決了這一問題,最大的創新點是殘差學習單元的提出.殘差學習單元在神經網絡的輸入層和輸出層之間建立了一條直接的關聯通道,使得底層信息特征與高層信息特征更好地融合.文獻[16]證明,對比直接堆疊的網絡,殘差學習單元的提出將網絡計算性質從乘法變為加法,從而讓神經網絡計算變得更加穩定,可訓練的網絡層數也大大增加.殘差學習單元如圖4所示.
在確定了分類模型之后,由于收集的固體金屬垃圾數據集在收集完畢后并沒有做過多的預處理,因此,數據集內存在很多背景復雜、圖像模糊、難以辨認類別的圖像.對于卷積神經網絡模型來說,圖像復雜的背景會干擾模型提取特征并影響分類的正確性.因此,加入注意力機制,忽略圖像中無關信息而關注重點信息十分必要.本文對于ResNet-101的改進主要分為3部分:首先,在網絡模型中加入注意力模塊來提高分類準確率;其次,使用卷積核大小為1*1的卷積層替代注意力模塊中的全連接層;最后,使用全局平均池化層作為分類器.
2 對比實驗與結果分析
本 文 對 比 了 ResNet-101 分 別 加 入 SE[17] 和 CBAM[18] 前后在 TrashNet 和 GX-TrashNet 數據集上的分類性能指標.將TrashNet數據集和GX-TrashNet 數據集按照6∶2∶2劃分為訓練集、驗證集和測試集.數據集劃分后的樣本數量如表3所示.
在進行ResNet-101加入注意力模塊前后對比實驗之前,加載了在 ImageNet 數據集上預訓練好的 ResNet-101 權重,并在 TrashNet 和 GX-TrashNet 數據集上進行訓練.在訓練中凍結ResNet-101中所有卷積層,只訓練自定義的分類器 .ResNet-101 模型改進前的訓練細節如表4所示.
為了能夠使用在ImageNet上預訓練好的模型權重,只在ResNet-101的最后一個卷積塊中加入注意力模塊.在訓練時,不凍結任何層,使用動態學習率,設置最大學習率為 1e-4,最小學習率為 1e-6,學習率縮放比例設置為0.3,設置Patience 為2,監測指標為驗證集損失 .ResNet-101 模型改進后的訓練細節如表5所示.
2.1 評價指標
選擇混淆矩陣,將準確率A(Accuracy)、查準率 P(Precision)、 召 回 率 R(Recall)、 特 異 度 S (Specificity)作為評價指標 . 混淆矩陣如表 6 所示,其余模型性能評價指標分別如式(1)—式(4)所示.
其中:NTP 表示樣本被正確檢測出來的個數,NFP表示其他樣本被誤檢成本樣本的個數,NFN 表示誤將樣本檢測出其他樣本的個數;NTN 表示非本樣本檢測出非本樣本的個數.
2.2 實驗結果對比分析
首先進行了 ResNet-101 在 TrashNet 數據集和 GX-TrashNet數據集上加入SE前后的對比實驗,其中空洞率ratio設置為16.為了方便對比分類模型的整體性能指標,將各個類別的Precision、Recall和Specificity 求和取得平均值 . 混淆矩陣如圖 5 所示,各個類別的評價指標如表7和表8所示,模型改進前后的性能指標如表9所示.
通過對比表7—表9,可以看出,加入SE后,在 GX-TrashNet數據集上模型準確率由87.01%增長到 97.04%,提高了10.03%,查準率提高了8.92%,召回率提高了9.85%,特異度提高了2.00%;在Trash‐ Net數據集上模型準確率提高了1.19%,查準率提高了 0.28%,召回率提高了 2.97%,特異度提高了 0.35%.綜上所述,加入SE模塊后,ResNet-101_V1 在 2 個數據集上的各項性能指標都有了增長,但 TrashNet數據集樣本數量較少,增長并不明顯.
其次進行了 ResNet-101 在 TrashNet 數據集和 GX-TrashNet 數據集上加入 CBAM 前后的對比實驗,其中空洞率ratio設置為16.同樣地,為了方便對比分類模型的整體性能指標,將各個類別的Pre‐ cision、Recall 和 Specificity 求和取得平均值 . 混淆矩陣如圖6所示,各個類別的評價指標如表10和表 11所示,模型改進前后的性能指標如表12所示.
通過對比表 10—表 12,可以看出,雖然加入 SE 模塊和 CBAM 模塊在 GX-TrashNet 數據集上取得近似一致的性能指標,但是在TrashNet數據集上并沒有明顯的提高,反而降低了部分性能指標.可能的原因有:1)TrashNet 數據集本身的樣本數量少,在訓練中出現了過擬合現象,導致模型在訓練時沒有達到最佳性能指標時就已經早停了;2) CBAM模塊較SE模塊結構復雜,在通道注意力模塊(CAM)和空間注意力模塊(SAM)中分別 2 次使用平均值池化和最大值池化操作,很有可能部分圖像特征信息因此被裁剪掉;3)TrashNet數據集的背景較GX-TrashNet數據集的背景干凈,圖像尺寸統一,因此,特征信息可能會丟失的更多.
3 結論
本文對基于注意力機制的深度學習固體金屬垃圾分類進行了研究,獲得如下結論:
1)針對固體金屬垃圾分類研究實驗的不足,收集了 6 類共 17 804 張垃圾圖像,并命名為 GXTrashNet.選用ResNet-101作為分類模型.為提高分類準確率,加入注意力機制模塊,并使用全局平均池化層代替分類器,使用卷積核大小為1*1的卷積層代替注意力機制模塊中的全連接層.
2)在加入SE模塊后,ResNet-101在2個數據集上的各項性能指標都有了增長,但在TrashNet數據集上增長的并不明顯 . 在加入注意力機制模塊 SE 后,ResNet-101在GX-TrashNet數據集上模型準確率由 87.01% 增長到 97.04%,提高了 10.03%,在 TrashNet 數據集上模型準確率由 79.68% 增長到 80.87%,只提高了1.19%.
3)在加入注意力機制模塊 CBAM 后,ResNet101在GX-TrashNet數據集上取得了與加入SE模塊后類似的分類性能指標,但是在TrashNet數據集上分類準確率下降了1.6%.通過分析,最終選擇使用 SE模塊,并且設置Ratio為16.
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >