360doc--極市平臺的文章 360doc--極市平臺的文章 http://m.ahfyzs.com/rssperson/73546223.aspx 360doc (http://m.ahfyzs.com) zh-cn 360doc--個人圖書館 CNN終于殺回來了!京東AI開源最強(qiáng)ResNet變體CoTNet:即插即用的視覺識別模塊 http://m.ahfyzs.com/content/21/0729/22/73546223_988748248.shtml 2021/7/29 22:09:28
京東AI開源最強(qiáng)ResNet變體CoTNet:即插即用的視覺識別模塊。本文是京東AI研究院梅濤團(tuán)隊(duì)在自注意力機(jī)制方面的探索,不同于現(xiàn)有注意力機(jī)制僅采用局部或者全局方式進(jìn)行上下文信息獲取,他們創(chuàng)造性的將Transformer中的自注意力機(jī)制的動態(tài)上下文信息聚合與卷積的靜態(tài)上下文信息聚合進(jìn)行了集成,提出了一種新穎的Transformer風(fēng)格的“即插即用”CoT模塊,它可以直接替換現(xiàn)有ResNet架構(gòu)Bottleneck中的。
無需檢測器提取特征!LeCun團(tuán)隊(duì)提出MDETR:實(shí)現(xiàn)真正的端到端多模態(tài)推理|ICCV 2021 Oral http://m.ahfyzs.com/content/21/0728/22/73546223_988612781.shtml 2021/7/28 22:09:11
LeCun團(tuán)隊(duì)提出MDETR:實(shí)現(xiàn)真正的端到端多模態(tài)推理|ICCV 2021 Oral.本文提出了MDETR,一種端到端調(diào)制檢測器,能夠根據(jù)原始文本query直接來檢測圖像中的目標(biāo),基于Transformer的結(jié)構(gòu),通過在模型的早期階段融合這兩種模態(tài)的信息,來對文本和圖像進(jìn)行共同的推理。因此,本文的作者基于DETR,提出了一個端到端的調(diào)制檢測器MDETR,結(jié)合訓(xùn)練數(shù)據(jù)中的自然語言理解來執(zhí)行目標(biāo)檢測任務(wù),真正實(shí)現(xiàn)了端到端的多模態(tài)推理。
大概是全網(wǎng)最詳細(xì)的何愷明團(tuán)隊(duì)頂作MoCo系列解讀!(上) http://m.ahfyzs.com/content/21/0726/22/73546223_988314603.shtml 2021/7/26 22:09:28
1 MoCo v11.1 自監(jiān)督學(xué)習(xí)的 Pretext Task1.2 自監(jiān)督學(xué)習(xí)的 Contrastive loss1.3 MoCo v1 之前的做法1.4 MoCo v1 的做法1.5 MoCo v1 FAQ1.6 MoCo v1 實(shí)驗(yàn)1.7 MoCo v1 完整代碼解讀。圖8:MoCo方法。2 構(gòu)造模型 # create model print("=> creating model ''''''''{}''''''''".format(args.arch)) model = moco.builder.MoCo( models.__dict__[args.arch], args.moco_dim, args.moco_k, args.moco_m, args.moco_t, args.mlp) print(model)
ICCV2021|性能優(yōu)于何愷明團(tuán)隊(duì)MoCo v2,DetCo:為目標(biāo)檢測定制任務(wù)的對比學(xué)習(xí) http://m.ahfyzs.com/content/21/0725/22/73546223_988177951.shtml 2021/7/25 22:12:25
ICCV2021|性能優(yōu)于何愷明團(tuán)隊(duì)MoCo v2,DetCo:為目標(biāo)檢測定制任務(wù)的對比學(xué)習(xí)作者丨小馬編輯丨極市平臺。作者專為目標(biāo)檢測任務(wù)“量身定制”了對比學(xué)習(xí)框架DetCo,在PASCAL VOC數(shù)據(jù)集上,DetCo在100個epoch時(shí)的性能就與MoCo V2 800個epoch的性能差不多,最終性能優(yōu)于Mask RCNN-C4/FPN/RetinaNet等監(jiān)督學(xué)習(xí)的方法。從上圖可以看出,雖然Relative-Loc(結(jié)構(gòu)如下圖所示)在分類任務(wù)上表現(xiàn)一般,但是在檢測任務(wù)上性能還是比較好的。
MLP 又又又升級了!港大&商湯開源首個用于檢測與分割任務(wù)的MLP架構(gòu) http://m.ahfyzs.com/content/21/0723/22/73546223_987925687.shtml 2021/7/23 22:09:14
本文是香港大學(xué)&商湯科技在MLP架構(gòu)方面的探索,針對MLP-Mixer等已有方案存在的分辨率相關(guān)、不便于向下游任務(wù)遷移的問題,提出了一種新穎的CycleFC操作,并由此構(gòu)建了CycleMLP架構(gòu)。提出了一種新的MLP模塊:CycleFC,它是一個廣義的即插即用操作,可用于替換MLP-Mixer中的token mixing MLP操作;基于所提CycleFC,我們構(gòu)建了用于提取分層特征的MLP架構(gòu):CycleMLP,首個用于檢測與分割任務(wù)的MLP架構(gòu);
ICCV 2021接收結(jié)果出爐!最新40篇論文分方向匯總(附打包下載) http://m.ahfyzs.com/content/21/0723/22/73546223_987925685.shtml 2021/7/23 22:09:14
[2] MDETR : Modulated Detection for End-to-End Multi-Modal Understanding(Oral)paper:https://arxiv.org/pdf/2104.12763code:https://github.com/ashkamath/mdetrproject:https://ashkamath.github.io/mdetr_page/colab:https://colab.research.google.com/github/ashkamath/mdetr/blob/colab/notebooks/MDETR_demo.ipynb.
萬字長文細(xì)說工業(yè)缺陷檢測 http://m.ahfyzs.com/content/21/0722/22/73546223_987785385.shtml 2021/7/22 22:09:21
萬字長文細(xì)說工業(yè)缺陷檢測作者丨皮特潘編輯丨極市平臺。主要難點(diǎn)場景分析缺陷歸納簡單粗暴的可行性分析數(shù)據(jù)的四大難點(diǎn)數(shù)據(jù)生成場景VS數(shù)據(jù)方法論算法積木任務(wù)拆分定制分類模型定制語義分割模型語義分割利器dice loss定制目標(biāo)檢測模型正常樣本建模工具鏈技術(shù)壁壘總結(jié)(一) 主要難點(diǎn)。另外,應(yīng)用語義分割任務(wù)做缺陷檢測,其實(shí)缺陷檢測并不局限語義分割,它更像提取一張高斯熱圖,有缺陷的地方概率高,背景區(qū)域概率低。
ICML2021|超越SE、CBAM,中山大學(xué)開源SAM:無參Attention! http://m.ahfyzs.com/content/21/0721/22/73546223_987641295.shtml 2021/7/21 22:09:24
不同于現(xiàn)有的通道/空域注意力模塊,該模塊無需額外參數(shù)為特征圖推導(dǎo)出3D注意力權(quán)值。受啟發(fā)于人腦注意力機(jī)制,本文提出一種3D注意力模塊并設(shè)計(jì)了一種能量函數(shù)用于計(jì)算注意力權(quán)值;本文推導(dǎo)出了能量函數(shù)的解析解加速了注意力權(quán)值的計(jì)算并得到了一種輕量型注意力模塊;在正式介紹本文所提注意力模塊之前,我們先對現(xiàn)有代表性注意力模塊(比如SE、CBAM、GC)進(jìn)行簡要總結(jié);在大網(wǎng)絡(luò)方面,所提SimAM同樣優(yōu)于SE與CBAM等注意力機(jī)制;
吊打一切現(xiàn)有版本的YOLO!曠視重磅開源YOLOX:新一代目標(biāo)檢測性能速度擔(dān)當(dāng)! http://m.ahfyzs.com/content/21/0720/12/73546223_987428689.shtml 2021/7/20 12:09:28
具有與YOLOv4-CSP、YOLOv5-L相當(dāng)?shù)膮?shù)量,YOLOX-L取得了50.0%AP指標(biāo)同事具有68.9fps推理速度(Tesla V100),指標(biāo)超過YOLOv5-L 1.8%;值得一提的是,YOLOX-L憑借單模型取得了Streaming Perception(Workshop on Autonomous Driving at CVPR 2021)競賽冠軍。上表對比了所提YOLOX與其他SOTA檢測器的性能對比,從中可以看到:相比YOLOv3、YOLOv4、YOLOv5系列,所提YOLOX取得了最佳性能,同時(shí)具有極具競爭力的推理速度。
用簡單Mask分類實(shí)現(xiàn)語義分割、實(shí)例分割“大一統(tǒng)”!Facebook&UIUC開源MaskFormer http://m.ahfyzs.com/content/21/0719/22/73546223_987357747.shtml 2021/7/19 22:09:18
用簡單Mask分類實(shí)現(xiàn)語義分割、實(shí)例分割“大一統(tǒng)”!因此本文作者提出將實(shí)例分割任務(wù)和語義分割任務(wù)都用mask分類的范式來處理,并在性能上能夠超過當(dāng)前per-pixel分類的處理范式。因此作者就提出了,將實(shí)例分割任務(wù)和語義分割任務(wù)都用mask分類的范式來處理,并在性能上能夠超過當(dāng)前per-pixel分類的處理范式。1)什么是語義分割(semantic segmentation)、實(shí)例分割(instance segmentation)、全景分割(panoptic segmentation)?
一文看盡 6篇 CVPR2021 2D 異常檢測論文 http://m.ahfyzs.com/content/21/0718/22/73546223_987217423.shtml 2021/7/18 22:09:08
一文看盡 6篇 CVPR2021 2D 異常檢測論文作者丨劉冰一編輯丨極市平臺。本文對我們匯總的 CVPR 2021 檢測大類中的“異常檢測領(lǐng)域”的論文進(jìn)行了盤點(diǎn),將會依次闡述每篇論文的方法思路和亮點(diǎn)。在極市平臺回復(fù)“CVPR21檢測”,即可獲得論文打包下載。在之前極市平臺曾對 CVPR 2021中 “2D目標(biāo)檢測” 領(lǐng)域的論文進(jìn)行了盤點(diǎn),今天我們繼續(xù)盤點(diǎn) CVPR 2021 檢測大類中的“異常檢測領(lǐng)域”領(lǐng)域的論文,將依次闡述每篇論文的方法思路和亮點(diǎn)。
給圖像特征提取開個“ViP”是什么效果?字節(jié)&牛津提出視覺解析器,全面超越HaloNet! http://m.ahfyzs.com/content/21/0717/22/73546223_987088179.shtml 2021/7/17 22:09:15
因?yàn)閜art特征表示的是一個高級屬性的信息,因此一個part特征向量往往對應(yīng)whole特征中的多個向量(如果把一只貓看做是part特征,整張圖片看做是whole特征,那么一只貓往往跟圖片中的多個像素對應(yīng),所以part到whole的對應(yīng)往往是“一對多”的關(guān)系 )。本文構(gòu)建了一個ViP框架,將視覺特征編碼成了part級別的特征和whole級別的特征,通過顯式建模part特征來提高模型的語義理解能力,作者在CV三大任務(wù)上也做了實(shí)驗(yàn),都取得了不錯的效果。
搞懂 Vision Transformer 原理和代碼,看這篇技術(shù)綜述就夠了(十四) http://m.ahfyzs.com/content/21/0715/22/73546223_986719358.shtml 2021/7/15 22:09:31
#self.attention1 = Token_performer(dim=token_dim, in_dim=in_chans*7*7, kernel_ratio=0.5) #self.attention2 = Token_performer(dim=token_dim, in_dim=token_dim*3*3, kernel_ratio=0.5) self.attention1 = Token_performer(dim=in_chans*7*7, in_dim=token_dim, kernel_ratio=0.5) self.attention2 = Token_performer(dim=token_dim*3*3, in_dim=token_dim, kernel_ratio=0.5) self.project = nn.self.cls_token = nn.
霸榜COCO和Cityscapes!南理工&CMU提出極化自注意力,更精細(xì)的雙重注意力建模結(jié)構(gòu) http://m.ahfyzs.com/content/21/0714/22/73546223_986577174.shtml 2021/7/14 22:09:31
基于此,作者提出了一個即插即用的模塊——極化自注意力機(jī)制( Polarized Self-Attention(PSA)),用于解決像素級的回歸任務(wù),相比于其他注意力機(jī)制,極化自注意力機(jī)制主要有兩個設(shè)計(jì)上的亮點(diǎn):本文提出極化自注意力結(jié)構(gòu)如上圖所示,分為兩個分支,一個分支做通道維度的自注意力機(jī)制,另一個分支做空間維度的自注意力機(jī)制,最后將這兩個的分支的結(jié)果進(jìn)行融合,得到極化自注意力結(jié)構(gòu)的輸出。Polarized Self-Attention (PSA) Block.
CVPR 2021 Short-video Face Parsing Challenge 季軍方案分享 http://m.ahfyzs.com/content/21/0714/22/73546223_986577171.shtml 2021/7/14 22:09:30
CVPR 2021 Short-video Face Parsing Challenge 季軍方案分享作者丨劉瀟,司曉飛,謝江濤編輯丨極市平臺。本文為來自大連理工大學(xué)的大賽季軍的方案分享:訓(xùn)練一個人臉解析模型,能夠?qū)Χ桃曨l人臉進(jìn)行解析分割。第一階段:目標(biāo)檢測裁剪人臉。我們訓(xùn)練一個目標(biāo)檢測器來裁剪人臉,因?yàn)槲覀冎恍枰馨讶四槞z測出來,不需要檢的很準(zhǔn),只需要盡可能的保證人臉都能夠檢測出來就可以,即需要一個高召回率。第二階段:人臉語義分割。
輕量高效!清華智能計(jì)算實(shí)驗(yàn)室開源基于PyTorch的視頻 (圖片) 去模糊框架SimDeblur http://m.ahfyzs.com/content/21/0713/22/73546223_986430115.shtml 2021/7/13 22:09:22
import torchfrom simdeblur.config import build_config, merge_argsfrom simdeblur.engine.parse_arguments import parse_argumentsfrom simdeblur.engine.trainer import Trainerdef main(): args = parse_arguments() cfg = build_config(args.config_file) cfg = merge_args(cfg, args) cfg.args = args trainer = Trainer(cfg) trainer.train() if __name__ == "__main__": main()def before_epoch(self): for h in self.
圓形的CNN卷積核?清華黃高團(tuán)隊(duì)&康奈爾提出圓形卷積,進(jìn)一步提升卷積結(jié)構(gòu)性能! http://m.ahfyzs.com/content/21/0712/22/73546223_986285234.shtml 2021/7/12 22:09:17
最終,作者并沒有采用了單獨(dú)的圓形卷積,而是采用一種圓形和方形集成的卷積,并在訓(xùn)練過程中采用自適應(yīng)的卷積核大?。ㄒ簿褪钦f,每個集成的卷積核都有一對方核和圓核。隨著卷積核大小的增加,圓核比方核的優(yōu)勢變得更加顯著,表明了圓核的優(yōu)越性?;谌祟惖囊曈X感知原理,作者提出了一種更接近人類視覺感受的卷積核——圓形卷積核,作者也通過實(shí)驗(yàn)證明了,在沒有數(shù)據(jù)增強(qiáng)的情況下,圓形卷積核的表現(xiàn)確實(shí)比方形卷積核要好。
一文看盡 27 篇 CVPR2021 2D 目標(biāo)檢測論文 http://m.ahfyzs.com/content/21/0711/22/73546223_986142309.shtml 2021/7/11 22:09:28
一文看盡 27 篇 CVPR2021 2D 目標(biāo)檢測論文作者丨二玖編輯丨極市平臺。在極市平臺回復(fù)“CVPR21檢測”,即可獲得論文打包下載。標(biāo)題:你只需要看一層特征論文:https://arxiv.org/abs/2103.09460代碼:https://github.com/megvii-model/YOLOF詳細(xì)解讀:我扔掉FPN來做目標(biāo)檢測,效果竟然這么強(qiáng)!標(biāo)題:通過對比提案編碼進(jìn)行的小樣本目標(biāo)檢測論文:https://arxiv.org/abs/2103.05950v2代碼:https: //github.com/MegviiDetection/FSCE.
?CVPR2021最佳學(xué)生論文提名:Less is More http://m.ahfyzs.com/content/21/0711/22/73546223_986142307.shtml 2021/7/11 22:09:27
CVPR2021最佳學(xué)生論文提名:Less is More.以前的Video-Text任務(wù)大多是對視頻進(jìn)行Dense采樣,而本文通過預(yù)訓(xùn)練的Image-Text模型,對視頻進(jìn)行稀疏采樣,只需要很少的幀數(shù),就能超過密集采樣的效果,進(jìn)而提出了本文標(biāo)題中的 “Less is More”。以往的方法對于視頻-文本任務(wù),往往都是直接對密集的視頻V和文本S提取特征,每個視頻V可以被分成N個clip,因此,以前視頻-文本任務(wù)的模型可以被建模成下面的公式:
Transformer一作又出新作!HaloNet:用Self-Attention的方式進(jìn)行卷積 http://m.ahfyzs.com/content/21/0710/22/73546223_986009472.shtml 2021/7/10 22:09:36
HaloNet:用Self-Attention的方式進(jìn)行卷積?;谝陨系挠^察,作者提出了將整張圖片分為多個Block,并對每個Block進(jìn)行SA(Blocked Local Self-Attention)。HaloNet基于以上的結(jié)構(gòu),作者提出了HaloNet,模型參數(shù)設(shè)置如下表:為了能和SOTA模型進(jìn)行更加公平的比較,作者采用了與EfficientNet類似的參數(shù)設(shè)置,提出8個HaloNet的變種:4.實(shí)驗(yàn)4.1. 分類任務(wù)可以看出,在相似的參數(shù)量下,HaloNet的性能能夠超過EfficientNet。