⑴ 深度學習的數據集都是怎樣生成的
你好
genet網路的預訓練模型訓練自己的數據集。
Ok首先是自己的數據集了。Matconvnet中訓練imagenet的數據集的准備不像caffe這些工具箱弄得那麼好,弄個train文件夾,test文件夾,以及兩個txt索引就好了,感覺很不人性。後面我將會將其輸入改為這種人性的類型輸入格式。
但是其類別索引是從0開始的,這在matlab中是不符合的,所以我將其改成從1開始的。同時添加了一個類class標簽的txt,改完的
下載完打開這個文件夾看到:
其中train就是訓練所用到的所有圖片,test為測試所有圖片,train_label為對應圖片的名字以及跟隨的類標簽(從1開始),打開txt可以看到為:
這種格式的txt相信應該很容易從你自己的數據集中弄到。依次類推,test.txt中存放的是test文件夾所有圖片的名字以及其類別。
Classind 就是每一類表示的分類的名字。
數據准備好了,放在哪呢?我們在Matconvnet的工具箱目錄下新建一個文件夾為data,然後將這個數據集放進去,如下:
我們是在訓練好的model上繼續訓練,所以需要一個model,再在這文件夾下建立一個models文件夾,然後把imagenet-vgg-f.mat放入到models裡面。這里我們使用的是vgg-f的model,這個model在前兩節說到了,自己去下載。
接著就是網路訓練了。再建立一個文件夾train,可以編寫函數了。
首先是主函數:
這里復制一下examples中的imagenet裡面的一個主函數cnn_dicnn,然後修改一下裡面的路徑,程序為:
滿意請採納
⑵ 協力人工智慧模型標注怎麼不卡
無論是在傳統機器學習領域還是現今炙手可熱的深度學習領域,基於訓練樣本有明確標簽或結果的監督學習仍然是一種主要的模型訓練方式。尤其是深度學習領域,需要更多數據以提升模型效果。目前,已經有一些規模較大的公開數據集,如ImageNet,COCO等。對於深度學習入門者,這些公開數據集可以提供非常大的幫助;但是對於大部分企業開發者,特別在醫學成像、自動駕駛、工業質檢等領域中,他們更需要利用專業領域的實際業務數據定製AI模型應用,以保證其能夠更好地應用在業務中。因此,業務場景數據的採集和標注也是在實際AI模型開發過程中必不可少的重要環節。
數據標注的質量和規模通常是提升AI模型應用效果的重要因素,然而完全通過人力手動標注數據建立一個高質量、大規模專業領域數據集卻並不容易:標注人員的培訓與手工標注成本高、耗時長。為解決此問題,我們可以利用主動學習的方法,採用「Human-in-the-loop」的互動式框架(圖1)進行數據標注,以有效減少人工數據標注量。
⑶ 深度學習中對於不同的數據集,不同的結構,怎樣設置最佳的base
base?你是指base_lr?這個是沒有辦法的,只能憑自己的感覺一遍遍去試去調啊233,一般剛開始訓練的話都採用默認大小(0.01),當然如果你訓練過程中出現Accuracy偏低或者大小不變的時候,可以考慮降低到0.001,具體更改還要結合你自己具體的學習策略(fixed,step,inv......),最後覺得還是看經驗吧。
⑷ 如何解決機器學習中數據不平衡問題
首先,數據集不平衡會造成怎樣的問題呢。一般的學習器都有下面的兩個假設:一個是使得學習器的准確率最高,另外一個是學習器應該用在與訓練集有相同分布的
測試集上。如果數據不平衡,那麼學習器使得它的准確率最高肯定是更偏向於預測結果為比例更大的類別。比如說陽性的比例為1%,陰性的比例為99%,很明顯
的是即使不學習,直接預測所有結果為陰性,這樣做的准確率也能夠達到99%,而如果建立學習器也很有可能沒有辦法達到99%。這就是數據比例不平衡所造成
的問題。這樣建立的模型即使准確率再高,在實際應用的時候效果肯定不好,而且也不是我們想要的模型。
明白了數據集的不平衡對於學習過程所造成的問題,相應的解決辦法也有不少。下面是一些常用的兩類方法。
1 從數據集入手。既然數據不平衡,那我們就人為的把數據集給平衡一下。可以通過隨機采樣比例大的類別使得訓練集中大類的個數與小類相當,也可以重復小類
使得小類的個數與大類相當。前者的問題是可能會丟失信息,因為只採用部分樣本。後者的問題是可能造成過擬合,因為有重復樣本。前者的問題可以通過
esemble的方法來解決,即每次形成訓練集的時候包括所有小類樣本,同時從大類樣本中隨機選擇樣本構成訓練集,這樣重復很多次得到很多訓練集和訓練模
型。在測試的時候使用投票的方法來判斷分類結果。
除了平衡數據集外,還可以通過分別在大類和小類中篩選特徵,然後組合起來構成學習器。這樣也可能提高效果。
2 從學習器入手。最簡單的是通過改變判斷類別的cutoff來改變類別樣本比例;也可以只學習一個類別。此外,在學習的時候考慮到誤判不同樣本的不同成本,使得學習器更偏向於預測小類。這樣也能夠改進模型。
⑸ 哪一部手機從來不會出現卡頓的狀況
目前手機品牌種類有很多,蘋果,華為,OPPO.等等一系列的大品牌價位有高有低,有好也有壞,但是目前據我了解沒有那一個品牌的手機沒有卡頓的現象的
首先說蘋果,蘋果的系統屬於IOS系統這個系統是比較穩定的一個系統,很多人現在都在用蘋果手機,用過一段時間之後蘋果手機會提示你升級IOS手機的版本信息,基本上一個星期會提示你升級幾次。
當你升級以後蘋果手機就會變的特別卡,有時候還會出現黑屏,卡頓的現象,包括現在最新蘋果8很多人用了一段時間認為IOS系統不錯,一點都不卡,但是過了一段時間提示你手機升級以後就會卡頓,升級系統是沒有錯,但是你的系統是升級了,手機還是原來的,所以手機會帶不起來,
還有就是屬於世界500強的華為生產的手機,華為是屬於在買的比較好的一個品牌的手機,很多人都會用華為,因為華為手機用起來便宜,系統還不錯,內存大,而且還是雙卡雙待的,可用2個手機卡。
但是按安卓手機都是比較卡,才開始用的時候安卓的系統不要太好用,下載東西很方便,運行內存速度也很快,但是呢!用了3個月以後所有的安卓手機的通用毛病就出來,會卡,很卡,這個手機就需要刷機,隨便安卓手機不想蘋果手機,安卓的手機可以刷機,雖然安卓可以刷機,但是手機卡頓的現象還是沒有解決。
從現在社會發展的經濟條件和科學的發展,我想手機卡頓的現象一定會得道解決的,因為社會再發展,人類在進步落後的東西會被淘汰的。
⑹ 關於區域網PPPOE撥號上網速度巨慢
1原因,你和其他人實際上還是在一個lan裡面 所以互相有arp攻擊也是正常的,
2辦法:除非你的房東的路由器支持vlan 每人劃分一個vlan 才有可能解決這個問題,不過可能性比較低, 比較那種路由器(還有交換機)不是這么便宜的貨色
⑺ 18組-Quo Vadis, Action Recognition A New Model and the Kinetics Dataset
Quo Vadis,行為識別?一個新的模型以及Kinetics數據集
摘要
在現有的的行為分類數據集(UCF-101 and HMDB-51)中,視頻數據的缺乏使得確定一個好的視頻結構很困難,大部分方法在小規模數據集上取得差不多的效果。這篇文章根據Kinetics人類行為動作來重新評估這些先進的結構。Kinetics有兩個數量級的數據,400類人類行為,每一類有超過400剪輯,並且這些都是從現實的,有挑戰性的YouTube視頻中收集的。我們分析了現有的結構在這個數據集上進行行為分類任務的過程以及在Kinetics上預訓練後是如何提高在小樣本集上的表現。
我們引入了一個基於二維卷積膨脹網路的Two-Stream Inflated 三維卷積網路(I3D):深度圖像分類卷積網路中的濾波器和pooling卷積核推廣到了3D的情況,這樣能夠學到從視頻中提取好的時空特徵的能力,同時可以利用ImageNet結構的設計以及參數;我們發現在Kinetics上預訓練之後,I3D模型在行為分類上提高了很多,在HMDB-51上達到了80.7%的正確率,在UCF-101上達到了98.0%的正確率。
1. 引言
從ImageNet挑戰賽中獲得的一個意想不到的好處就是在1000類圖像(每一類有1000幅圖像)訓練的結果可以用到其他的任務上或者是其他的領域。一個早期的例子是用在ImageNet數據集上訓練的網路,然後把訓練出來的fc7特徵用到PASCAL VOC分類和檢測任務上。在深度網路上的改進,從AlexNet到VGG-16,在PASCAL
VOC上的表現都有相應的提升。從那之後,有大量從ImageNet上訓練的網路然後充分用到其他任務上的例子,比如分割,深度預測,姿勢估計,行為分類等等。
在視頻領域,在一個充分大的數據集上訓練一個行為分類應用到一個不同的任務上或者數據集上也會有一個相似的提高仍然是一個開放的問題。創建10000數量級的視頻數據集的挑戰意味著行為識別中最受歡迎的基準數據集很小。
在這篇文章中,我們用全新的Kinetics人類行為視頻數據集來回答這個問題,這是一個比之前的HMDB-51和UCF-101數據集大兩個數量級的數據集。Kinetics有400類人類行為,每一類有超過400個實例,並且每一類是來自一個YouTube視頻。
我們的實驗策略是重新實現文獻中一些有代表性的神經網路,分析在Kinetics數據集上預訓練每一個網路然後在HMDB-51和UCF-101數據集上微調的這種遷移行為。結果表明通過預訓練後在性能上有很大的提升,但是不同類型網路上提升的程度相差很大。基於這些發現,我們提出了一種有能力利用在Kinetics數據集上預訓練的優勢的模型,並且能實現一個很好的性能。這個模型叫「Two-Stream
Inflated 3D ConvNets」(I3D),建立在先進的圖像分類網路結構上,但是把他們的濾波器以及pooling核(參數隨意)「膨脹」成了3D,成為了一個很深,時空上的分類器。I3D模型基於Inception-V1,在Kinetics上預訓練之後的性能遠遠超過當今最先進的其他模型。
在我們的模型比較中,我們不考慮更多的比如bag-of-visual-words表示的經典方法。然而,Kinetics數據集是可以公開獲得的,其他人也可以用它來做一些比較。
下一節概述已有的一些行為分類模型。第三節概述Kinetics數據集,第四節報告在之前的基準數據集和Kinetics數據集上模型的性能,第五節研究了在Kinetics上學到的特徵是如何很好的遷移到其他的數據集上。文章還總結了對結果的討論。
2. 行為分類結構
隨著近些年圖像表示結構的迅猛發展,仍然沒有清晰的,前沿的視頻分析結構。一些現有的視頻結構主要不同的地方在於卷積層是2D(基於圖像)的還是3D(基於視頻)的,網路輸入只是一個RGB的視頻還是包括光流;在2D卷積網路的情況下,信息傳播的框架可以用時間上的循環神經網路比如LSTM或者隨時間變化的特徵增強。
這篇文章中我們比較和研究跨越這個空間大部分的模型。2D卷積網路的方法中,我們考慮頂層有LSTM的卷積網路以及兩種不同類型(流擴散不同)的two-stream網路。我們也考慮了一個3D的卷積網路:C3D。
作為主要的技術上的貢獻,我們引入了Two-Stream Inflated 3D卷積網路(I3D)。由於高維的參數和缺乏有標簽的視頻數據集,之前的3D卷積網路相對比較淺(至多8層)。我們注意到,很深的圖像分類網路,比如Inception,VGG-16和ResNet,可以簡單地「膨脹」成時空特徵提取器並且他們預訓練的權重可以提供值的初始化。我們也發現two-stream的配置也是有用的。
圖2是我們評估的5種網路結構圖的概述,表1種是明確的時間上介面的參數。
很多模型(除了C3D)都會把ImageNet預訓練的模型作為一部分。我們的實驗策略是把一個普遍的預訓練的ImageNet圖像分類網路作為主要部分,我們選擇的是批量正則化過的Inception-v1模型,並且用不同方法把它變形。預期是把這個作為主要部分,我們來梳理能給行為分類帶來好處的變化。
2.1.The Old Ⅰ :ConvNet+LSTM
圖像分類網路的高性能表現使得可以把它小改一下用在視頻上。當把pooling整個視頻的預測時這可以單獨來提取每幀的特徵。這是詞包圖像模型方法的基礎;雖然實踐中很方便,但是還是有忽視了時間結構的問題(比如模型不能區分是開門還是關門)。
理論上,一個更滿意的模型是增加循環層到模型中,比如LSTM,它可以用來編碼狀態和捕獲時間順序以及大范圍的依賴關系。我們把批量正則化的LSTM層放在Inception-v1的最後一個平均pooling層後面,有512個隱藏單元。頂部是一個全連接網路層用來分類。
模型是用交叉熵損失函數來訓練的。在測試階段我們只考慮最後一幀的輸出。輸入視頻框架是通過從每秒25幀,並且每5幀都選一幀的下采樣的方法。表1中是整個細節。
2.2.The Old Ⅱ :3D ConvNets
3D卷積網路是一個自然的視頻建模方法,就像標準的卷積網路,不同的是它有時空卷積。之前有過幾次研究。他們有個很重要的特徵:直接構建時空數據的分層表示。這些模型有個問題,由於額外核的維度使得比2D卷積網路多很多參數,並且這使得他們很難訓練。他們還似乎妨礙了ImageNet預訓練帶來的好處,這等於他們的工作都是從頭開始訓練這種淺層的網路。在基準數據集上的結果雖然還不錯但不能和先進的方法競爭的方法可以用來評估我們更大的數據集。
這篇文章中,我們實現了微小改變的C3D有8個卷積層,5個pooling層以及頂層有兩個全連接層。模型的輸入是從原始輸入16幀剪輯,每幀再裁剪出112*112像素。和其他文獻不同的是我們在所有的卷積層和全連接層後用了批量正則化。另一個不同之處是原始模型用的是步長為1的pooling層,我們用的是步長為2的pooling層,這樣降低了內存以及允許更大的batches-這對於批量正則化很重要(尤其在全連接層之後,這里沒有weight tying)。用這個步長我們可以每個GPU訓練15個視頻,用的是標準的K40 GPU。
2.3.The Old Ⅲ :Two-Stream Networks
很多情況下,在卷積網路最後一層的特徵上,LSTM可以出模擬高級的動作變化,不能捕獲重要的低級的動作。當他需要展開網路通過多幀圖像用隨時間變化的反向傳播時很難訓練。
Simonyan 和 Zisserman引入了一個不同的,很實際的方法就是在兩個預訓練的ImageNet卷積網路間傳遞之後,從一幀RGB圖像以及另外10幀計算的光流中通過平均預測模擬視頻短時的快照。Flow stream 有一個自適應的卷積網路,層數是flow frames輸入通道數的兩倍(因為flow有兩個通道,水平和垂直的),並且在測試的時候,多個快照是從視頻中采樣的,行為預測是平均的。這可以在已有的基準數據集上有好的性能,並且訓練和預測都很高效。
最近的一個模型是在最後一個卷積層後融合了spatial 和 flow streams,在HMDB上有些提升同時花更少的測試時間來增強(快照采樣)。我們的方法和這篇文章差不多,用的是Inception-v1.網路的輸入是從分開的10幀中選取5個連續的RGB幀以及對應的光流小片。在最後一個Inception-v1平均pooling層(5*7*7特徵格子,對應時間,x和y坐標)之前,空間和動作特徵通過1個3*3*3 3D有512個輸出通道的卷積層傳遞,這個緊接著一個3*3*3 D的max-pooling層和一個全連接的卷積層。這些權重的初始值是用高斯雜訊初始化的。
原始的two-scream模型和3D融合的模型都是以一種」端到端」的方式訓練的(包括原始模型中的two-scream平均過程)。
2.4.The New :Two-Stream Inflated 3DConvNets
用這個結構,我們展示了3D的卷積網路是怎樣可以從ImageNet的2D卷積網路的設計以及學到的參數中得到好處的。我們也這里也採用了two-stream的配置-這會在第4節說明3D的卷積網路可以直接從RGB stream中學到時間上的模式,並且性能通過包括光流stream有很大的改進。
Inflating 2D ConvNets into 3D. 近些年來一些很成功的圖像分類結構發展起來了,部分是通過小心的試驗和錯誤。我們不是重復時空模型的過程,而是提出了將成功的圖像(2D)分類模型轉化為3D的卷積網路。這可以通過一個2D的結構開始,並且「膨脹」了所有的濾波器和pooling核-賦予它們一個額外的時間上的維度。濾波器一般是平面的我們只要把它變成是立體的-N*N濾波器成為N*N*N。
Bootstrapping 3D filters from 2D Filters.除了結構,可能還想從預訓練的ImageNet模型中開發參數。我們觀察到一幅圖片通過重復的復制到一個視頻序列中可以轉化成一個(無聊的)視頻。在那之後,3D模型可以在ImageNet上預訓練,滿足(把無聊的視頻稱作固定點):在無聊的視頻中的pooled激活函數應該核原始圖像輸入的激活函數一樣。由於線性性,這可以沿著時間維度通過重復2D濾波器的權重N次。這保證了卷積核的反應是相同的。因為對於無聊視頻的卷積層輸出是常數,對於2D的情況,內積非線性層以及平均和max-pooling層的輸出是相同的,因此總體的網路反應關聯了無聊視頻的固定點。有些人研究了開發策略。
Pacing receptive field growth in space,time and network depth.無聊視頻的固定點在怎樣沿著時間維度「膨脹」pooling運算元和怎樣設定卷積/pooling時間上的步長方面給了充分的自由度-這些是體現特徵感受野尺寸的初始因素。實際上所有的圖像模型都是同等對待兩個空間維度(水平和垂直)的-pooling核和步長也是一樣的。這是很自然的並且意味著越深層的網路在兩個維度上是同樣被圖像的位置影響的。一個對稱的感受野當考慮時間的時候沒必要是最優的-這應該依賴於幀率和圖像維度。如果在時間上相對空間增長的太快的話,可能會合並不同物體的邊緣從而破壞了早期的特徵檢測,然而增長的不那麼快,就不能很好的捕獲到場景的動態變化。
在Inception-v1中,第一個卷積層步長為2,然後有4個步長為2的max-pooling層和一個7*7的平均-pooling層後面接一個線性分類層,平行的Inception分支中還有一個max-pooling層。我們的實驗中,輸入的視頻處理成了每秒鍾25幀;我們發現在其他的max-pooling層有對稱核和步長時在前兩個max-pooling層(1*3*3核,時間步長是1)中的時間上的pooling操作沒什麼幫助。最後的平均pooling層用2*7*7核。圖3中有整體的結構。我們用64幀的小片訓練模型,測試的時候用整個的視頻,並且平均時間上的預測。
Two 3D Streams.一個3D卷積網路應該能夠從RGB輸入中直接學到動作特徵,但是在光流演算法的一些循環中它仍然需要大量的前饋運算(比如flow
fields的迭代優化)。大概是由於循環不夠,實驗中我們發現two-stream的配置-圖2中展示了-在RGB輸入預訓練過的I3D網路以及在flow輸入上優化過的光滑flow信息。我們分開訓練了這兩個網路,並且測試的時候平均了它們的預測。
2.5. 實驗細節
除了C3D,其他模型喜歡把用ImageNet預訓練過的3D卷積網路作為基本網路。所有結構中除了最後一個計算類別分數的卷積層,其他卷積層後面都接著一個批量正則化層和ReLU激活函數。
眾所周知,數據增強對深度網路的性能至關重要。在訓練過程中,我們用隨機裁剪的方法,空間上-把視頻的小邊調整為256個像素,然後隨機裁剪一個224*224的patch-時間上,在能夠保證一個理想幀數中挑選前面的幀。對於更短的視頻,我們盡可能的循環視頻以滿足每個模型的輸入界面。訓練中,我們也隨機左右翻轉視頻。測試期間,模型是在整個視頻中心裁剪224*224上卷積,預測也是被平均。我們也在256*256視頻上試過空間的卷積,但是沒有改進。在測試的時候考慮左右翻轉視頻能夠獲得更好的性能。在訓練期間增加數據增強,比如光度測量也可以獲得好的性能。我們把這個留在未來的工作。
我們用TV-L1演算法計算光流。
3 、Kinetics人類動作數據集
Kinetics數據集是專注於人類行為(而不是人類活動或事件)。動作列表包括:個人行為,比如畫畫、飲水、笑和拳擊;雙人行為,比如擁抱、親吻和握手;以及人與物的動作,比如打開禮物,割草和洗盤子。一些動作細粒度不同,需要時間推理來區分:比如不同的游泳方式。其他動作需要更加強調對象來區分,例如演奏不同類型的樂器。
數據集有400個人類動作類,每個類有400個或更多個剪輯,每個剪輯來自一個獨特的視頻。剪輯持續10秒左右,沒有未剪輯的視頻。測試集由每個類的100個剪輯組成。文獻【16】給出了數據集的完整描述以及它是如何構建的。
在本文中,對於大多數的實驗,我們使用比完整的Kinetics更小的數據集,稱為miniKinetics數據集。這是一個早期版本的數據集,它只有213個類,總共有三個分割的120個剪輯,一個用於每個類150到1000個剪輯,一個用於每個類25個剪輯,另一個用於每個類75個剪輯的測試。
Mini』Kinetics能加快實驗,並且優先於完整的Kinetics
4 、不同結構的實驗結果比較
在本節中,我們在改變測試和訓練的數據集時比較第二節中描述的五種架構的性能。
表2顯示了訓練和檢驗在UCF-101、HMDB-51或miniKinetics的分類准確率。我們對UCF-101和HMPD-51的1個測試集進行了測試,並在Kinetics的同樣測試集上進行了測試。有幾個值得注意的觀察結果。首先,我們的新I3D模型在所有數據集中都是最好的,無論是RGB、Flow還是RGB +Flow。這非常有趣,因為它的參數非常大,並且UCF-101和HMDS-51非常小,這表明ImageNet預訓練的好處可以擴展到3D ConvNETs。
第二,在miniKinetics上所有模型的性能遠低於UCF-101,這是兩個數據集不同難度級別的指示。然而,它比HMPD-51更高;這可能部分是由於HMPD-51中缺少訓練數據,但也因為這個數據集有目的地建立為難度系數較大:許多剪輯在完全相同的場景中有不同的動作。第三,不同架構的排名大多是一致的。第四,LSTM和3D ConvNETS模型在miniKinetics上比在更小的數據集更具競爭性;這些模型看起來相當數據飢餓。
此外,兩個流架構在所有數據集上表現出優異的性能,但是RGB和flow的相對值在miniKinetics和其他數據集之間顯著不同。單獨的流的貢獻,在UCF-101上略高於RGB,比在HMPD-51上高得多,在MiniKenitics上低得多。數據集可視化表明,MiniKenitics有更多的相機運動,這可能使工作流的運動更困難。I3D模型似乎能夠比其他模型獲得更多的流,但是,它可以通過更長的時間接受場(訓練期間的64幀對10)和更完整的時間特徵提取機制來解釋。雖然RGB流有更多可辨識的信息看起來更合理,我們卻經常用肉眼從Kinetics的flow中理解動作,這在RGB中是非常罕見的。這或許對於將來的研究是一個機會:整合某種運動的穩定形式於結構中。
5 、特徵的實驗評估
在這一節,我們研究了在Kinetics上通用網路的訓練,我們考慮兩種方法:第一,我們固定神經網路的權重並且使用這個神經網路產生UCF-101/HMDB-51數據集上視頻(未知)的特徵,我們接著訓練多路Soft-max分類器用於分類UCF-101/HMDB-51(使用他們的訓練數據),並且在他們的測試集上進行評估;第二,我們對用於UCF-101/HMDB-51分類的每個網路進行微調(使用UCF-101/HMDB-51的訓練數據),接著再次在UCF-101/HMDB-51測試集上進行評估。
這個結果我們在表3中給出,清晰的結果是,所有體系結構都受益於miniKinetics附加視頻數據的預訓練,但其中一些益處明顯優於其他體系——尤其是I3D-ConvNet和3D-ConvNet(盡管後者從更低的基礎開始)。僅僅在MiniKinetics(固定)預訓練之後的模型最後幾層進行訓練也會比直接在UCF-101和HMDB-51訓練I3D模型帶來更好的性能。
對I3D模型特徵可轉換性的顯著提升一個解釋是它們的高時間解析度——它們在每秒25幀的64幀視頻片段上訓練,並在測試時處理所有視頻幀,這使得它們可以捕捉運動時細微的時間結構。換一種說法,稀疏視頻輸入的方法可能不如在大視頻數據集的訓練,因為從他們的角度來看,視頻與ImageNet中的圖像沒有太大差別。 其他類似C3D的模型的可以通過我們的I3D模型更深入的解釋,而我們的參數少得多,通過利用ImageNet熱啟動,通過對4倍以上的長視頻進行訓練以及對2倍以上的空間解析度視頻進行操作。
5.1 、與最先進的技術進行比較
我們在UCF-101和HMDB-51上比較了I3D模型和以前最先進方法的性能,見表4。 我們的結果包含了在MiniKinetics和在全Kinetics數據集上的預訓練。圖4中顯示了訓練模型的第一層的卷積濾波。
許多方法得到了相似的結果,但是目前這些數據集上表現最好的方法是Feichtenhofer及其同事[7],它使用RGB和光流的ResNet-50模型,在與密集軌跡模型結合[30]之後,在UCF-101與HMDB-51上分別取得了94.6%與70.3%的結果。我們使用三種標准訓練/測試分組的平均准確度對我們的方法進行了基準測試。我們的RGB-I3D模型或RGB-Flow模型中的任何一個,當在Kinetics上進行預訓練後,表現均優於先前發布任何模型或模型組合。我們的組合式雙流體系結構與之前的模型相比顯著提高了性能,使UCF-101的整體性能達到98.0,在HMDB-51的整體性能達到了80.7%,將其分別與以前最優的模型進行比較相當於減少了57%和33%錯誤分類率。
在Kinetics上預訓練的I3D模型與之前的3D ConvNets(C3D)之間的區別甚至更大,盡管C3D在更多視頻中訓練,來自與 Sports-1M加上一個內部數據集的1M例子,甚至整體化和與IDT結合。這可以通過Kinetics的質量更好來解釋,但也因為I3D只是一個更好的體系結構。
另一個值得注意的效果是從miniKinetics到Kinetics預訓練時,HMDB-5上的I3D RGB流的提高,這表明3D ConvNets可能需要大量數據來學習穩健的運動特徵。在Kinetics預訓練之後,雙流得到類似的表現,但仍然是互補的:它們的平均預測結果在74.8%到80.7%之間。
6 、討論
我們回到引言中提出的問題,「從視頻中遷移學習有沒有好處?」。 很明顯,在(大量視頻數據集)Kinetics的預訓練中有相當大的好處,就像在ImageNet上ConvNets進行預訓練一樣有很多好處。 這表明將一個數據集(Kinetics)轉移到另一個數據集(UCF-101 / HMDB-51)進行類似任務的遷移學習(盡管對於不同的動作類)。 但是,如果將Kinetics預訓練用於其他視頻任務,如語義視頻分割,視頻對象檢測或光流計算是否有好處,還有待觀察。 我們計劃公開發布在官方Kinetics數據集上訓練的I3D模型,以促進該領域的研究。
當然,我們並沒有對體系結構進行全面的探索——例如我們沒有採用行動管[11,17]或關注機理[20]來關注人類行為。最近的工作提出了想像性的方法,通過在時間上加入鏈接的物體檢測來確定雙流體系結構中運動者的空間和時間范圍(檢測)[22,24]。時空之間的關系是神秘的。最近幾篇非常有創意的論文試圖捕捉這種關系,例如通過學習幀排序函數來進行運動分類並將這些函數用作表示[9],通過在動作和變換之間進行類比[33],或者通過創建幀序列的2D視覺快照[2]——這個想法與[3]的經典運動歷史工作有關。在我們的比較中,包含這些模型是非常有價值的,但由於缺乏時間和空間,我們無法做到這一點。
在未來的工作中,我們計劃使用Kinetics代替miniKinetics重復所有實驗,不論是否使用ImageNet預培訓,並探索其他現有的2DConvNets。
感想:
本文針對視頻運動分類中存在的問題提出了自己的方法,即利用遷移學習的方法解決,具體的操作先利用imageNet數據集進行網路的訓練,然後利用Kinetics數據集對網路參數進行微調,並以此種方法得到了模型,文中作者將其與其他最先進的方法進行了比較,得到了利用遷移學習的效果要優於目前所有已有的模型或模型組合的結論。從文中看,採用遷移學習的確顯著提高了模型的性能。
這個模型的主要思想就是遷移學習,還有就是將卷積核進行了拓展,由二維到三維,並在不同規模數據集上進行訓練,得到了在大數據集下魯棒性較好的結論。本文給讀者提供了使用遷移學習的辦法提高性能的想法,這種想法可以借鑒到其他領域。
本文也存在著一些缺點,首先,沒有提出新的模型,僅僅是利用了遷移學習,而且在體系結構上沒有深入的介紹,也沒有將遷移學習應用到其他領域,來驗證遷移學習的有效性,需要後期繼續進行實驗和修正。
⑻ word2016 32位 在筆記本電腦上使用存在卡頓
在微軟官方的推薦中,64位在處理大文檔時比32位版本更有優勢。官方說明簡要概括如下:
選擇 64 位版的原因
處理大型數據集,例如包含復雜計算、許多數據透視表、與外部資料庫的數據連接、Power Pivot、三維地圖、Power View 或獲取和轉換的企業級 Excel 工作簿。在這些情況下,64 位版 Office 可能表現更出色。
在 PowerPoint 中處理超大圖片、視頻或動畫。64 位版 Office 可能更適合處理這些復雜幻燈片。
處理超過 2 GB 的文件,尤其是項目包含許多子項目時。
因此我推測你可能在打開較大較復雜的word時(比如論文等),32位版本的word處理索引(大綱)起來就會有些卡了。雖然官方默認推薦安裝32位,認為可以帶來更高兼容性,不過從個人角度來看,64位的處理器可以處理更大內存數據這個優點是無可取代的,尤其對於現在越來越大的軟體及數據來說這點非常關鍵,所以建議安裝軟體時盡量選擇64位版本。希望對你有所幫助。
⑼ 用python處理一個1G左右的數據集,運行速度非常慢,怎樣優化
給你幾點個人的建議哈:
考慮拿C或C++重寫.
考慮並行搞,找個hadoop集群,寫成maprece程序跑 放在hadoop上跑,更多數據都不怕.
考慮升級機器,多搞點內存,然後東西盡量放在內存里搞.
考慮程序優化.
希望可以幫助到你哦,這只是我的一個建議哈!
⑽ 怎麼讓電腦不卡
優化你的電腦吧:
1、「開始」——運行中輸入msconfig——確定——啟動——除了輸入法ctfmon以外的勾全去掉。重啟。
2、右鍵我的電腦」——屬性——點高級——點啟動和故障恢復中的設置——去掉所有的勾——寫入調試信息選擇「無」——確定——點高級下面錯誤報告——點禁用——2次確定。
3、「開始」——打開控制面板中的文件夾選項——點查看——點去末項自動搜索文件夾前面的勾——確定。
4、右鍵我的電腦——屬性——硬體——設備管理器——雙擊IDE控制器——次要通道——高級設置——傳送模式都選DMA——設備類型選無——確定——主要通道也同樣設置——確定。
5、右鍵C盤進行磁碟清理和其它選項中的系統還原清理。
6、把「C:\WINDOWS\Prefetch(預讀文件)和C:\WINDOWS\Temp(臨時文件)里的東西全刪掉。
7、右鍵瀏覽器e——屬性——點2個刪除1個清除(都要逐一確定)——確定 。
8、清空回收站。
(5、6、7、8點每月清理一次即夠。)
9.關掉調試器Dr. Watson,運行drwtsn32,把除了「轉儲全部線程上下文」之外的全都去掉
10.關閉「系統XP自帶的還原」,右鍵「我的電腦」屬性中,系統還原。(建議不要關閉,關閉只能加快系統運行速度,但對電腦沒什麼好處)
11.關閉「休眠支持」:因為休眠功能占的硬碟空間蠻大的, 所以關閉比較好, 控制面板-->電源選項-->休眠(不要打勾)
12.加快Win XP網上鄰居瀏覽速度!
打開注冊表點擊到:開始-運行-輸入regedit-HKEY_LOCAL_MACHINE/Software/Microsoft/Windows
/CurrentVersion/Explorer/RemoteComputer/NameSpace。分欄出選擇鍵值:{D6277990-4C6A-11CF-87-00AA0060F5BF},刪除下面的沒有必要的鍵值,重新啟動後,會發現桌面上少了許多圖標
13.加速XP的開關機:
1:縮短等待時間 :
開啟注冊表編輯器(開始-運行-輸入regedit-)找到 HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control,
將 WaitToKillServiceTimeout 設為:1000或更小。( 原設定值:20000)即關閉程序時僅等待1秒。將 HungAppTimeout 值改為:200( 原設定值:5000),表示程序出錯時等待0.5秒。
2:讓系統自動關閉停止回應的程序:
打開注冊表 HKEY_CURRENT_USER\Control Panel\Desktop 鍵,
將 AutoEndTasks 值設為 1。 ( 原設定值:0 )
3:MsConfig 大多數朋友都應該熟識MsConfig了,這是一個系統內置的Windows設置工具。點擊開始菜單,選擇「運行」,然後在錄入框中敲入「msconfig」回車。我們要動手腳的是(啟動)選項卡,點擊它,這個選項卡中顯示了Windows啟動時運行的所有程序。這里除了ctfmon,沒有一個程序對Windows來說是生死悠關的,所以放心大膽地把不要的去掉。把部分勾勾去掉之後,Windows啟動會快些,同時空閑的系統資源也會多出一些。
14.取消XP自帶的壓縮文件夾工具:
點擊開始->運行,敲入: regsvr32 /u zipfldr.dll 。然後回車即可
15.關閉錯誤回報:
控制台---->系統---->進階---->右下角--->錯誤報告---->關閉
16.更改臨時文件的位置