From a808a7b2af70d3aab27845caa81601ecee922c6a Mon Sep 17 00:00:00 2001
From: wapiti08 <tzrzhuoran@163.com>
Date: Fri, 27 Sep 2019 15:52:20 +0100
Subject: [PATCH 1/8] Add files via upload

---
 data/Linux/anomaly_lables.csv | Bin 0 -> 10417 bytes
 data/Linux/log_matrix.npy     | Bin 0 -> 318256 bytes
 data/Linux/mal_matrix.npy     | Bin 0 -> 695696 bytes
 3 files changed, 0 insertions(+), 0 deletions(-)
 create mode 100644 data/Linux/anomaly_lables.csv
 create mode 100644 data/Linux/log_matrix.npy
 create mode 100644 data/Linux/mal_matrix.npy
diff --git a/data/Linux/anomaly_lables.csv b/data/Linux/anomaly_lables.csv
new file mode 100644
index 0000000000000000000000000000000000000000..c2b8c5747e41824a22f606845524edf4d86640c0
GIT binary patch
literal 10417
zcmeHtby$?^*7wjLNQWRwqaertgLJpRfFLCzImi%0N;fmW&?()apnx=z(nv~3hl+&K
zT>{_W-utjO+w*?=`{VuNyUuyIZsvNJXZ={uihISq)RZtV$pP2^TmS&T0O*1@`X-|R
z0K6Cg05Jd;&D6$3&ECe=fy>C&_O6Sy6@3;a+U*Pg>WTmCD<!5MJO?ChU%#_S7_~kO
z4IwU|Woo6f16b!$uC*tED2r~4OAl{xxR1BouS2^vW2QaPVHo`qG~bVy?D5D}75A=e
z+q8hj&`5!1AXWkjy6E8JscPAF*aFqDJO}dS<D%EjktKXGP8|DQLC_5fOb{_ysV%n&
zi!tA4k?*9>*$EY#a>&IvDAcc0PEjESY!`N0NNKkoB;B;vVW_6vI{Drk`7At!rqMFV
zeR`v9^00={kPTeWMN=3FW-AUO6gxtX*^a}$<6=NA!;f)7Oi%=2cWI>HE#ydvF5!p`
zqd#z>zbna?sS=0xAeiPBpZN|0av{q2ddXL?thp_Z)+@tU>1K<On!G}53hqwte(%$U
zA4g}$infEbx_W!s#}$H+b56d&({1e;bM!{>wy+OUKXjEf->Ld^cz$}G*|KVD#sVNb
z_OQt*1RXv4u5kRq!hx~DSw_2kx+B?Qt)IM^bz?d+A&y-F>|8!jg<+?ti!+&!^1O?a
zes;x!JZaHx@&rv#<XX;LEUbZ_%;R`s{tn6_&(1IaYAA!g^1F31p#E}pwu!nsU&N@T
z=V))_V6M*vL|u1HjU3Ov|NY_rjE{5iT==^ITXUKe>cyu}>lSLcSaI3fLt%~(dku)A
zBNX=3;qpEAU1KQB*f4_tSPFbIjYiY-Bi+|G$~VS{vI<ZBN@QC<aZ@X1jwCaNKa)Qm
zWF%wB48A1+>U1PNp~KB+wmsL(A6oh=8<PJ|Z1DVKBZK%iE|UI7E)aY4mQUgK{|j93
z{x5K0^MsZci4Fj~!U6!U{-zQKM^`I|!}<PO{;(c42_&Au-?@RiMhNKun@FnzI=G4H
zv92&<)eMrekbRDjP|u&r(yI#h41%SW?O4-fL=0r#KEtG*U|eFnvF<YK>|M9>T9b6z
zZW%s6ee)*EHM?GA2FJM1Rs7veY;t`X`f5;6|3-kY$MZ&yD51uvA8x&G<pG)c0i!dc
zyi&A!4zklx`ERk6ps%xThF3BcRi;qh6<|}8Q?!>Nr=XFCCmMTWWWB7n{*K05koV*@
zoZM^3$S7xQrF5`;Fb=LZ`8lDK)5+Ndy%@8sJ#ml@jg}k2cFmh+K2{lzejW-fcMeLF
zJ0^$#2myOw6|TkcO_*3KHuL$%K5H*Adx>L2AaXPzA`h|AmqAJFH*G{b&bGEYMr~i^
z-0xHw4i~E8s~}{jjSBCO9Q|13tchNF^**Uo2-;fyi>56D7a<`W52-GHKN;CHDHD+@
zH$1K3ZvJE%o>8DQ_haD6rW53wnLrY)Kx8;jRlA)MST?BzFOb(vyZ^*ZVKUg_#_7!P
zhCcOrW|Qk9+(*<ZEJ3Er1Nf1IbLvk5-+F0_HN%v0u2(!fE$sx>MXIe7;v#p9TSEdx
za@8L`vb)+lH-b-T=Gzq2;Z?yRW7|nJo~{x)v1Pyn=<^?@V`;!AMsRm+w49t2+oT(9
zxRaJ!z;~qNyVQnLaSSO}8$uPAvWSSv?rel(73gk6-y57=38kLtE_P+0!LliA+?AW6
zo|QCp;W9wLh*Z&WY)<0*UjV#^b)r5;P;F}uwYAxU1XLDY_-}Hj6XeAl8Uv}*`>8_a
zLDVdZ>4bZ&yp=Lly<6ma%{_`^ES0L2M5k`W-5X5|0kge=@T;0rtddi(?uABF=>NO_
z=0rqWWnu#WMb`lUvfpgh(Hvq8;rjWT``mI@bZ2d@^U-?CfAM~^=4m;|s;|MBngr4{
zTGrwl|8O%k#9^_`S!^6!Tc<KP$IRR+;Vvmvx8dWXn2bp}m!4^2P5?baH<)yecW}sD
z)$;X`)r=_<KRrG5I;mLyk}FIieJrEUHJ7I?YOqO+^c2gn`>+Gssa+fqVWtQVOxR2S
z)w4y-<c96f)&`AgDlqyPdUA}~4dKV#ABlgSL)4;^wupx`g0;%RDMW$|p|>~CK7@@8
z+UJ(mkQ>ps-)<*~tQVtske;z9e!8>uO1^Q*6W~1~*Ph+t^Wb&P&5gt*C}FFv`I{Cy
zO{T98D-$J-6Zk|8`M=_L+RM8J8RZ*hebeme(3_~PhK~-(Ds$@S>5THFJL=aM3Ou<d
zA`9$H)T*s$M--+spaJ<JmK}vw!F(^C0><_wHSQ=ynHAP*Swleh^v4cqPPOXA!;d|D
zPrFij!n9s#+T@h#WMP|nk1T9h#(kVvDD~&34=L{dY+2ar<o>bgdSqL1-{)E?npb>O
zHWCckn=XWfHzro|h8;SC%2w46Xx@#ovv~ygnRjL@m0jD^;S8?8on6Sn2V6DP8Mu}Y
zm696^G=$BW)88H;*br($Pz!(Ue#_8{uW0Z=hOeH8i~z}<y?-=bRh%v=iCSWH`#T#m
zM1lM3bTh{@gZ7lLIf2`EJ$83*d3)GVot%E{)+Q3a)6va%I=X&S<m_<Bp5F9>au!v(
z`047mIjRUTufyIJ(u2Hr{)~01OpF73_C9+qm^IWb)zLA&0@J}>LHT9qffBWFM|lL{
z#sqm8&*PBl_FA?Kmsm6|RhV$;o)q_ka`<)}(B4NlrHqm)7rQ#km4ag`y;V}sft&5i
z9&m<hZo0i>ZlaIbw;&NK*W}nqftK5uI-G(~L79Be!9!UA=~Q+5*-DMHXA=t@n`1~8
zWnM1pw;^9Lg)-Sm5PG9>w<ET;aOL=0<fD{0Xua&7J~K0>8B6m%o<oldwJLddm%^T1
zYcO_Wu%-^HsSW!N#v&#P7a{u4?7m0^-O7a;fG0k<(J%8!T#aX-3KJC@`HlF2x?n*r
z#;Swr8((g-wd|SGQkKwla>H-S)jp1Ea;{EhIHLaHGly7fP(;qH&EYp)r4eB4MVIMU
zmO*lHk*&4b*mTJyB(P(!Oy>`igq;;w@m_g0Y44(4nLNX4Wej;==9#0z)qH}lv_qNJ
zT8mj~>=ojsojI#%zAkQ%Nj1MUK02?<7QkM3opjPNxlj1fm`lWM6Hz|M*8)&|75u9C
z7(%kXFGW<*i&#nOAfK1|nn1OLVHq}FkysY{3PQlQq5eCR(N|d!hm_@Uv+Dps{NRYo
z(n*}C^~kPZs}>>hBO%?yXA04j8~pY>as}^FpuBQ-lHMsM7Cu%$`oV0PUl$;RxT^|C
zddX!2^@>XGl?cZBzjyd(2&`gtyoY<l@MeoW<&@7-VBJtIU}9}VK2a}}s&7!1r&T)o
zNMTuYJ-fh8o$`)Du(_xeaH(vLTkDRkrFp4M(<(EVz4R5QVZ7_QbzQ9NMvs!js<}{U
zbwUb<9F9uy1A`*>&JM+)>rD@+z2xv*^uL>tmH~=VJy@*9=#qO_yPwWjnFhaAR6|S>
zS?&uWQiURM^DEyFSeqy0gD`bo3+f)mFB^`Osb}QSq$&r;@!<w|D_?n&z5IxWhQxp(
zRsY&RWmyE2ZJtb4hKu%Q23m5ED8brj=9MFYeE4-D4U!#<$Nf;tWVR}S7mC_-<h%mH
z;ku+>%BQ}Q_wtN4t4MZ1fT~!V5>@KsVfHVy+j4$T=c^OUoh7oniTmCOip$*dA&PHB
zXG&#LiNL3@e<`J?a8l&c-ZV@YL|Od>0mWsnF1R=Ax3X-L?C?B5(NaLMK$M1F(nwrA
zlirl7D;n8g5~Mj)-yLnr#z6J}%MN1Pb~Dnm`KSiF=zIONGy}XQpA||Ctj^wC6njAp
z!gY+%=;416J?~!J>)TknUGkpb{@Z6`AW-6o1IhNDVdbldT{G9peM*V}va)-xo<p#J
zcdW3&K&!KAa1B^RrExE`?r}dHgR9Syz~5Cm_MI&0;F;lBcJtF#c*%^~u?LaG9lw35
zq-*f2GP{D4F7*2JtDgWgw}j386=O>CRP=6HS6G#a&4KwB-CM^VmBt(#$F}z+^Twyf
zggk|=3^#`tu8v7*_&<%vyG;;Q>K|$s>T0Crk=TY))ij{DF=5yo3u?kFF2D@9S@U!Y
z5It)TQsO_w{8dEDO6Fg*M8!IPR3=9BTSRlVv9~m~v9UalW})i(s?9)hPyS7DkY{{&
zGcM^p(rmdW1jsA>&+1LC>erUv@b_NV#|s+3Np}<P>l0lx-EPYqF(vA|W62{#%N*;&
z_WGe&@<7D?Vl5ks7%mf{5}U^jQ<ds)wYRPewhvtmr}y2YE|fAi3q8#8dvxGy{q9p<
zc@ZU=UKOOljy|UtAXP}M8jbe~!L!o}bU6F`29kfprCe6eAMX|^&Lhm&^*bM3lKPc$
zjXdpTWQOX3X`a!6SRNg0Flz!52gvm%n<9KIlLNJ&Q!^3KB#^_luU#ajS3hZiS7q&5
zb8bhe1#1O5gFG4n9mEzq2E8W(%d|cm+9Wlw1cvbpI#JJ?5FER#1<=;sExLC<;7UGg
z3ppgsj4Pv3vvUcgGMJXCKhUADsqBG7dd(gsJTOh+93UNm<-M_05?rD7$~>f?S;kK~
zL*CTSENRFvfpJ7<=SVG~w=AdMHckP%)b;h9sh*<p-@j)XLAGBiTTyypLNzF^UFgNZ
z90GB4;QIOTGu;S{mb94!5+K$w_UJIDEytH@?#iVYo2zkL!zSpitmPQ0Bvu?|&V%kP
z%L}WhWyH@Y=pD@rF~vKp&LHI##*NKQHDlE!fMer8(AIu&;H!Rh)4|LkLJZIruI^0X
zOrzdS;OZ8xgdZLQzddtsh5C5tr)PJ8QlG>{S&NaApqI2{OR$EosYhzh(_=^Pb&_R*
zZHx?O^)M_!?nJ)eNK7!<aesE$q4M?ur$F%#jINmAs559pNU4LG9l^hAhMVBHd@!y0
zQQo?5<*h4Xe}uVbOruHQ8PCyCFMfrZ@*_^+ZmtAlD!d~(ul$@xoQt-nIs#v*D(I(S
zO}-3EE^_M1<5fYm-#!J1$Axxp`{KR0Ixb(0vq*DTn6$9(td(H#T#YI$eph$hC~Y)?
zS!ii@W<XWM14}rxwRyDd>MbDF1LqDt(-tzr&8(WYItG@5uSw*eP?iP=iee{;lv)eP
zfq6cO1}ugpugQwOb56y+UTXWHzg3TIP_dk&nl&`0kF&c<0e(6aR;T*TU4wEoIxe!W
zm)9A;Jc98%F4Xd@<Us0*@^jCA{GrYuWOQY#TLmN@I@If+7Qg%C1m{<p*Rq%Q%Rp&<
z7UhxuM)N#BUGtLWSI;${rK83Xh}JT(TGUz2*-DBPtebRlGyv8h=*;COiEh|G=$t=M
zy7rMSV}<)(4g38<dLb*%mFp+VhnwF+v=XhYR)a`rJmIg`wduq;h!ko?0B=a8dctld
zXjm&dVPGcXD-+M>Nnd%Mn=|uO#&Ggb<67@CU9WphM=w?3Ni!|)ina+ymiEvX)9Ep@
zA)Dzq>061EQ|`7+gRt}>+5qODLOM~pr!TddJ|>GXj<4SKY<!shTDWZS3p!mLQ_q+k
zgMb5%+xT`fM`)y0_lOdX#!7I8<&Jc2uZ3XX_GAmgnX{J0h+gZoV+r)SK3KK4ZL&jf
znJ(wi(u&vDbe99{209&Vca5pw<9uX|Xc2?3qN;@Kvt!oUN-IP%HZ{ooRth1Ls#~0v
zhjO%3Yw<OMD#%g1711o`u9z906hGN|c~*?MZf7F5ijXs7qpTUhqD7=WAkkHK%KU+p
z7*+Aqtxuln?^!c$ooTmHJz{X(6eX%1z(c-wqpY6@QJN@s2w1S@(>`yr{N11bfmV6{
ztJVMCv?^@Pqtt}bx77Jg{kL7(z#d}t=e_#w`8_<MDHs(|W%n^orCr=(Mi2zj8vKma
znu{35M-$kS@sa!FC+=mmkazR*w*B+>l8;65ubUA@aSYd>BfgqYnZMa^pWtkiED`uV
zMUKZQ5@|Gaw;>4w48D)-h}5CLFF`zDKDpN7)jD1hj+Y-PwlJ=UbOpXY47vW{b%BNT
zmH|#V7r0`b<Ey8(zmTZ9?&(UnC!Gi^yRlDUs~@f?7-=Y$r6AZTySn9LEV=BwmuBfn
zh?!^I)4jci_ba<5Yvmwo{wEUnxo7<$0gDzOvCKN+hyR#6vv8nVFpI%`hEdiNfb5gW
ztiAi@RV;_cOJi`U@D`I9puV>*)ouvFgb}|GCc%IJ$s}=jq>5D*XXuDr^-_dW7Il88
z?N!=GhQvSmB50=dQOe4Q^1V&FZGzqIYYn*qQ)S4mx=Et)-seeGb0?KD{`q2zsZ@;{
z*!c6n@(l3k<M{O2A%S+Eb+#X`&qeT_CE8FhOF^_#bF~|e5`p|)g7XnAUg&bqw1YD$
z82{b1L78~b|40Ns9sI8%@ck)*TL^W(`NvZ9qxVh#noqhJ&qa`Xc>G-_St{aO1gqcN
z(}t-i!;u^-&oHjMe<7y+X2Yv?<%tB!3Z`RmQC9GI*qVR!4j62K>`2hn{AmSrVMgL#
zR&-v3K71e9wUX0Ls_b;ShMpunB$B)}i8kGwUsR8<U)|4uMLdo_bADkIbhH1xH_8e+
zeu}_VI?65b)kNI674YdT-Z~+{Qyxuf+g|%+%&PU3nb<&Cfjmk;G^pbgRD1O|<NtFm
z`SZ>Hd$58M6Y8pq?mc$`_&TBv<pgz=L(fSW7uB!4eZGSRuRmp|WG<hiYxG3m!!Vla
z;g2!1WqIjdjjuKaJn>Zf)Tet@H`<R;ucn|ZETC$x`v{Lbq$KWJD$7+S?v;>_(`#{V
zOq(QCsZS~NIV{a(e^5qsKgVuCZkx{KI2i#+A?6>Fw@hi8MO5gxf9(2v>Cw2se)Y4O
zwZsj1x|p+lr)Se~J1brLzONq#y;G$EPmwBu_%ay=fCk*)7!^_^8du9#{($%KhNahA
zOqGB{qi`eY<FT^C2(KOWA18csES2$IL${Dag2jOT?*<;fbeT3OQCt{m&kRN7zGMJg
zbUkSsR4*RpXz<Y07UH0P9tcr}f{r?YLnT4~z5bIW&=cDYYX%a_?#CSwMOA4UXQ*px
zVp4i?=;aI&+0NmW*jjb-svR7In@xOu*xA)<6=MY)`s<y{0_HTWV_0NBGxJ&LyE5oS
z8xz&Kcg6C!zSS#4#twD4;k?zs2;N*evJlY6c?W-WV<C(23X!_;1Ia?*HX3bltk_8K
z0e7FNTHE7Z2|~AeVO<ybPq%aBq(cK#)d~=~UtQaZ`N3jgWbfw|YO&++Dg5{ljQ7~%
z!E_Sp2G8>Vt0A(zgVX`I_f4=QDte_r%AxBLtxam3**&<FwUSl&JVjPvMiBHF+Z{5v
z*}P+c_4IW*c@RxBGI*!JqVKM@me--c*^XCQD%H0dzEw&{1rKcTn4t0G8pM6sU`!#V
zm||_oWJA?s>NJYzOB%-b6K`+k!X6?VpYlo{DsU}{sQki6nhag!3wik3j{d8AAEAZ}
zL8gYYuRFYsM5E+Yoj)~6_?cBgKgf@jrsihbpiJ!Vk*z`#$h3?4Mj7RW_$W91ZBPGW
zAOEj={wMq8@9!QO-4AX7611-?)JcCm{ti>X&CIP;R;Xooc=H|e8eK(LHnYV39vs8(
zzRBdk-eSMF-ptwp^dTLsF&DU{=C))Bud(~6g-c<&7Ey*V<5MVk2TeGwk@obAm4Qo6
zY_jp_@ypVX5Sp6UA56xe8>-~^n=AIYQNRaXM&<)C)Gr}ZvGbw<jW^XeMLsrJ;NrOB
z6o?&(9F|srRBT+h7CepP!J!gqWWwD}^U`Mc`TdhGlcc&8{VBFnhDhEYGn!zeu}(Zz
z-8riiuwzt0eo*+dEixPIAhEpcdpF%Y|De84<jV{AXBE=}qoy{ZhX#M~62R}XB=4s`
zhq9uA85+t<NKjAwYnH^s#vXDW%B-UPi1iKr1JlpvhgonZeJj5XOJuTf*5g5Af*y%0
zSlnpzgxs<t?X=^Y?dvNlXnRueo=$)(tcc{jeXP%doI-u!K!;mm--9n0Lw*%<(qV2J
z<^xl+np5g9+B!j#CM-NLBzQstW?7Ekq#i0d>uW3)0uTSvF3={$F-@u0?mb3n8?_jr
zBWdV|6@b$+3=Us1XFD*3dg}|*;D%>nVF|e?^Z4~!0bcy*4S4XDK8~Osk-VgsvQ!^W
zHug+^q*o5KaO=Qw_eiWL>AvVxFop$t6PxopKRcDDo(Qh*pPe|jjVSu-qUh6(@|yW)
z!fR=dB$&A|M483d(#sa(cS-qV!3)qQd9rU=;gk+XYF<Q4#YaTaMdF2r|H>%Q&^ZAY
zXXSq#(Yfqu{}S@=13PL;=hXjx9^!(20HvnO(-FT>U;OXO;{q4d8>oEd9}W-v3RDt>
z^v4Xs1*kKsHT!=D{W%Ko&p}WA5$Mm8{mY=2kLE8p^+zRaC{8a9>MxUCJ|Vpz<ws3k
zp-3;EmtF?A+>pKiz(e(?Q2>7~DJ~OV?wVc@XQGB;ekcB05A`z2<zCGNN;2s$QGV98
z{~X1R{Ff*{%frhkmpcp>yvS2tM)_sG;WFUmg8c$ek?MZ{yeQu<170qFF94NM?aRN)
z{7)QS6vLMR|5{95zyScN)IS0LO=)=<=dVS^pK-iV$M?S|IW7bIHU0TB04p5;@TX+x
j55j*J5iUrT8GjKU)ReGLGX($uDeC74<+Yhi=Xd`Hcke6D

literal 0
HcmV?d00001

diff --git a/data/Linux/log_matrix.npy b/data/Linux/log_matrix.npy
new file mode 100644
index 0000000000000000000000000000000000000000..5e371a5dd30336c7b24a97ce08e387b365f54ee9
GIT binary patch
literal 318256
zcmeHQ%Z?=1ac%Diueg|n7Fsk0f`=vuLej_@N;bsM!XjY92EC9CK?{?%hVa6W3{ud>
zFfjk1AJC`hlk^Ezcg3mcx>Hq|ac{)Uh^(UpPi1C2PMo+$+1=Aa{{EkT{!gF(;xF!g
zclW<9e)amB|NQ#JkMCdn-B+Ky_~`z{SHJoCw_ktx>wo{v*S~uGaQ|mt{`WVp|9t<O
z|N8QOUjO;}gO@K~eRTi5?|t&uAKm}oeb@i~@^0vVfBJMN{q7Sv&Hqkwefo6$)hnku
z>pL=X*9zb~0gDbh>enAO^LzQVty@%H($1m)&M7bpFC&jpzy57Azn5Rzy2h~>P6bXC
z5WNJRJ}q-azm{1QiH;~BnhYGNwPCKeU%f`*`_)TH)_GJwR0p75Rs;IA+Q!JYO99a=
zU{{gtljzs&cR&Uc6cFtJoX|3&#i(CD4w^rzZiI%cSwI1tQ(ytg=O~W)^;yvTQFYI0
zz<W2K0M03}=*aYI(Z!LrO##txpe;L1^r&Cc3_>DQ;F<!W4}sTW6F;M06EBC<{1gx^
z1@x;twG#b0Rc<!hN&(Tvz^!-;_N8A31!Q^+1w?5AYp{NYWfi~P7uWe6;dx`O0ysaw
zx!v8m(XVb&vQTCPM9Bd&bG^cie!U_NAMHm0(NTa!C!=4BE{?Qq3W$aSZP{s}z5MD`
z=aMk|{`HbFyuU_)_v8=-T$7VA#>;13buMYd-zUDL4DYW|06qn-$;lWq>NEWNBu4AB
z+Mq7(|3vVKNCoT)z^6cah4UHS=l*<`w|7VT!B?Yo-ZDCTLS5XaU!erCM*;X0*i++N
zj`z7g*W>BE(SGpNXq~5=9zLTk?(^Tj1|^6+3c#npo*L(JywCl)9#8L$_JglR>pbQ3
z@ELV+pMHfB#2y9UQ(#Yxb2;AU{#=iz_eT4{SEF^Fa(eiTy0}ljLJ4Az0`MuYr^dM)
z?{j~y$J2YG{ot$7I!`%0d`4Z|r(dB2u}1;;6xdVaT#om-KiA{wz0rQHub$Q(`P|m!
zpXZFI$=o|p4S-IPjQYn)W3*rED{KEt@oioD^^#J&ze)koDB!B3<)BgjEO$7KnBDKR
zJFlp~Bn3qK04KHeZgVSs#hgHI9a+yufw29E@&o$Non9qOpXrlaZ-_a8*Q5D#D+R*#
zBRUaqs{sf5hUqiN%R3!&0=?_Ao{s`y`w`^_^r1VwN|-*=C%N7ba{{kN^XXO!gzZOk
zBH&g74)zVxXONe7I_3m=*JnK+1;X|t$`9y6cY2jDeWp)xy&>iVUXSL}trQ5`kLX0e
ztp*(I8>Y`7FYk2B3G}YddOiw-?MIX!(1-5yDq;FepX7Q&%n7_6&8J%_5VjxDiGW)T
zIM_E#pFv)2`Ule9;q@LAn0Eefet<>Ao2J*GKJ@FLfJxJ*oj*|lfJyaOqBW{l`+L4i
z{nkEj>(Z}lm8%sudj3{VD;f!0otP_dRIk=oUemR8=~pjhbJZC=f2*evjRdYv%oRAQ
zSL-XU>Ds#VtCzC5>WrSh)zgSZ0#_&I3LMp|^_ACjZC(1+OW9m?M$g~sX+$G|s}pkt
zj_TF=%4@o|F8%7IY_2+^=Wq2iqLIMWiMawt^=f_PHC<bme)Uo|SDn%Gw|W}UNZ{(k
zT!Eu{wZ8J2E~>5<Kh`OxfGA&JG5VlOzd{M(t`!iS4p?;9QNLpBZxz=8a}al`0L~|{
z=$Q0t(Z!LrO##txpe;L1H2s=p6(ka=fM{`GWUs*5^lPBFES*OIQ7XVZ%uGz^SCd=}
zuBw12abVFo=+~l)BW;@kqTxVWcADr>zv9nH@$=zVPI{nj8lgy}wgNbpz@pQ5`4!{S
zuTX-RN&!(ez*OYclc8VNYsJXI3W#zC79FLEU%lSjMb|{yqY8)?0FKt%D4%}aNO-oL
ztAJ=b;N0$R-RM_0DOo790;1%AnYmu!M!#MWhmZE7faoZ|qLX>~6@UKX^?fGlK~}H2
zs7Jgp1w`is79D@ougGuxH7W<{q7MBEC5T-Lh-Lx1ifo_M`ohWx`Shz*ImS;_K(rfh
zYIDD4@LO+1<kPRc3Nmks0-{}jQ=0lWf!}&7BR|@&z5JL*1s)X;)d8rN)c}6$<&Av$
zwO2vrO;JF!3vfzP|0eKTZ)N1uue}N~Z;Aq<U4T=X`Zs~!dMhIzetj;zl}__e_w+8W
zs6eLzqItm1GFzv4`{H?VJ+|Hl`v)n2a|sM;6J3^mjaHcTQz#(H0+@o7odo@A*Nhnj
z6%geNEI7ggW%{+~;z--3fM__-mYpV=eoeCq5{Xnmv^X%bS72@WHBelZ&ZB@R6<{7_
zCMH$<`eAXMO-o_0zXCWvK>rR?Dth}hiZuNirR<H=6`d1UbZq*y=;BD*rhsTT(3YJh
zdepD@y(aI0+PZwddMkWm^+e|d79F2{ExI_;wkaSQ4zy*biLT<;PmAlEX5qI=1m_1>
zR0sOC=;BD*rhsTT(3YJhntn~Q3KEG_K(sh8vR7bj`ZZ8omd>MqC>3BHW+o=|t4S^f
zS5-iiII!p(^lQ<@k+w|%(Qu$GJ5BVcUuO+6`txDT37o~7eQXMZ?MIXc&_*jwbeKNQ
z6Vk8Ff+j5&b{<6s1}2?<iB_0COO1`sM}NNwa{`U+89qsYu>FV*0Gu?BcbhPMoQcw}
z&VnW_7j_;+2L>jce~DI@K1+>_&*@jAU`4~j&ZDRxK<blP0h|M1YO*&>E^I%dq5_L*
z9Hvh)JuoLQ89mZb1;X|t+5o7R)gVltWI|w0U^057qY8xWN3;P@FRMYAKGlRE-+e0}
zIv%j-wBCMwR$PywYb5O@1#m8bOYupc)2~SvLt4HHh?WETR-aalew`*Y8*Qn8Xmj9}
zTn2j6uLI&SwT=R!RDpGvpD?9gPvqdmUKJ1>3|Mqd`nBldNZY1>XgJW8ohF)oO|uFT
ziBv$eI54tTU~T#}P+XSIqkt$CU>;^BCf<I1UR)28cnq$i0L~?_4)YVH^y`Tnyx6M(
zqJsg8&Pl%(T^woK6c7yu+OpF`)30e(K_Za~h!zJ%_6n>`zXpoS(s>jRr2@>u%*15W
zukG*mzjV^0t!o;J!Bn7CK=cN%eO~06el4;n(i~GjG#xlrZL{nuetlJ3=gk((#s>v(
zet<=F@%C%`-&yXJrTu!Ce(hC~d5;Q+>HyTsYT)hHA2{jJ`t>uXy4ChWzD^3@`~aQG
z&MxEZ*Eiy%N8{Hw|KL=2w!Z9_L;;*1U=mtZ8uY7GF~*lvK$JDG<Pdjv&VIe~`aYBI
z*P;h1D{c4`n3d-OuTj6Y<-Ppc)aBR1jUc=<Dj*sUG^S?>r(d&df;>VM5UmajZ5CI&
zh+pr1Qe5Y_4YKko1#o_VtCI2s(XaV-LPh}!h}HxKw3t!S+pkfazg=ACC|y{0r2;rV
zz?Es)!bbgiA2fed-E8`k&m;wKPJxr!dbgopy%lA>lnRKl0;VLnOlqxP@xJ@GnHTrb
zseO+7R&489^Y<1X^yg%Ilj-t2qK|-=BU3-2UsJE=NRECzO40S<139DtyNV=8^7iYG
zRF~1w_<lWAkbXVY!+Hgu0<HO3;_25co4C${e!Z^G($nwCAp*D*pY?eazux+Jz4iG=
z{R5u@N9%2s@9ft%KNX)z+OLOi{k-1#{G+D|e=i$2T5qfTQNK34-Td0rb^CiiZQUx@
z^y}EB;8WmOwe7O$*X^{obf#Y|YP}l^p90^FsBvelU)N3(r3cUJ+6^%7oB}wPz;iJb
z?$NImwnUDj3gF)Z2pp}qRlc`hqx9hWb*mGykG|iR!yLe>Q;qty^=EtCt4mvle(hC~
zc@GMFBnKUUhpT%3tm4;t%93#=1@Qm>z)ajMT)h2i>3uD>x~|t|<Fok+;5-56Gw|t1
zzxwFND!CPaPl37FUS>zXUe<<B_M-rN3amOA{aST%<ZV#^J_TBGGsV)cnYKYLQ3}AP
zz^Fdab?Mh=g;_s^0-`K{DM;B#jQZ8yahnXx3EYMSyDljZwja^Xz$GF{pNHv_Y+lR>
zOh%7%RDrPlh&BM~Wi<%X$61Kc-*3X4KxcX^=cGW`enbfZo%qf!6Q+;zAoQ!Vph?Sx
zok!7ufl23Iq7|mkQe)$D`qd~{(eSYIC@Kh$`h+S#zlO@2ra1k2eHCH)TyJZB`k9zh
zP7*LD@Z=#c(kKwNAJGwkX(qN23Dd_$V=<b3U6g1S0b%D+R32bawZimq)??JK&U9F=
zngXJPfz|jcU;4G^;z--3fM__-mYpWr+pq5h=`s5ArZj?+$TkY#TmrXYG2FF^U-|X$
z@TzaSfav(ZqH55uMHfffHU&h(fwt^4(cXTI`tOtQ{hH>;)FdKG8(4FSyDEO=_pe0{
zSQgswDKHB!BM<u3C>X<QDj-T5SaS-#UyJUIw2cag#siJ%S;F~#&9Vvd2vtC|Ixw_Z
zTybx|ei)<&zkiK812<6_=Mq?S=uy8uYv%XzYg?CoEqcJR(8f6hX5nSzLBARWV|Yyk
zL}>$SPBHxRruIGPB|}@6?^iEnZ?ul++`ytTc)wr0WT0QYlw_Sp1w?fK>SZ<X_G|02
zUOn16e82W8$-GAeM0Eh_Wi_B*t8I*YyA%-30(KSIK8b$aeg|YQK>^VozzHoQTF|c%
zs<LJ}1w<JE(-B-pXw<K5m-hS4_BpSqz$OZab_H%iV!SE+I<6rr6i`5vBd`GFa}=xi
zl|LUow>{olt$=7GaCKs?K>9V;KFB6W0nxg^pf=HEz5N=+m+#joWpAXe=$yc!W7Dri
z7f0GQ1w_Mvwruz4Uf=cRxeu^Vu=oA?zAO|DdR#@<pz+OR+dX;f_goH??iIc3AF8ka
zXK(-By!Fg{BI#Ej9kW)UU)ODB)UU11>$)ySwRP#&Wz8x_wEG@Cm#r4h<#6ZL-><FC
ztxmnyZQT!4Z)?4_jy1nG-ut}u@~D#6?#Wxf=W<YjevLU1?f&T37@f0JZTC&Tp5M%<
zF0IbzyV&oxbw3q*jfaf3PG1#!)~K%bj<qw|J$dW*Tn_s1{Tg#l+Wpb5F*;|d+U}cv
zJ-?YzU0R*bcd_4X>(Z}w4J&1|`yM@)?d;Fxa3{<AwdJ?=dQ_KI=e2#8;@Y~seqHLr
z=QpB&=$yc!W7Dri7f0GQ1w_Mvw(K;~qkf$=2;Z->l-_9{(Yb&{$E@Plm&J81dOY?+
z8|MdDbh0SFw%>n_%0s`7DtP1hqVofb%2CCyMdc;!EDDGc0cPQ4<Uzk01!H(k1w?5B
zYfdrz-{ZJ6w)fY=m-_HN6<DQ!XcTZ&QobO*U-RvRi~<x8tqBZhF{5M^zxMupx)~a>
zM*#&yIRXn%K1Z>NUq3Id^EvH#Z=wP?KfsBtJzLSQo@%mIS_MRz0n-w_PR!e{-wD!#
z@7L>l<kJNOa4vxh;aMLS@#`OdUR>v_`@b1pI6uImgVV1?7f0GQ1w_Mvw(K;~Mg02a
zmxDTEPGFh^kjRMwVf(@P0iJZNbK$K|(D$!@_+n6J%n7Wsq1$2_wjZ1yU{P7U^$GGT
z->*f_mzB2nc|7(P{RBKdsP(~HpCG^9{oA0<m=joQOSi)|Y(F?Zz@n0R>+_2sJ?Ph>
z2h2#@`#c`o<6Hud4{CjI*5}Q?2I)b+);d?cY@N^JTN*f*z_(9IeR9?(%CGV-gF0hQ
zV5ueD5ZSQ(;QRoKYU->H{aW-KWTEYR9^Z~7`Vsi{NvTiX`b2&I`dM+EOC5?mlEwJ}
z7M-z*U-|dxiXN~mwBb`=7G6dky?(uv=k<PV>$iSwpBu+!_^l}*Ixw*4{JrP?QeKo_
zTX`?_Z{v7P1s)X;)d8rN)u8v>U&{0PeThr;q3_aj#1W~$qXMEj0QIsO^q%`mc|UN{
z<5GR-yYw7!L@My8fT#{Yy{rbk=l)V2{aWn=+z4OMIe|sTzT~^5aW3W2uS?4D`6dd8
zb_H%iV!Y`k-z`<Xl*jL1mz3l4O%xFA3fzRmc+*S1TdI61kMGwd<@kIP1w^|7Hz6_J
z^pfv-D|`91w?Ff!z*z-E?*h*T<-bY4=HC$+Iw&Ao1L#n4ixS>`_4@vG3oY1l#|ntf
z1}r)%{aSQ!q-|3`G#qHlP7_VPrdb7vL@FR!92nUvur~b~C@xFqQ9zUmFb^{m6K}to
znlqRR%u+zK5pY&t=RWkSv!E=OQvp$0z?>`>S<$bH5;0&83WyE?EIJeYT6A%wZBsxr
z9B9i<6HULSSp|s%D)3AW#espXLQB)Hq4KhL5(VH>U=mtp8uY7KGA0yM06qm49O02N
z{aST%<ZV#^J_TBGGsV)cnYKYLQ3}APz^Fdab?Mh=g;_s?0`Ms?1E(Gi^lOi5%&DdT
zd<v|_AAIRoC_&t_0`MuY>a5;=y_c#=koT??z_|n#9hQDAx;WCdDIgjSv}LD>reD*n
zf<z(}5G@Xj>=jts+ppg*u1BEMEWM=yIG4aJxeWBCUkAivY8?ecsRHXTKVeG0p2)$A
zy(%C&7_jJ^^lQ<@k+w|%(Qu$GJ598=U-|DdO|x1Od8&Zu1@P&!LZ9i^Ldzo6eg#BR
zf&G;>&7@y9m7mRLDInSiIIFL7pDKR+VR4<E*T!;I1#o_V*8C*#-hPc5i++t#_D1T8
z&Iv3!HvL+3ainciKr|d^%T5zr#IJ9DR$S*a3%^w&I6uImI?%607f0GQ1w_Mvw(K;~
z^lO?`kVvEgqQ!xcy#i~~uYuySbRGpnsQ~jZGcloGO>!}~ssf_Kfko#i;@7)Z#dR)v
zJoZBy=LcAHGWxaX;z--3fM__-mYpWLieG;;s59mSrda@qoG1{sADkcHN!L0TVfy$=
z@a7)}b;g`PUwW+Or9jwzaDISZgeTYW*5|z-Jw6|-i#dUlWoEmT3WV(k=LfiwPqr{`
zeS-Y@=9hyyV@_bUJ&?~qfw2AH`~Zsz?yXOdU;psMpw5^RSae;xryaH*oF8COCB5~b
zUyB}uB(%NH<8ds}Pr&1YS|7ai3G(X~Uk&PvIf1pdbUSRr_Ji{SEGntDKJ;tRgOG%_
z_jx>yCHe_?d{FCyw?09By?b3;=US&?hiq|vfJH|v;@A8CD6VtS<FOywI6uImlX?3!
zN`^0s>l~#E>#kG)=LfhlEn8R-zy5Lb_a(CFPCk<r5bXz?+}^7l{pzJ8>!emdlpQcN
z*~{eU*UQ@Q$&M5dodsBQv{AoC{r5N8x_?t#=c31BKeTavfJG;xUyCk|v~3EAh68Qc
zX`-w6HH}~-Qd0p@+Q6Dq+<E)8{W`W+7Oy(J{h7Bj1w`io79Ed%ExI_;wkaSQ4zy*b
ziKbuEtb#-$6%Z{BjO-Oyn|=)xm!<P4AW8+8hna~9{c4hn!BrIyB@Qe)$EaW1vH5eN
zRuNvOP(YLgFa;?)3HsHp88ZqhAj%n7aD)fS^lQ<@k+w|%(Qu$GJ598=U(*amB2?h1
z0-_hdr_Ty~re6y!i&Xm+5KRU4SK2g_e%(}lHlL+{Xd~dPzRrE<S7$+4E~f&bw17ET
zF0!Iu7bRlA9uyEA0$6mWQNKP5nm?*;(KV6wr~){rz|nde<$L?}eJ4HW*NqOuUfbea
z0*lT`zZP8_Y1<SK4F}q?(?rv+X;wiZkqU?w2S)Y^tX;*guZrs&xI&g*qX5nia7|9a
z82UBgQb@^P0nw5`{|-|sdi(WTPI|OIZ{quP%5m6l6P!z6(MjpoqKhMKn*yTYKwEa2
z=uyA6gLu7P+q!(ewu<oDq=0BN(3G4f*xRpnL3+@ydCp8pCODVCl0*3a{a5<6=t0;!
zZTJ*eblxiO*P`;0b`}Lhi2$?kGV-Y6SAIQgTr9&+6%f4yo<1#eMZcC=6^V{0Aesyu
zskLFQyI+H5;rlg6*jp(pIw-K{+*SPgS#h0<9*_Od#`ysjos51hx;WCdDIgjSv}LD>
zreD*nf<z(}5G@Xj>=js>ehn0trSm8tN(GpQnTZMgYLbh=RTU5=4lFu{w_m;ML00~J
z7)lVk6cEh<b`{w^$=hGv^`H>_3MGhL3W#O_yNYa|<n1r-dQgadg%ZRr1w^xeT}8G}
z^7hwX71v|?jgUcz0yvkzkS6g(>DPFT*&%@fq8xw;DD_Y{`qgQUsP`+s9`4yLbB+q&
zd;^aUYJIpBzhX{ctu5US+pztJY6vVU=}{l2Ilk*ur<HT`{faq(ZGB$nP#|nSqVoZB
zjB93b)W>O#kDcnYgV3+7BKy2Po=5NTL<<7F>rbk8)W>O#D8K&wAV16roFp&X7!?TH
z56%zJ$SX_uQ6Hx{=+`Wpt;yqf9=++~d;`7fPpWs+$7zoC-}CJ?2H&q<O6IO}JdfTq
zMGFGG>rbk8)W>NK`gPLccG~869=+$o`38E|pH$CVpD4e+9Ml<e0w>AKHbw=)_Ji{S
zH1f(4?yXN&zh=>!JT_85v@dWY8l!E!{W{9$QvT@oub1lb{*5RgIw!E`*z{}B#gVp6
z0nu=vEjvwg6~B)DzC;?qixBxxiV$5(6Y~Jq<|T`xUz05)37x3lE8T27(ayllh>SI+
zU&r*@Yc~CwbF)?an(gOJ?@P{oda<Hkos@JwC-iIIUg+08-8RdDZ-BFiIQJ{!SNYs|
z?$LG8ucHc1&d2!y&T8-6&)ct2KgZ?Q!?O<9p%1?vcG8=EbrN!{%--LxQGd^BO!a|m
z(Olp_DO0L*KfYg0>K}vm?$<l#b9NMNs}Gn5IE#mKKl-(Aal7|xpDcN^;2Yp9rq2E7
z*S^KkuYJ00mIdDcXAyDkSH-VUKgXK2Hul+A0r&>EF`eG_^lPtj%qyjUC|h7D@^8sj
z@#|a0{6qyh6cEh;c9h7F;_cTAGm!%oct-)zJHU4WYTT&e*D5?~Z2bmVip~s7A_2~|
z6+!<}9-dqAJ<$xsOZD6P=+oZE_0sb;4)H)d@5QA$OV6!+z3VOYpVbe2fZ)|$<9;t5
V|2$bx`GCFkkcVoxZt>mc{|^{f0q_6-

literal 0
HcmV?d00001

diff --git a/data/Linux/mal_matrix.npy b/data/Linux/mal_matrix.npy
new file mode 100644
index 0000000000000000000000000000000000000000..fbcc8f287ef998454b4b8b8df41c795eb43bc1a0
GIT binary patch
literal 695696
zcmeI*%dRCyR>tweti-4WHSoZL(w1cxrIO`K`$FT!tJP|^1Ol1?14hWA-C}@fWFsaB
zsosGX^&?<A<J+zsXRnONTV!1R9(Yw|Mn=T?MV=k&>~s6SzyGJd`~5%v*~5Q7{Lg!T
z_~yHR{r0_IK7a3vKYsq+tLN|i@lW6W*SBB)$G`mP+dq8s<N2??{`c>``QiL`|MvBN
ze)Gfei;qA4?A7y+KKcAFUOoTc=d1qv^M{}Q`~J%*KC|0nomWg<S3Bao<5r)kcm9t6
z0tg_0z%c?(Z0gtBuc!y+eLT0l&mXh;^ojri2q1vKB=FRx=<Q$B1M@zf+ur9N66=&2
zZ_0xIBY*$`2q17@fO=qZN$sa+U#A|p|NL?m0R#|0U>^b1150~5dw(2leCmOvPblpX
zKmY**mI$n^2Xe<4ZQnjB->vmP?!0o>m39aqfB*u02~ZDA>zTV>p4E<eps$ZRvOxd=
z1gaCT>SlE6gwERUQ{z$(ocdTWI06VD(7k~6q3#oHJwcli(0UyeTW4ba2q1s}0_y~{
zudKV9yNU_eG?Lcqs8}o?20{P<1Q0*~f#L$W^+WNAF(3j6Ab<b@2ow{b9w<i5KnNg!
z00Ib9D?mL^?b0wY1Q0*~0R*ZOpl+ycNth4<2p~{IK(GHr24j%w1@t@|6{`nef(Rgh
zz@P$p-5)f4(vAf5JRB9H;W$J90R#}JL_n|ml}v|eoGhT{;i!0WdJK;M0tg`B2<Ua+
zxy<Ro1oS){6$j%aT?7z7pdA5gXR6Hfc!8tp0I%QUGhze;5I_KdECI`EMWaCkynVa2
z^Mfo0X(E6C0>uQLS+SuQXp2Chb*gROKYKo<{*F{C&n=G*_acA*0yzTI135|+w6O~2
z@WvEU`&Td5YpDlvJ>OU&{)qqr2rLqKYKxlF_$+}=)+u*itEC<Fz*!GG<061SX#whi
z(&8(}vz7N%c3Um`eC|A`2P%7jm<|F6940_La2V~r9oxR$oz+|JK3q#X>VdPK6vjmW
zfzkrh1Es}Rj%O?HtL(N~_W9g-P!Cl005Kf|5I9WWi5=E89q%c?I^AgI?&n+EQ4id(
zbASK>9ScwoG_ttX$UF;8bL&2zdq4F+p#^0a1Q0*~0R#|83S`$W$)0F{00IagP=f&P
z$JDS2{my~9q2IM7GXxOmOMrTyul1}g8|s1DR)qN=fB*vb1*iw^yKr_N0qTK$9O(rC
z1Q0k{fO_C);j#Ot9vFN5$sPd&+7X~0XlJcjoGJA{i>t<*5kO!>0qTJfSG`=$)C1+L
z83_Rd5ZEF>J+MWOds70`11TY{BY*$`bqG)o)Ugh|&VqWN*OetN1Q0-=jDYr$cr@>P
z+>Yb61hlSa#kRDVEdmH2Fphxsg*apHeB6%Xwgj}UXT`R(m@NVbAh5rHUVr!Rd0UU(
zyu9<<M&s_Y1+=bPW9siaq^@rrf9w5cuLI*FfWWu{di|<Rz?+wMzP9-@pJf7C*R3(N
z->0r`9e?Zn%hYI%00Ic?C!p7_{d(M|CvRTf`F%#Em$L-4u3KYjzfWD?I{w!C&+=zn
z1Q0+#uV1xEc=Phk*EWCVvrItix;3Wu`_%QV<8QrxnHsGTKmdXL1oZl~Uyu9r<ju=F
zzt5=ja+ZMBb!$xR_o?e!$KQJYS^kWR00Ic;^{X}sZ(iQ{+UC!EmI-KGx5m_dpSr$v
z{H^ydQ=>Hk2=pwV*OO8?mL9KEUW_xQK<at+uIqg5am-aEYXrs=(CbmD>`RYVDlf(v
zQy}#`d)IZo_BiIMk~IQj3h4D{%<Rb;fw2Yj@t=yRuX~KGNcITyA)wcRKC&ST1Q1vv
zppXAlq#jtJN?Qcl6wvEHo3m%u2q3UUKp+39NIkGcnR^jvLqM+sZOoQgB7nf20{Zw*
zMe2b))#(d?ItBDPQ0MHJ6#@txDWH%4RHPm_auw(sfjR{AI#9=Km<0j|loZg%e=1TB
zlw1|YI!oZCoi*~9<LY&%w(M)2S8Yzrr!N6L_lj|L*Yg&xI8p8Pj;T6i@A2aPVh@h{
z7N8y|yT1B(D?4g>v|8tto;fWLSTCUGUNO~^+Lemb1F03^`kn&R1AA(w`_k)3x@FlG
zwa%-o0;7#4pyysOmA~4Riqr$C72*1x0w36(z0p@nK(8aIcBQY^I<L|Wj5n5mo_obq
z_G(uuo?Q<t%~PLW>b{gG*Xt6X9w@sWwSJt`I<K;;!)T)k=($%+<*#<7BK1IOMYz7F
z0QJD0n(4muI+AW#wneS;DyzU~qY3D_S4`!vcBLZqKx##}zNY~7z@D1vzVtehZdtZP
zt@A3Yz-Xfh=($%+<*#<7BK1IOMYz7Fz=yVHZ}gQC(CbL5UFqw!&a1Qo<BcVt=Uy?D
zz1o$Et<?h`+a#FsNjY=<9D%2H&bW+<00IagP`5y8UyrYUYEwS(`K8BotMofN>VbaO
zmdp@90D&z6OZRc=fi2qS-%CAk{u(d?1Q0-=Mgi)98dv4GIcdF*8-bn?KmY**Mi98z
zZI;?!md4v&I4UKebt*L;;~;<l0toaeaIxFGw7)Ekx4m#wN<iyWYCOh4009IL=u_Zg
zw|QxQSsHJ9;i!~=)~VEZj8mro&q1B*!mJQjBXHLDg<b4+wt8LJJKm1M5dsM8DWH$n
zJ^Q3D1Q0k!;H-K;zb_#-YrXC)jk*2P4gmy~3+Ur<`JLQ>00OlMyk)h`XxV)9dgR3?
zjpw&agVqR?70}0B*-;q{0R)Z^pdL6vl|B&|Lx6f<jCCf<F$Aaw##m>vMBoSk>VYFv
z=@Wr-1gHnjac5KndJv!<=wTJf0f9+?dVnVZ0R+|xP!Ft?<30rH6L@9y&1uPu^m^pQ
z=Z)vL#Dca6Ab<b@2&@%&$JXB2#(mTSZLAZsL;wK<5I9$Wdf;4tMn?bv1Q0-=1_Axu
z;Tq<0GY7jlT7B>`^rNpQtnP>#5kLR|1Q6(0fO??g#XTT3)m5qZ%%;KB?trP#B?1T_
zfWVFd+4X>hK^1qL!`-fS8Yg~#K>Jf1@6Lgfj|5^j@0fbv5gjKGKmdWN1*iwAUY_bE
z=k5RTdFp}cmW~M_fB*us0@MSuJY0+fwD0ThLg+Y-aXk=U-|IM<9)}1ZfB*t31+stt
zfQ11RSB{r`+fL)?=M7W)Pxib9ZzxCVfx#aH(nkP+?gXd@x?9pi6QUkCl$XvCKmdW$
z1gHm2qi=HH+Ufz#XKie95tuXr2q18#fQ7*o&z#GKvAum`LzhF{D!*F3UZDA`jYBOS
z$s&LN0(%Hp=tOakK2PYw+c!>_O4~!)vgv#7XP;k|1+5W4009ILK;TBeZjO=%XYc#o
z_{oXW009ILKmY**d;#+>-MixL$7i3vH&@OffB*srAb>zy0$b~ewz6fm2q1s}0tg^*
zPk?&ho(ks>KmY**5Ex5<dSI;eCR+p$KmdWd1hfy=HLLZrQ9f~8-y?S-fB*srv?!o`
zpvAeLGG{ww)WZhV`sc>fMAT2J9oG>+009K*65#cF;d<D@_LVo+`sc<}I_f9Yj_U{@
zfB*t@3Gn*8a6N2c`^uYZ{c~d~9rcrH$8`h{KmdWd1bF>kxE{8!edW!y{<$%gj`~Tp
z<2nKeAb>z!0=#}NTn}5=zVhZ;|J;~LNByMQaUB5!5I~?V0baisu7@pbUwLz_e{M{r
zqkdBDxQ+k<2p~|G0I%N**TWXJue`a|KR2e*Q9r46Tt@%_1Q4i8fY<M3>oJO#^4uDi
z>Czej1Q0*~fi?uRKejR3{b#BCy{Hkr>r2n8KOzDMAb<b@H3?`xt7%Rp=c4?*sJVF8
zm!4ODL<A5(009JQ63~8D)0|4qMfrPCbMdY(J+J<V2q1s}0tnP3p#7|-IhCA?^7o?V
z;$2^QUi}dfKmY**5U5E&`&mtMDmfSB??uhUyT0_i`XeHM00IagP?Lc6vzq2qaxTi>
zi<*mfz0~;!n`W~2cyWF@CL(|U0tk#Hp#5d6tbfi{`Fl|<z3ZjUQx9k*hzKBn00Kt{
zJh3Bs?YGZT`+q#nQT0GPPHV?{(&BmRJP`o|5YX!b5(xoIT<7wx0(vf&M(TlS8Dcjr
zj(1+yi3lJtu7F-2#udoRoc9Ovoc3xZZ#|#6@u^KS$Zb!%WnNlex#?JSn2zJ?@v+(|
z#@BO?)$XXM`4JHqK|mizBjmazN9{9P`rzJt0eS2B%#CaB%k7_b(;CJOst4lp-m#tp
z@4C*%?c!s#Yb9#_iki2Mi3pr2!1I`=uYD%3HLbP^$Xm~6Zd`j`ZvV8KRyKB^9=PxF
z$SL~3(DmpvhX|Y^!1I{Lu6-u2HLbP^=<5ZG`?2W`J=corN5{nbPHSDL2l71i94g9N
z$3z6q6ySNx)2ANDbK0xb)_P#Cd8nWG<3z{AAY@a_^@v@)`{H)-v3Fms=QV#t%~Quj
z1kM!TdCb$N9>{ars}=RYB&m<j+9U4|<gHiy@u78%&vT5x83H_ynd+9=j%K?E)K(Ad
zlGKTvcpv9Fzcntc2iA@!!nOCGeV^v9=*>shi3pq_py%?8v6~pvnwVublcXNlcPYJ(
zZ=K&7sRyR@N;$@>>a~yCag0Do0X>%`$7C!75a?SVeqGUV9HpT1-m%WN5|xi)Ja3(k
zW898o1WF3%c`P|*OJm_vcC~8t_U7fCFRRwhXt`dw?b^xw{!Eo;sd#@DoJC*~&~u2#
zeF1##yBu}4R&Q@!-ua_^TJJa4E4N)Q9?JLV*t!?<KUP4`-?5{#+xt7#?%em7dGY6?
zQg6?}JHLm0kA38N<+iKcD49oi-qo(QsP7L^^ya7QUi9wUdS2sg?PuxzwLf=j=O>4?
z_xFC^2iALr^Z6BjK5F%L=2hHhez~f@n(LL@uJ(kJd4%Um?P`nKZxy}y>ADxa`?j9f
zcw74^b^lvoy=#4L<xuPV&Ysstm9O8?KE<DpTD_fl756!M!4K{~*DJT(!PDK`eKHT5
zhETiOqV`)wZ+^P&Men|?=QZBeeoEc{GOV{AERCz<vtw=ZIol&1pL!q`Ir!KP?tg9f
z&b;{eSqnPGeW~XozOLh1qV`)wZ(h3YMen|?=QZBeeoEc{Nq8MuI^Gx`E%j$fJy3X!
z!pBSDQIo@YzZXFt*U1iOFr+~0`G~LUxR$8>R?(Z6u6xnDZ|ixDx3r&&O^@T!`?j|K
zw9vS3hjFGX`Tt%5)B}4-X7*#5?Fu)e9w-dn$#B{~ymaF0I<6&Zzg6_+rR!ew?%R4^
z<1OvyGn-aq>3v(<m#PQe4f%P`9p~2xd^otPp8s`v%kL^ZUiJ(Je-5&pXm}%#dY)6)
zZ#vuIK;z{`?YD~FeY);N@4l_)HQv&Gs0Vg<m<H^EdZ6s0>*KoYs2QVKMjM(S5DBE7
z=hXG6yUm9hFE?txRrK!DbuW7NZ9T8?mi9wEu=!CMvV-R~WZEPh3-BDoA{-;otbpFP
zUz@<v`a|tCu8xn2e7#`p$|ml!#C0wYA)t@jA(ACY1UeVczFay@{XQGLo*Wga2THFj
z<BcSskK2)QCRYS{75LoF$?OuwjbBf6tnXXa@!I&p87DXEcwF8m&y}Oy2m<=}7$H}3
zM4)$p?0Ue0gyKe+<m-qtj_%8iaXsMO=cN<3*Y{hfUh(eZJOT(HfB*t530y35wrZ!C
zdE4q{JB{-+^b_yv@v%40xE=L?C&hUL5I_KdrUfi>_G+h?dE4q{JB<_X=iae5&$vDH
zfG5Ry1Q0*~fu;p4bM|Vdn0edkW;=}&@8{mJH_x~|^?)bEc?1wZ0D-0jEOYj1r<i%$
z>SjBQ6YuBVu{Y1SJ@tSm#d!n}KmdWJ1uS#+YNwca+v;XJjT7(Z-my2&xIOiNC&hUL
z5I_KdrUfi>_G+h?dE4q{JB<_X=iae5&$vDHfG5Ry1Q0*~fguDeWU1I_(((ST<J@%K
z5Bc-+hPh(2LjVB;5I~?`0e&x0ziUfo2q1s}0tn;^P!Hrv(GCFw5I_Kd{si>*5Po6(
z<wiybAb<b@2q2IrKs}J>L@NXkKmY**dKRD_=y`R?4FLoYKmdU}0qTJ~Ct4wZ00Iag
z(6fMk|G<~lbC%?W00IagfB*t>0@MR@I$T2l0R#}}T|mFLN3r*Oz5G-U{L;J@oJRlw
z1Q0-=Ujfwtiv4CfpV{d3fYx7eUW=;;Ab<b@y$R^`U$M9Ra`Sm%Q_EK&j^?3!6?5Ha
zhX4WyAkc|`O?mY8d;3%S+9l*YW&iNt)dT7$Zm;`#iON&4m%PXW0R#|0AXC7mcGLrt
zL;U`L_Qy+bnp*Yuf90vzUxs9a00IagFe_lw)zRvKmmzQ2q~0G;`)AR8y1(_PIzX}Y
ze3(B12q1vKLIIoFk6sT*O%B=@6{!a#L_`1q1Q6&_z^1IU5B8Fy_Hi#C?eFn*Ip}^x
zwdehTSd3!?5I_Kd9t5=CJy;Lf{G7uzub)rd{7d`$&B-?obibn7zhiGS>gb=!Q?aAe
zNCg1|5I`V9;QIP+8I2oia?Q(`v-WrA@`LVIRQq1*0ndT+2q1s}0%HhhzvKOZ`|B+q
z>Vf+{oJ9Zu1Q6&%z(O91ous9G+)L-_!hF^K*Wtcv|M9UmAm<T4009ILs9C_m<P>Y3
z>w>vm_iN`K?eEUzN2k@Edf*WaClEjY0R(ywu#kje4>|piL#iHFo93^A)3yKjcx}hr
zhX4WyAb`M`0u}~WJaaBPj(y#)ckJ`WuBZog2BkX$5I_KdIs`0CL$QuoZJxzZ^#ETl
z*t|4!fB*srAW)-#g-I#aIL8%pq8?a*#w`dSfB*vH3Rp;8u@edEfld~ZG!Q@l0R+kj
zSQtjJ%&3QtLOpOeF#{lg00IagFsuN-pK#cvCvgN2KmY**t^(8pR|@`t00IagfIznb
zsr~*#n@|0%#P#{RxrzV+2q1s}0yPLw57e*<%mD!e5I_Kda|KfMzzdt7AMX#$`*0Nj
z1Q0*~fffX)2U=Jq=7<0S2q1vKJ_6q7@m@Wk_J3*f<E!0#E3P7d00IagfItlb-o8ye
zP{Zml2Lup6009Kb2zdK`>OAiclvy7}K>z^+5I~@WfcJfY&+Y!`YX6aQ{r+8?MF0T=
z5I_Kdngz7K$8)3}h($O?009ILK%ifNPwakf-q#C$5!&<qz<oE)B7gt_2q4g+0QEqN
ztHzuWKmY**5ZG7XQ@h`v_jLrdf9c$Jzc<bzfB*srAb>#40w37@*?IMV*ZzJloJ9Zu
z1Q0*~fffY3{hfNCh1Fw@2q1s}0toCQ;O+ZM&+juEdO-jI1Q0*~fincWpCfo`_h;j^
zzu%g(2q1s}0tg_`f`GTbd%u6cYu`ey%n<<u5I_I{1nvub|K<Jj-rqHNu>0*fivR)$
zAb<b@?Fvv2w7Yi9903FnKmdWG1uk~<2=tEt0tg_000OlOT&(sPGCu?mKmY**4iK==
zr{V!aoYAHC^#IM~iIcB>524y!qtpI+oqr&J00Iag(6E4hzD}{>RBoqkw}<hO_xp&<
zx$k}FeB3X`2q1s}0tmDypgKUY#T@R=+3udbo}?bQQt%H15I_I{1RhieD0V|)^O<;m
z-|!3PKK;Gp`Chq-00IagfIyo9ssj|;%;L_h?asM3PI+G!@aloj6aBr>^-urwey>s7
zj$;H6KmY**Y7kHzpjgA4cA10C_d-1|@55CD5I_Kdu>|yatYR<OC+eHmzp?w7e&(Fl
z`vY$~*W=#w`;DJvwvX@U7y$$jKmdV~0;&TpR&vzi$4b=$Upe_|-`5QFbBj8k`*Q|y
zJ@A$@p2i^}fB*srAaJID_Nm;@d(WKflCiztFQ7htYx>u1d^b9;dO*LIfO_E8iz5UO
zKmdV01oU}yckgT4?E1X+zJEabzwXxYCG_{#A?msp<M#)2?6p7pyz*2$dp?Yh00Iag
zP*&iTP2(w+9sRh`67P4sj^7`65gfGNYhP6SIJ%yix%Pk6SvppKim84|UDtdROO4Ao
z2q1s}0(A(e4p6LPR@-Nhs0SY6?<Y*v1M*S5keZ?Pf9iph6xR_z009JQ5YRrSSi_w5
zm_w=__$#{|B~=e-f6uK49zy@r1Gml`A%Fk^2-GQ{IzX|`SuURy^}sSSeVssY+1<28
z009ILXk9>`_r~8>-+Es9yxhxU?fV1X?<era(Rn#*zg0}tExP~csQD-!Js$ldfB*sr
z)Fq&OO0lllt)ES*9*F;bfxcewE1SlQ_eJ^S{=8v4bNw8L`c<SJh^072009ILI72}D
zoZ=aCIAY9HJrIAMe^x!9-v@Ps!IC~zpC~T5m$nEXfB*vR3#blIY(JwZgH%1BpC44d
zx%GhBuZ`Mo6>F&n*5<=~2q1s}0(}W+f9fkMKbwpB*GgWY9w@2JSO_4100Jq2(dvQt
z{gAW1jvvn>wN6||009ILK;TFL>VYG5{l2LOd>gJHfB*srloy~LC~yAbh|~k;xHBpO
z2q1s}0zV2ov0DdyKjH1!<B#Hb96ur>Ab<b@2q1uf1mb;If6rLgOT~B|rN(6(1Q0*~
z0R#|uc!<9~a#lT{zjMHvAb<b@2q1t!c>(Hy^5%?)00IagfI#g6Ykv=M?Rhaj1Q0*~
z0R#}p7oZ-<x1uEi2q1s}0=)`Q5A?dS<b?nN2q1t!z5w+=z7;JIKmY**5a?Av-(RS|
zOWbRo<b?nN2q1s}0=@wCfN#SU1Q0*~0R%=7pdJ`yrO6Wk1Q0*~0bhW6z_;NF0tg_0
z00N^3s2<?&3yrek<cR<R2q1vKV*%=c$0nRX009ILKwvZh>VeT#oO}^L009ILcq~9Y
z@YsYi2q1s}0^<m1A5`om^He_G^|$Q4fY<(hYtABo00Iag(3XJqImNbS@6R@sk9VDV
zz&GUz0tg_0K)(Xo7ZrQSG?kBcoqC{`CxAQ<KmY**mI!EHR9tdz&23Zpc-N^1YF<_5
zh5!NxAaIy~g`O1;8>no@-hQuHc-N^1Bt%320R#{jO29(4ik&3y?e|L0yG}hIAtC|@
zAb`M70v57W>?C<_zgK$Rb?N~L5fMND0R%=8(BJn}>?U`c&*V`(5ZYgy`yREQ@1Cm&
zAb<b@2s9<|#HQ&gHZ}Q~$u8Z$-wqC!5NEpP5&{SyfB*vB38)TG>?J|!fnHXUJP<$t
z0R&12s18spF=mM|s0T_YGX??(Ab>zO0v0k+>?E<Z^+0cRQ76ku8VDeO00Kt~SQtR@
z=<y2mPd!iwnqd$?009L05U`MjVjo#OP!DvnkfebC0tg^bL_j}hs90ps5`)<MAo1@R
zcp2KC_4R^hiTTcF!&L+jKmY**HVRm{UvXo1wcMV1e;}?0-aR>g>VaCG9Oi)l0tgH$
zU?FeCP8d@4!1E~IxIQS&5YMOd_>6}D0tg^5xPXQH6+7Wb)dTND`F<W9uVqM$>-8JY
z$7{!V1Q0*~0R#>au+XdGA%m3fG_^0s`!DrC`88rh1Q0*~fr<ny%tf)Hsco4G^}rTA
z?nM9r1P~Zbz(U4~od8e|bh417fdB#sAW%lY!Z3<uMm>BK>Vd<F82|wU5I_Kd<^|&4
zxA2kelTxY<@kZh24LupoBY*$`2q18r0QJCew)Bhu0tg_0Kr;e%JJT<s<J+tGM{D07
zc-U$D{F&ai)VvjMuX2O{0tg_`yMTTVk76(Rrhe~m{QiJ`U$K7fFy0sA_PsbM59O<<
z^F#y?KmdU;1XKqo_L6m~9*DnQ|Cvphd-Xuvz85Fup*lcO=ZOd)fB*tx2<Z3ZD)y3f
z>ht+{fB##XGXHgm@xB<h@5M=ZC|^aLCnA6V0tk#DpgKUYm#ml81HZSQGJpNMDL(pp
z$<zbAJQ?JH00Iaga8E#Wfa1M2EuNzuShi|<UqEr$-Lysk0R#|eT|mFbU$OOkH2>7+
z^ZNe5(EfFJf8gOCY&sL~i>dxJ?$)TfO!bW7)_zm>D__M_d#)pZ00Ic~C7?P$v6t*p
z`#1GKFDp$R2q1s}0(%JP^H0S+`mCZ4o1aBo5B$y4{&k3tZcfz~k8W6bLhlbKemKqR
z;S%D?Zn+Hs1Q0*~fms370gAJYTe@iTlfB$tzt#c2xjldFq}2Q9ssj|M2d+!NKM+6w
z0R#>dP#vIn;810|w)x?---cGNe;e9+^}u{@`(4$%6sZUHv!y2l5I_Kd837B|6la>Y
zbSd@uy!P8`P9gvIL%g0Z{144bk$Rx;0x%o`2p}-3fQ7^rJ8_^M=wu;D0|5jOK%k6(
zg<%xSjC%Me)B}eTGXMezAb<b@!wBeo`_c*P`#C<gY2>rNj!`;)#zO!B1Q0-=CIRY!
znpT6kAb<b@2plbt`g?#!k6&y5XaAli{oP5$TAi2|0tg_0Kpz5U?|Zc<#&yxzE~*0*
zYjI*82q1s}0(}acz3<hcN<C1^N-z%u5I_KdGX$syCUxq8GoC)iL;wK<5U53fdSF@!
z>VaCGNale60tg^*h5+@zq)t6>#?!}`2q1s}0<{QG4@@f&*8>k$%L*|M1Q0*~0R)a0
zpdOfvsRxdK)))Z+1Q0-=UV*o*-no^W*;&7TsAP_eg#ZEwAb<b@^8(Lo{yJ9?KmY**
z5I~@R0qTMN*O&|uKmY**5J(A752S>+jsOA(Ab>#s0@MTjuQ3@SfB*srAdnKE9!Lps
z9RUOoK%h$jo3eWJb9Rj<`~8>e5_t4;7Qts-Z`_3d0tg_0KqCS+&9k@9i}$Jro(7*r
zR+DKWfB*srAh1rrrrUb^d%8>Of$P2>JcM~YuM<QB5I_I{1bP&(DJklKu(-h^96eAE
zNP>s}0tg_`wSZ08J^H$N<4G@lf8ev=5dXb`-dq}AR;G^t0tg^*lz>eg_qOj*4;=Nt
z&@TcAAb>!Z0ybsU+wbk)s~+ghrORiSq!2&=0R*-S*wjUD`yTbc_D6#r5I_I{1jZBS
z?dJ`buHg0i2cjE$`##GkJq{5-009ILxDn{>_YvJBmvP|L1N?kJ1|CfiKmY**x)B(C
z-}~66rHt#M(OtTEz)1uF1Q0+VOCa6{vu^6JQS7kv`w%)LAteM5KmdV(1m3lQlATHQ
zoyg%59naj#B?J&a009J=7oZ-PmXLa&`A3-q5I_I{1U3l7`{0JIn!Yu5=<Vk)n_e6y
zj{pJ)AaI<3O<lhT@wkD?_MG~<|Ha9-_IkjZcUfIVLjVB;5a>?8ri`cuCI{+)?w)WG
zLI42-5Xcd*sS)+S<Ul=;^U%-+0R#|0pf>^id|hwfPni08LA>v4UG;aJbboE%Kj6(<
z^Cu#J00IaguttD-;8tz)dO&s1tqMm7Ab<b@y$h%wQ0yh&)V`MbJUey&Sx%{WZ=F}I
zd2h{&`w>6@0R-j+R0k-|w{GWZYF|t3tEv0Xl1R;a>%3~sduv|Yj{pJ)ATTeWIzVy0
zbvsv6`&w#WP2GQ%L~7n^=cRlV*Y?AG2q1s}0*wk-n73l1X~fe`?Q2`F$K#bc*1Y%r
zJIv}=u~a^cg8%{uAW(^bg?T7eGOexCNbPG|uWy~-+WR$c>VdU_+=l=H2q17*z`|L@
zyN%jAseRL%`PS=Rzek_fyg##Pq`iI~QvE6(od^9RfB*sr)Fq(Tf5p0Hw|+Lg<r7P&
z9{9lGE9;KsrMRva?m_?o1Q2LdK(GIbt>zKWySIGe{8SHoV)2!A$Gv;4Q{gTI5I|rY
z0qp~dy=2~7KJmIx55yuIBY*$`2y7A1&lxIi>8q-HZQX2IaZo*=cv+dRlzOk9lqV4Z
z1Q0;rzJT^W#rv%qJZtOb+=_$h0L9D7eAg*)7Xk<%fIxQw7BW)oB*C?x@3vA8d>Gb?
zdZ3dBmNXDR0D-dwEKET0?D_08KJ~y(kaU9p0tg^5hJb}M6+6kg_j*9f^nO^kONcs8
zL;wK<5I|s&fQ8nIi*ByB@hJ6x{yy`o&epHqCySXOfB*u03S7TlZhhsqwjS8)_xlvn
z4C|)vBPcd510jF_0tj>^Ks|7~oYVui9vmTn00IaMB48m;#ZJ;ry+82G$@ism{;6}m
z7B0SCP|Hd%4+IcEpiuz}^Hyv$jd<FN>w%EJR}XmgLp<(T$J7I7$ulkj2q4gjfQ391
zJ4uUrpp%6p4FnKC0D&?B7KTwQGwR`^EUgFh{doF4Kk)>4e;^j&7y$$jK%grD3)v`k
zk{tCwCksg$2q1s}0!0M$eR7IL1}!m&%?}cNzW@5G(EcOmzNr0t=O<jfIP*SXDh!DL
z0tg_`fPg-4R@6S{eIH!|Dczmo_2($>UVV5_-n#rdoBkD_f6F<q`)Z3?SH;@q$9xb#
z009K*5YRrMsQvGS)iJ-lW<fo$mn8ilfB*sr^eCV@Kv7>Oc-K11c40oL_Xk?h(Yh+O
zGH>RI00IagP*y<ugd+98<gf1^(EBA?6@9%x$F)bTt77f*Wqt@CfB*vL2xy;Bq#l^o
zfqLMa=aEqnKmY**&Jj=@ph!J1t%H95fLydXygwibA_52?fIv?I+V2#p2d34f9_Z;Q
zCl>?|KmdWOfL;G}^AFVliVvaPCB&P?6(6L2e&Cv4W)5C^-XF*Wq!|JTAb>!f0#@g=
z_L^0y9@uLf`au8z1Q0-=X#s0`_Q}cX>m133G(Z3W1Q0-AV1eBIQtcF5AxqBJ<}-=z
Sw|@-nqx18fG;lSY&;JAcz$8@w

literal 0
HcmV?d00001


From 1abcae4679cd4a09e007599bf6b7fab637ab864f Mon Sep 17 00:00:00 2001
From: wapiti08 <tzrzhuoran@163.com>
Date: Fri, 27 Sep 2019 15:52:59 +0100
Subject: [PATCH 2/8] Add files via upload

---
 loglizer/dataloader.py | 212 +++++++++++++++++++++++++++++++++++++++--
 loglizer/matrixgen.py  | 208 ++++++++++++++++++++++++++++++++++++++++
 2 files changed, 410 insertions(+), 10 deletions(-)
 create mode 100644 loglizer/matrixgen.py

diff --git a/loglizer/dataloader.py b/loglizer/dataloader.py
index 574617e..3f203e2 100644
--- a/loglizer/dataloader.py
+++ b/loglizer/dataloader.py
@@ -38,8 +38,9 @@ def _split_data(x_data, y_data=None, train_ratio=0, split_type='uniform'):
         else:
             y_train = y_data[0:num_train]
             y_test = y_data[num_train:]
-    # Random shuffle
-    indexes = shuffle(np.arange(x_train.shape[0]))
+
+    # fixed shuffle ---- in order to have the same result
+    indexes = shuffle(np.arange(x_train.shape[0]), random_state=7)
     x_train = x_train[indexes]
     if y_train is not None:
         y_train = y_train[indexes]
@@ -140,6 +141,7 @@ def load_BGL(log_file, label_file=None, window='sliding', time_interval=60, step
     """
 
 
+
 def bgl_preprocess_data(para, raw_data, event_mapping_data):
     """ split logs into sliding windows, built an event count matrix and get the corresponding label
 
@@ -159,20 +161,31 @@ def bgl_preprocess_data(para, raw_data, event_mapping_data):
     if not os.path.exists(para['save_path']):
         os.mkdir(para['save_path'])
     log_size = raw_data.shape[0]
-    sliding_file_path = para['save_path']+'sliding_'+str(para['window_size'])+'h_'+str(para['step_size'])+'h.csv'
+    sliding_file_path = para['save_path']+'_sliding_'+str(para['window_size'])+'h_'+str(para['step_size'])+'h.csv'
 
     #=============divide into sliding windows=========#
     start_end_index_list = [] # list of tuples, tuple contains two number, which represent the start and end of sliding time window
-    label_data, time_data = raw_data[:,0], raw_data[:, 1]
+    # get the list of label data and the list of time data
+    label_data, time_data = raw_data[:,0], raw_data[:,1]
     if not os.path.exists(sliding_file_path):
         # split into sliding window
+        # get the first value in the time_data list
         start_time = time_data[0]
+        print("the start_time is:",start_time)
+        print("the type of time is:",type(start_time))
+        # the index points at the index in the time_data list
         start_index = 0
         end_index = 0
 
         # get the first start, end index, end time
         for cur_time in time_data:
-            if  cur_time < start_time + para['window_size']*3600:
+            # the start_time + para['window_size']:
+            ## start_time is the first value in the time_data list
+            ## get the data scope using the window size
+            ## cur_time < the result means it is in the scope of window size
+            print("the current time is:",cur_time)
+            # if cur_time < start_time + para['window_size']*3600:
+            if int(cur_time) < int(start_time) + para['window_size'] * 3600:
                 end_index += 1
                 end_time = cur_time
             else:
@@ -181,15 +194,19 @@ def bgl_preprocess_data(para, raw_data, event_mapping_data):
                 break
         # move the start and end index until next sliding window
         while end_index < log_size:
-            start_time = start_time + para['step_size']*3600
-            end_time = end_time + para['step_size']*3600
+            # start_time = start_time + para['step_size']*3600
+            # end_time = end_time + para['step_size']*3600
+            start_time = int(start_time) + para['step_size']*3600
+            end_time = int(end_time) + para['step_size']*3600
             for i in range(start_index,end_index):
-                if time_data[i] < start_time:
+                # if time_data[i] < start_time:
+                if int(time_data[i]) < start_time:
                     i+=1
                 else:
                     break
             for j in range(end_index, log_size):
-                if time_data[j] < end_time:
+                # if time_data[j] < end_time:
+                if int(time_data[j]) < end_time:
                     j+=1
                 else:
                     break
@@ -199,7 +216,7 @@ def bgl_preprocess_data(para, raw_data, event_mapping_data):
             start_end_index_list.append(start_end_pair)
         inst_number = len(start_end_index_list)
         print('there are %d instances (sliding windows) in this dataset\n'%inst_number)
-        np.savetxt(sliding_file_path,start_end_index_list,delimiter=',',fmt='%d')
+        np.savetxt(sliding_file_path, start_end_index_list, delimiter=',', fmt='%d')
     else:
         print('Loading start_end_index_list from file')
         start_end_index_list = pd.read_csv(sliding_file_path, header=None).values
@@ -218,16 +235,24 @@ def bgl_preprocess_data(para, raw_data, event_mapping_data):
             expanded_indexes_list[i].append(l)
 
     event_mapping_data = [row[0] for row in event_mapping_data]
+    print("the event_mapping_data is:", event_mapping_data)
     event_num = len(list(set(event_mapping_data)))
     print('There are %d log events'%event_num)
 
     #=============get labels and event count of each sliding window =========#
     labels = []
+    # inst_number --- row, every row is a log sequence(windows sliding)
+    # event_num --- column, every column is a event, the number is the occurrence of a corresponding event
     event_count_matrix = np.zeros((inst_number,event_num))
     for j in range(inst_number):
         label = 0   #0 represent success, 1 represent failure
         for k in expanded_indexes_list[j]:
+            print("the length of expanded_indexes_list is:",len(expanded_indexes_list[j]))
+            print("the k value is:",k)
             event_index = event_mapping_data[k]
+            print("the event_index is:", event_index)
+            # the index is not different from the eventId
+            event_index = event_index-1
             event_count_matrix[j, event_index] += 1
             if label_data[k]:
                 label = 1
@@ -237,3 +262,170 @@ def bgl_preprocess_data(para, raw_data, event_mapping_data):
     print("Among all instances, %d are anomalies"%sum(labels))
     assert event_count_matrix.shape[0] == len(labels)
     return event_count_matrix, labels
+
+
+
+# this is a part of test for bgl_preprocess_data function
+# import os
+# import pandas as pd
+# import numpy as np
+# from collections import Counter
+#
+# para = {}
+# para['save_path'] = '../../logparser-master/logs/BGL/BGL_2k.log_matrix'
+# para['window_size'] = 24 # 24 hours ---- one day
+# para['step_size'] = 3 # 3 hours
+#
+# # list data, the element is tuple of (label, time)
+#
+# # System log Detection/Anomaly_Detection_Time.ipynb
+# df_raw_data = pd.read_csv('../../logparser-master/logs/BGL/BGL_2k.log_structured.csv')
+# raw_data = []
+# for label, time in zip(df_raw_data['Label'],df_raw_data['Timestamp']):
+#     raw_data.append((label, time))
+# # raw_data
+# raw_data = np.array(raw_data)
+#
+# df_map_event = pd.read_csv('../../logparser-master/logs/BGL/BGL_2k.log_structured.csv')
+# event_mapping_data = []
+# ids = []
+# ids = [int(x[1:]) for x in df_map_event['EventId']]
+#
+# for id, log in zip(ids, df_map_event['EventTemplate']):
+#     event_mapping_data.append([id,log])
+#
+#
+# event_count_matrix, labels = bgl_preprocess_data(para, raw_data, event_mapping_data)
+# print("the event_count_matrix is:", Counter(event_count_matrix[9]))
+# print("the labels are:", Counter(labels))
+
+
+def load_Linux(log_file, label_file=None, window ='sliding', time_interval = None,stepping_size = None, train_ratio = 0.5, split_type = 'sequential', save_csv=False):
+
+    print('========== Input data summary==========')
+    if log_file.endswith('.npy'):
+        # split training and validation set in a class-uniform way
+        assert window == 'sliding','Only window=session is supported for Linux dataset'
+
+        data_df = np.load(log_file)
+        if label_file is None:
+            if split_type == 'uniform':
+                split_type = 'sequential','Warning: Only split type=sequential is supported'
+            # split training and validation set sequentially
+            x_data = data_df
+            (x_train,_),(x_test,_) = _split_data(x_data, train_ratio = train_ratio, split_type = split_type)
+            print('Total: {} instances, train: {} instances, test: {} instances'.format(x_data.shape[0], x_train.shape[0], x_test.shape[0]))
+
+            return (x_train, None), (x_test, None)
+    else:
+        raise NotImplementedError('load_Linux() only support npy files')
+
+# this is a part of test for linux_preprocess_data function --- get the event matrix
+
+
+def Linux_preprocess_data(para, raw_data, event_mapping_data):
+    """
+    split logs into sliding windows, built an event count matrix and get the corresponding label
+
+    Args:
+    --------
+    para: the parameters dictionary
+    raw_data: list of (Time) --- we will transfer the time to seconds, and get the abs
+    event_mapping_data: a list of event index, where each row index indicates a corresponding log
+
+    Returns:
+    --------
+    event_count_matrix: event count matrix, where each row is an instance (log sequence vector)
+    """
+
+    # create the directory for saving the sliding windows (start_index, end_index), which can be directly loaded in future running
+    if not os.path.exists(para['save_path']):
+        os.mkdir(para['save_path'])
+    log_size = raw_data.shape[0]
+    sliding_file_path = para['save_path']+'_sliding_'+str(para['window_size'])+'h_'+str(para['step_size'])+'h.csv'
+    print("the sliding_file_path is:", sliding_file_path)
+
+    # ============= divide into sliding windows ============
+
+    start_end_index_list = [] # list of tuples, tuple contains two number, which represent the start and end of sliding time window
+    # get the list of label data and the list of time data
+    time_data = raw_data
+
+    if not os.path.exists(sliding_file_path):
+        start_time = time_data[0]
+        start_index = 0
+        end_index = 0
+        # finish the comparision in one roll with window_size
+        for cur_time in time_data:
+            if cur_time < start_time + para['window_size'] * 3600:
+                end_index += 1
+                end_time = cur_time
+            else:
+                start_end_pair = tuple((start_index, end_index))
+                start_end_index_list.append(start_end_pair)
+                break
+        # sliding the block and change the index of start and end
+        while end_index < log_size:
+            # add the sliding size to start time
+            start_time = start_time + para['step_size']*3600
+            end_time = end_time + para['step_size']*3600
+            for i in range(start_index, end_index):
+                if time_data[i] < start_time:
+                    i += 1
+                else:
+                    break
+            for j in range(end_index, log_size):
+                if time_data[j] < end_time:
+                    j += 1
+                else:
+                    break
+            start_index = i
+            end_index = j
+            # update the start_end_pair
+            start_end_pair = tuple((start_index, end_index))
+            start_end_index_list.append(start_end_pair)
+        # compute how many sequence(lines) in total
+        inst_number = len(start_end_index_list)
+        print("there are %d instances (sliding windows) in this dataset"%(inst_number))
+        np.savetxt(sliding_file_path, start_end_index_list, delimiter=',', fmt='%d')
+    else:
+        print("Loading start_end_index_list from file")
+        start_end_index_list = pd.read_csv(sliding_file_path, header = None).values
+        inst_number = len(start_end_index_list)
+        print("there are %d instances (sliding windows) in this dataset"%(inst_number))
+
+    # get all the log indexes in each time window by ranging from start_index to end_index
+    # in order to counter
+    expanded_indexes_list = []
+    for t in range(inst_number):
+        # for every row(sequence), there should be a index_list
+        index_list = []
+        expanded_indexes_list.append(index_list)
+    for i in range(inst_number):
+        # get the index_list for every row
+        start_index = start_end_index_list[i][0]
+        end_index = start_end_index_list[i][1]
+        # add the indexes for a sequence to expanded_indexed_list
+        for l in range(start_index, end_index):
+            expanded_indexes_list[i].append(l)
+
+    event_mapping_data = [row[0] for row in event_mapping_data]
+    # get the total number for events
+    event_num = len(list(set(event_mapping_data)))
+    print("the event number is:", event_num)
+
+    # ============ get event count of each sliding window =============
+    event_count_matrix = np.zeros((inst_number, event_num))
+    for j in range(inst_number):
+        for k in expanded_indexes_list[j]:
+            event_index = event_mapping_data[k]
+            # make the eventId suitable for list index
+            event_index = event_index - 1
+            event_count_matrix[j, event_index] += 1
+
+    return event_count_matrix
+
+
+
+
+
diff --git a/loglizer/matrixgen.py b/loglizer/matrixgen.py
new file mode 100644
index 0000000..a572a62
--- /dev/null
+++ b/loglizer/matrixgen.py
@@ -0,0 +1,208 @@
+import os
+import pandas as pd
+import numpy as np
+from collections import Counter
+import re
+from dataloader import *
+import joblib
+
+# function to transform hours and minutes to seconds
+def trans_seconds(time_list):
+    seconds_list = []
+    seconds = 0
+    for i in range(len(time_list)):
+        #         print("splitting time:",time_list[i])
+        seconds = int(time_list[i][0]) * 3600 + int(time_list[i][1]) * 60 + int(time_list[i][2])
+        seconds_list.append(seconds)
+    return seconds_list
+
+# transformation between month name to numbers
+def month_string_to_number(string):
+    m = {
+        'Jan': 1,
+        'Feb': 2,
+        'Mar': 3,
+        'Apr': 4,
+        'May': 5,
+        'Jun': 6,
+        'Jul': 7,
+        'Aug': 8,
+        'Sep': 9,
+        'Oct': 10,
+        'Nov': 11,
+        'Dec': 12
+    }
+    s = string.strip()[:3]
+
+    try:
+        out = m[s]
+        return out
+    except:
+        pattern = '<.*>(.*)'
+        match = re.match(pattern,string)
+        s = match.group(1)
+        out = m[s]
+        return out
+        # process the special case with <N/ASCII>Jun
+        # raise ValueError('Not a month')
+
+# transform month, day to seconds
+def trans_seconds(month_list, day_list, time_list):
+    seconds_list = []
+    seconds = 0
+    for i in range(len(day_list)):
+        # we assume there are 30 days for every month
+        seconds = (int(month_list[i]) - int(month_list[0])) * 30 * 24 * 3600 + (int(day_list[i]) - int(day_list[0])) * 24 * 3600 + \
+                  int(time_list[i][0]) * 3600 + int(time_list[i][1]) * 60 + int(time_list[i][2])
+        # print("the seconds are:", seconds)
+        seconds_list.append(seconds)
+    return seconds_list
+
+# transform log key to eventID
+# def Event_Convert(fd):
+#     event_map = {}
+#     for i, event in enumerate(fd['EventId']):
+#         event_map['E' + str(i+1)] = event
+#
+#     return event_map
+def Event_Convert(fd, filename):
+    event_map = {}
+    event_list = None
+    event_list = fd['EventId']
+    # get the unique values in a list
+    event_list = list(set(event_list))
+    for i, event in enumerate(event_list):
+        event_map[str(i+1)] = event
+    joblib.dump(event_map, filename)
+    return event_map
+
+
+if __name__ == "__main__":
+
+    # define the window_size and step_size to get time sequence
+    para = {}
+    para['save_path'] = '../../Dataset_ML/Linux'
+    para['window_size'] = 24 # 24 hours ---- one day
+    para['step_size'] = 3 # 3 hours
+
+    # =============================== generate the event matrix for normal linux logs =========================
+    # get the linux dataframe
+    fd_linux = pd.read_csv('../../Dataset_ML/Linux_2k.log_structured.csv')
+    # make a copy to avoid modifying the original data
+    fd_linux = fd_linux.copy()
+
+    filename = '../../Dataset_ML/Linux_matrix/Event_dict.pkl'
+    # check whether the event_dict has existed
+    if os.path.isfile(filename):
+        event_map = joblib.load(filename)
+    else:
+        event_map = Event_Convert(fd_linux, filename)
+
+    for i in range(len(fd_linux['EventId'])):
+        for key, value in event_map.items():
+            fd_linux.is_copy = False
+            if fd_linux['EventId'][i] == value:
+                fd_linux['EventId'][i] = key
+
+    fd_linux.to_csv('../../Dataset_ML/Linux_2k.log_structured_id.csv', index=0)
+
+    fd_linux_id = pd.read_csv('../../Dataset_ML/Linux_2k.log_structured_id.csv')
+    fd_linux_id = fd_linux_id.copy()
+
+    # part to transform the month, date, time into seconds
+    month_list, time_list, day_list, day_list = [], [], [],[]
+
+    for i in range(len(fd_linux_id['Time'])):
+        time_list.append(fd_linux_id['Time'][i].split(':'))
+    for j in range(len(fd_linux_id['Date'])):
+        day_list.append(fd_linux_id['Date'][j])
+
+    month_number = 0
+    for k in range(len(fd_linux_id['Month'])):
+        # print("we are transferring the month:",fd_linux['Month'][k])
+        month_number = month_string_to_number(fd_linux_id['Month'][k])
+        month_list.append(month_number)
+
+    seconds_list = trans_seconds(month_list, day_list, time_list)
+
+    raw_data = np.array(seconds_list)
+
+    event_mapping_data = []
+    Event_ids = []
+    # get the digits part of eventID
+    Event_ids = [int(x) for x in fd_linux_id['EventId']]
+
+    for id, log in zip(Event_ids, fd_linux_id['EventTemplate']):
+        event_mapping_data.append([id, log])
+
+
+    # create the event count matrix with the function of Linux_preprocess_data
+    event_count_matrix = Linux_preprocess_data(para, raw_data, event_mapping_data)
+    # print("the event_count_matrix is:", Counter(event_count_matrix[9]))
+    print("the event_count_matrix is:", event_count_matrix)
+    matrix = '../../Dataset_ML/Linux_matrix/log_matrix.npy'
+    np.save(matrix, event_count_matrix)
+    # np.load(matrix+'.npy')
+
+
+    # =============================== generate the event matrix for malicious linux logs =========================
+
+    para_mal = {}
+    para_mal['save_path'] = '../../Dataset_ML/Linux_mal'
+    para_mal['window_size'] = 24  # 24 hours ---- one day
+    para_mal['step_size'] = 3  # 3 hours
+
+    fd_linux_mali = pd.read_csv('../../Dataset_ML/malicious_linux.log_structured.csv')
+    fd_linux_mali = fd_linux_mali.copy()
+
+    filename_mali = '../../Dataset_ML/Linux_mal_matrix/Event_mal_dict.pkl'
+    # check whether the event_dict has existed
+    if os.path.isfile(filename_mali):
+        event_map_mal = joblib.load(filename_mali)
+    else:
+        event_map_mal = Event_Convert(fd_linux_mali, filename_mali)
+
+    for i in range(len(fd_linux_mali['EventId'])):
+        for key, value in event_map_mal.items():
+            fd_linux_mali.is_copy = False
+            if fd_linux_mali['EventId'][i] == value:
+                fd_linux_mali['EventId'][i] = key
+
+    fd_linux_mali.to_csv('../../Dataset_ML/malicious_linux.log_structured_id.csv', index=0)
+
+    fd_linux_mali_id = pd.read_csv('../../Dataset_ML/malicious_linux.log_structured_id.csv')
+    fd_linux_mali_id = fd_linux_mali_id.copy()
+
+    # part to transform date time into seconds
+    month_list_mal ,time_list_mal, day_list_mal, day_list_mal = [],[],[], []
+
+    for i in range(len(fd_linux_mali_id['Time'])):
+        time_list_mal.append(fd_linux_mali_id['Time'][i].split(':'))
+    for j in range(len(fd_linux_mali_id['Date'])):
+        day_list_mal.append(fd_linux_mali_id['Date'][j])
+
+    month_number_mal = 0
+    for k in range(len(fd_linux_mali_id['Month'])):
+        # print("we are transferring the month:",fd_linux['Month'][k])
+        month_number_mal = month_string_to_number(fd_linux_mali_id['Month'][k])
+        month_list_mal.append(month_number_mal)
+
+    seconds_list_mal = trans_seconds(month_list_mal, day_list_mal, time_list_mal)
+
+    raw_data_mal = np.array(seconds_list_mal)
+
+    event_mapping_data_mal = []
+    Event_ids_mal = []
+    # get the digits part of eventID
+    Event_ids_mal = [int(x) for x in fd_linux_mali_id['EventId']]
+
+    for id, log in zip(Event_ids_mal, fd_linux_mali_id['EventTemplate']):
+        event_mapping_data_mal.append([id, log])
+
+
+    event_count_matrix_mal = Linux_preprocess_data(para_mal, raw_data_mal, event_mapping_data_mal)
+    # print("the event_count_matrix is:", Counter(event_count_matrix[9]))
+    print("the event_count_matrix is:", event_count_matrix_mal)
+    mal_matrix = '../../Dataset_ML/Linux_mal_matrix/mal_matrix.npy'
+    np.save(mal_matrix, event_count_matrix_mal)
+    # np.load(mal_matrix)
\ No newline at end of file

From 1a38b95660bec17efe4f02388798023c538b8c71 Mon Sep 17 00:00:00 2001
From: wapiti08 <tzrzhuoran@163.com>
Date: Fri, 27 Sep 2019 15:53:28 +0100
Subject: [PATCH 3/8] Add files via upload

---
 demo/PCA_demo_without_labels.py | 130 ++++++++++++++++++++++++++------
 1 file changed, 107 insertions(+), 23 deletions(-)

diff --git a/demo/PCA_demo_without_labels.py b/demo/PCA_demo_without_labels.py
index d54a1c0..4b1c0a2 100644
--- a/demo/PCA_demo_without_labels.py
+++ b/demo/PCA_demo_without_labels.py
@@ -14,35 +14,119 @@
 sys.path.append('../')
 from loglizer.models import PCA
 from loglizer import dataloader, preprocessing
+from collections import Counter
+import pandas as pd
+
+# struct_log = '../data/HDFS/HDFS_100k.log_structured.csv' # The structured log file
+struct_log = '../../Dataset_ML/Linux_matrix/log_matrix.npy'
+mal_struct_log = '../../Dataset_ML/Linux_mal_matrix/mal_matrix.npy'
 
-struct_log = '../data/HDFS/HDFS_100k.log_structured.csv' # The structured log file
 
 if __name__ == '__main__':
-    ## 1. Load strutured log file and extract feature vectors
-    # Save the raw event sequence file by setting save_csv=True
-    (x_train, _), (_, _) = dataloader.load_HDFS(struct_log, window='session', 
-                                                split_type='sequential', save_csv=True)
+    # # 1. Load structured log file and extract feature vectors
+    # # Save the raw event sequence file by setting save_csv=True
+    # (x_train, _), (_, _) = dataloader.load_HDFS(struct_log, window='session',
+    #                                             split_type='sequential', save_csv=True)
+    # feature_extractor = preprocessing.FeatureExtractor()
+    # x_train = feature_extractor.fit_transform(x_train, term_weighting='tf-idf',
+    #                                           normalization='zero-mean')
+    #
+    # ## 2. Train an unsupervised model
+    # print('Train phase:')
+    # # Initialize PCA, or other unsupervised models, LogClustering, InvariantsMiner
+    # model = PCA()
+    # # Model hyper-parameters may be sensitive to log data, here we use the default for demo
+    # model.fit(x_train)
+    # # Make predictions and manually check for correctness. Details may need to go into the raw logs
+    # y_train = model.predict(x_train)
+    #
+    # ## 3. Use the trained model for online anomaly detection
+    # print('Test phase:')
+    # # Load another new log file. Here we use struct_log for demo only
+    # (x_test, _), (_, _) = dataloader.load_HDFS(struct_log, window='session', split_type='sequential')
+    # # Go through the same feature extraction process with training, using transform() instead
+    # x_test = feature_extractor.transform(x_test)
+    # # Finally make predictions and alter on anomaly cases
+    # y_test = model.predict(x_test)
+    # print("the result is:",y_test)
+    # print("the labels are:",Counter(y_test))
+
+
+    # example without train_ratio
+    (x_train, _), (_, _) = dataloader.load_Linux(struct_log, window='sliding',split_type='sequential', save_csv = True)
     feature_extractor = preprocessing.FeatureExtractor()
-    x_train = feature_extractor.fit_transform(x_train, term_weighting='tf-idf', 
-                                              normalization='zero-mean')
-    
-    ## 2. Train an unsupervised model
-    print('Train phase:')
-    # Initialize PCA, or other unsupervised models, LogClustering, InvariantsMiner
-    model = PCA() 
-    # Model hyper-parameters may be sensitive to log data, here we use the default for demo
+    x_train = feature_extractor.fit_transform(x_train, term_weighting='tf-idf', normalization='zero-mean')
+
+    # 2.Train an unsupervised model
+    print("Train phase")
+    # Initialize PCA
+    model = PCA()
+    # model hyper-parameters may be sensitive to log data, here we use the default for demo
     model.fit(x_train)
-    # Make predictions and manually check for correctness. Details may need to go into the raw logs
-    y_train = model.predict(x_train) 
-
-    ## 3. Use the trained model for online anomaly detection
-    print('Test phase:')
-    # Load another new log file. Here we use struct_log for demo only
-    (x_test, _), (_, _) = dataloader.load_HDFS(struct_log, window='session', split_type='sequential')
-    # Go through the same feature extraction process with training, using transform() instead
-    x_test = feature_extractor.transform(x_test) 
+    # make predictions and manually check for correctness. Details may need to go into the raw logs
+    y_train = model.predict(x_train)
+
+    # 3. Use the trained model for online anomaly detection
+    print("Test phase:")
+    # load another new log file, here we should know the basic set should be large as much as possible
+    # cuz for every vector, the same position may have different meanings --- can not be compared
+    (x_test,_),(_,_) = dataloader.load_Linux(mal_struct_log, window = 'sliding', split_type = 'sequential')
+    # go through the same feature extraction process with training
+
+    x_test_original = x_test.copy()
+    # assert x_test == x_train, 'the training data is not the same with testing data'
+    x_test = feature_extractor.transform(x_test)
     # Finally make predictions and alter on anomaly cases
     y_test = model.predict(x_test)
-    
+    # build the tracing dict
+    x_y_dict = {}
+    # define the counter
+    i = 0
+    for x,y in zip(x_test_original, y_test):
+        x_y_dict[str(x)+','+str(i)] = y_test
+        i += 1
+    # print("the result is:", len(y_test))
+    # print("the key names are:", x_y_dict.keys())
+    # get the indexs of anomaly sequences
+    anomaly_sequence_index = [i for i in range(len(y_test)) if y_test[i] == 1]
+    print("the index of anomaly sequence is:", anomaly_sequence_index)
+
+    # trace the index in the sliding_file_path
+    sliding_file_path = '../../Dataset_ML/Linux_mal_sliding_24h_3h.csv'
+    for index in anomaly_sequence_index:
+        # read sliding file: start_end_index
+        fd = pd.read_csv(sliding_file_path, header = None)
+        start_index, end_index = None, None
+        # get the start and end time from index value
+        start_index = fd.iloc[index,:][0]
+        end_index = fd.iloc[index,:][1]
+        print("please check log csv indexes between {} and {}".format(start_index, end_index))
+
+    anomaly_sequence = []
+    for index in anomaly_sequence_index:
+        # anomaly_sequence = [var for var in x_y_dict.keys() if int(var.split(',')[-1]) == index]
+
+        for var in x_y_dict.keys():
+            # print("the var is:",var)
+            if int(var.split(',')[-1]) == index:
+                # print out the anomaly test_x sequence
+                # print(var)
+                anomaly_sequence.append(var)
+
+    # print("the anomaly sequence is:", len(anomaly_sequence))
+    print("the lables are:", Counter(y_test))
+    print("the counter is {} and the anomaly rate is: {}".format(Counter(y_test), len(anomaly_sequence)/x_test.shape[0]))
+
+'''
+For HDFS:
+the result is: [0. 0. 0. ... 0. 0. 0.]
+the labels are: Counter({0.0: 3951, 1.0: 19}) --- there are 19 anomalies
+For Linux_logs:
+Counter({0.0: 163, 1.0: 3/5})   0.0184 --- 0.0307
+For Linux_mali_logs:
+Counter({0.0: 127, 1.0: 25})    0.1969
+'''
+
+
 
 

From 78840f001dbd27f1c42eedb07300f033e5ba0cce Mon Sep 17 00:00:00 2001
From: Wapiti08 <tzrzhuoran@163.com>
Date: Mon, 14 Oct 2019 14:34:50 +0100
Subject: [PATCH 4/8] Add files via upload

---
 loglizer/exec.sh | 14 ++++++++++++++
 1 file changed, 14 insertions(+)
 create mode 100644 loglizer/exec.sh

diff --git a/loglizer/exec.sh b/loglizer/exec.sh
new file mode 100644
index 0000000..e2d0e01
--- /dev/null
+++ b/loglizer/exec.sh
@@ -0,0 +1,14 @@
+#!/bin/bash
+
+path1='../../Dataset_ML/Linux/Client/Client_train/structured_log.csv'
+path2='../../Dataset_ML/Linux/Client/Client_train/Event_dict.pkl'
+path3='../../Dataset_ML/Linux/Client/Client_train/structured_log_id.csv'
+path4='../../Dataset_ML/Linux/Client/Client_train/Linux_matrix/log_matrix.npy'
+path5='../../Dataset_ML/Linux/Client/Client_com/structured_log.csv'
+path6='../../Dataset_ML/Linux/Client/Client_com/Event_dict.pkl'
+path7='../../Dataset_ML/Linux/Client/Client_com/structured_log_id.csv'
+path8='../../Dataset_ML/Linux/Client/Client_com/Linux_matrix/log_matrix.npy'
+
+python3 matrixgen_client.py --p1 $path1 --p2 $path2 --p3 $path3 --p4 $path4 --p5 $path5 --p6 $path6 --p7 $path7 --p8 $path8
+
+exit 0

From dee0edbd17bfa08236f14dabc998aeba7a258397 Mon Sep 17 00:00:00 2001
From: Wapiti08 <tzrzhuoran@163.com>
Date: Mon, 14 Oct 2019 14:35:57 +0100
Subject: [PATCH 5/8] Update dataloader.py

add the version can process the dataframe with the decreasing order of timestamp
---
 loglizer/dataloader.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/loglizer/dataloader.py b/loglizer/dataloader.py
index 3f203e2..83b2f69 100644
--- a/loglizer/dataloader.py
+++ b/loglizer/dataloader.py
@@ -350,9 +350,10 @@ def Linux_preprocess_data(para, raw_data, event_mapping_data):
     start_end_index_list = [] # list of tuples, tuple contains two number, which represent the start and end of sliding time window
     # get the list of label data and the list of time data
     time_data = raw_data
-
+    print("the time_data is:", time_data)
     if not os.path.exists(sliding_file_path):
         start_time = time_data[0]
+        print("the start_time is:",start_time)
         start_index = 0
         end_index = 0
         # finish the comparision in one roll with window_size
@@ -364,7 +365,8 @@ def Linux_preprocess_data(para, raw_data, event_mapping_data):
                 start_end_pair = tuple((start_index, end_index))
                 start_end_index_list.append(start_end_pair)
                 break
-        # sliding the block and change the index of start and end
+    
+    # sliding the block and change the index of start and end
         while end_index < log_size:
             # add the sliding size to start time
             start_time = start_time + para['step_size']*3600
@@ -428,4 +430,3 @@ def Linux_preprocess_data(para, raw_data, event_mapping_data):
 
 
 
-

From 03263a743810c4568f8d4fbf948f3dfc03ea7909 Mon Sep 17 00:00:00 2001
From: Wapiti08 <tzrzhuoran@163.com>
Date: Mon, 14 Oct 2019 14:36:36 +0100
Subject: [PATCH 6/8] Update matrixgen.py

---
 loglizer/matrixgen.py | 199 ++++++++++++++++++++++++++----------------
 1 file changed, 126 insertions(+), 73 deletions(-)

diff --git a/loglizer/matrixgen.py b/loglizer/matrixgen.py
index a572a62..cfde401 100644
--- a/loglizer/matrixgen.py
+++ b/loglizer/matrixgen.py
@@ -5,6 +5,7 @@
 import re
 from dataloader import *
 import joblib
+import optparse
 
 # function to transform hours and minutes to seconds
 def trans_seconds(time_list):
@@ -81,46 +82,90 @@ def Event_Convert(fd, filename):
 
     # define the window_size and step_size to get time sequence
     para = {}
-    para['save_path'] = '../../Dataset_ML/Linux'
-    para['window_size'] = 24 # 24 hours ---- one day
-    para['step_size'] = 3 # 3 hours
+    para['save_path'] = '../../Dataset_ML/Linux/Client/Client_train/'
+    para['window_size'] = 0.5 # 24 hours ---- one day
+    para['step_size'] = 0.2 # 3 hours
+
+    # =============================== generate the event matrix for norcom linux logs =========================
+
+    # set the format of command input
+    parser = optparse.OptionParser('usage %prog --p1 <structured log filename for training data> \
+                                    --p2 <dict_filename> --p3 <structured id log filename for training data> --p4 <transformed matrix for training> \
+                                    --p5 <structured log filename for testing data> --p6 <dict_filename_com> --p7 <structured id log filename for testing data> \
+                                    --p8 <transformed matrix for testing>')
+    # set the elements for every parameter
+    parser.add_option('--p1', dest='structured_log_filename', type='string', help='Please input the structured log filename: ')
+    parser.add_option('--p2', dest='dict_filename', type='string', help='Please input the dict filename for training data: ')
+    parser.add_option('--p3', dest='structured_log_id_filename', type='string', help='Please input the structured log id filename: ')
+    parser.add_option('--p4', dest='matrix', type='string', help='Please input the location where you want to save the matrix: ')
+    parser.add_option('--p5', dest='structured_log_com_filename', type='string', help='Please input the coming structured log filename: ')
+    parser.add_option('--p6', dest='dict_filename_com', type='string', help='Please input the dict filename for testing data')
+    parser.add_option('--p7', dest='structured_log_id_com_filename', type='string', help='Please input the coming structured log id filename: ')
+    parser.add_option('--p8', dest='matrix_com', type='string', help='Please input the location where you want to save the coming matrix: ')
+
+
+    # parser arguments through the parse_args()
+    (options, args) = parser.parse_args()
+    # get the values from options
+    structured_log_filename = options.structured_log_filename
+    dict_filename = options.dict_filename
+    structured_log_id_filename = options.structured_log_id_filename
+    matrix = options.matrix
+    structured_log_com_filename = options.structured_log_com_filename
+    dict_filename_com = options.dict_filename_com
+    structured_log_id_com_filename = options.structured_log_id_com_filename
+    matrix_com = options.matrix_com
 
-    # =============================== generate the event matrix for normal linux logs =========================
     # get the linux dataframe
-    fd_linux = pd.read_csv('../../Dataset_ML/Linux_2k.log_structured.csv')
+    fd_linux = pd.read_csv(structured_log_filename)
     # make a copy to avoid modifying the original data
     fd_linux = fd_linux.copy()
 
-    filename = '../../Dataset_ML/Linux_matrix/Event_dict.pkl'
-    # check whether the event_dict has existed
-    if os.path.isfile(filename):
-        event_map = joblib.load(filename)
+    # dict_filename has been given by parser
+    # check whether the dict_filename has existed
+    if os.path.isfile(dict_filename):
+        event_map = joblib.load(dict_filename)
     else:
-        event_map = Event_Convert(fd_linux, filename)
-
-    for i in range(len(fd_linux['EventId'])):
-        for key, value in event_map.items():
-            fd_linux.is_copy = False
-            if fd_linux['EventId'][i] == value:
-                fd_linux['EventId'][i] = key
-
-    fd_linux.to_csv('../../Dataset_ML/Linux_2k.log_structured_id.csv', index=0)
-
-    fd_linux_id = pd.read_csv('../../Dataset_ML/Linux_2k.log_structured_id.csv')
-    fd_linux_id = fd_linux_id.copy()
-
+        event_map = Event_Convert(fd_linux, dict_filename)
+    # shift the key and value of the dict
+    event_map = {val: key for (key, val) in event_map.items()}
+    
+    #for i in range(len(fd_linux['EventId'])):
+     #   for key, value in event_map.items():
+      #      # print("the key {} and value {}".format(key,  value))
+        #    if fd_linux['EventId'][i] == value:
+       #         # replace the hashed eventId into format like numerical id
+         #       fd_linux.is_copy = False
+          #      fd_linux['EventId'][i] = key
+           #     print("the replace eventId is:", fd_linux['EventId'][i])
+    
+
+    #fd_linux['EventId'].map(event_map).fillna(fd_linux['EventId'])
+    fd_linux['EventId'] = fd_linux['EventId'].map(event_map)
+
+    # structured_log_id_filename has been generated above
+    
+    
+    fd_linux.to_csv(structured_log_id_filename, index = False)
+    # read the saved csv
+    fd_linux_id = pd.read_csv(structured_log_id_filename)
+    # sort the dataframe from time increasing order
+    fd_linux_id_sort = fd_linux_id.copy()
+    fd_linux_id_sort.sort_index(axis=0, ascending=False, inplace=True)
+    # reset the index
+    fd_linux_id_sort = fd_linux_id_sort.reset_index(drop = True)
+    print(fd_linux_id_sort.head())
     # part to transform the month, date, time into seconds
-    month_list, time_list, day_list, day_list = [], [], [],[]
+    month_list, time_list, day_list, day_list = [], [], [], []
 
-    for i in range(len(fd_linux_id['Time'])):
-        time_list.append(fd_linux_id['Time'][i].split(':'))
-    for j in range(len(fd_linux_id['Date'])):
-        day_list.append(fd_linux_id['Date'][j])
+    for i in range(len(fd_linux_id_sort['Time'])):
+        time_list.append(fd_linux_id_sort['Time'][i].split(':'))
+    for j in range(len(fd_linux_id_sort['Date'])):
+        day_list.append(fd_linux_id_sort['Date'][j])
 
     month_number = 0
-    for k in range(len(fd_linux_id['Month'])):
-        # print("we are transferring the month:",fd_linux['Month'][k])
-        month_number = month_string_to_number(fd_linux_id['Month'][k])
+    for k in range(len(fd_linux_id_sort['Month'])):
+        month_number = month_string_to_number(fd_linux_id_sort['Month'][k])
         month_list.append(month_number)
 
     seconds_list = trans_seconds(month_list, day_list, time_list)
@@ -130,6 +175,7 @@ def Event_Convert(fd, filename):
     event_mapping_data = []
     Event_ids = []
     # get the digits part of eventID
+
     Event_ids = [int(x) for x in fd_linux_id['EventId']]
 
     for id, log in zip(Event_ids, fd_linux_id['EventTemplate']):
@@ -140,69 +186,76 @@ def Event_Convert(fd, filename):
     event_count_matrix = Linux_preprocess_data(para, raw_data, event_mapping_data)
     # print("the event_count_matrix is:", Counter(event_count_matrix[9]))
     print("the event_count_matrix is:", event_count_matrix)
-    matrix = '../../Dataset_ML/Linux_matrix/log_matrix.npy'
+    # matrix path has been generated above
     np.save(matrix, event_count_matrix)
-    # np.load(matrix+'.npy')
 
 
-    # =============================== generate the event matrix for malicious linux logs =========================
 
-    para_mal = {}
-    para_mal['save_path'] = '../../Dataset_ML/Linux_mal'
-    para_mal['window_size'] = 24  # 24 hours ---- one day
-    para_mal['step_size'] = 3  # 3 hours
+    # =============================== generate the event matrix for comicious linux logs =========================
+
+    para_com = {}
+    para_com['save_path'] = '../../Dataset_ML/Linux/Client/Client_com/'
+    para_com['window_size'] = 24  # 24 hours ---- one day
+    para_com['step_size'] = 3  # 3 hours
 
-    fd_linux_mali = pd.read_csv('../../Dataset_ML/malicious_linux.log_structured.csv')
-    fd_linux_mali = fd_linux_mali.copy()
+    # structured_log_com_filename has been give by parser
+    fd_linux_com = pd.read_csv(structured_log_com_filename)
+    fd_linux_com = fd_linux_com.copy()
 
-    filename_mali = '../../Dataset_ML/Linux_mal_matrix/Event_mal_dict.pkl'
-    # check whether the event_dict has existed
-    if os.path.isfile(filename_mali):
-        event_map_mal = joblib.load(filename_mali)
+    # dict_filename_com has been given by parser
+    # check whether the dict_filename_com has existed
+    if os.path.isfile(dict_filename_com):
+        event_map_com = joblib.load(dict_filename_com)
     else:
-        event_map_mal = Event_Convert(fd_linux_mali, filename_mali)
+        event_map_com = Event_Convert(fd_linux_com, dict_filename_com)
+
+    for i in range(len(fd_linux_com['EventId'])):
+        for key, value in event_map_com.items():
+            fd_linux_com.is_copy = False
+            if fd_linux_com['EventId'][i] == value:
+                fd_linux_com['EventId'][i] = key
+
+    # structured_log_com_filename
+    fd_linux_com.to_csv(structured_log_id_com_filename, index=False)
+
+    fd_linux_com_id = pd.read_csv(structured_log_id_com_filename)
+    fd_linux_com_id = fd_linux_com_id.copy()
 
-    for i in range(len(fd_linux_mali['EventId'])):
-        for key, value in event_map_mal.items():
-            fd_linux_mali.is_copy = False
-            if fd_linux_mali['EventId'][i] == value:
-                fd_linux_mali['EventId'][i] = key
+    fd_linux_com_id.sort_index(axis=0, ascending=False, inplace=True)
 
-    fd_linux_mali.to_csv('../../Dataset_ML/malicious_linux.log_structured_id.csv', index=0)
+    fd_linux_com_id = fd_linux_com_id.reset_index(drop = True)
 
-    fd_linux_mali_id = pd.read_csv('../../Dataset_ML/malicious_linux.log_structured_id.csv')
-    fd_linux_mali_id = fd_linux_mali_id.copy()
+    fd_linux_com_id = fd_linux_com_id.copy()
 
     # part to transform date time into seconds
-    month_list_mal ,time_list_mal, day_list_mal, day_list_mal = [],[],[], []
+    month_list_com ,time_list_com, day_list_com, day_list_com = [],[],[], []
 
-    for i in range(len(fd_linux_mali_id['Time'])):
-        time_list_mal.append(fd_linux_mali_id['Time'][i].split(':'))
-    for j in range(len(fd_linux_mali_id['Date'])):
-        day_list_mal.append(fd_linux_mali_id['Date'][j])
+    for i in range(len(fd_linux_com_id['Time'])):
+        time_list_com.append(fd_linux_com_id['Time'][i].split(':'))
+    for j in range(len(fd_linux_com_id['Date'])):
+        day_list_com.append(fd_linux_com_id['Date'][j])
 
-    month_number_mal = 0
-    for k in range(len(fd_linux_mali_id['Month'])):
+    month_number_com = 0
+    for k in range(len(fd_linux_com_id['Month'])):
         # print("we are transferring the month:",fd_linux['Month'][k])
-        month_number_mal = month_string_to_number(fd_linux_mali_id['Month'][k])
-        month_list_mal.append(month_number_mal)
+        month_number_com = month_string_to_number(fd_linux_com_id['Month'][k])
+        month_list_com.append(month_number_com)
 
-    seconds_list_mal = trans_seconds(month_list_mal, day_list_mal, time_list_mal)
+    seconds_list_com = trans_seconds(month_list_com, day_list_com, time_list_com)
 
-    raw_data_mal = np.array(seconds_list_mal)
+    raw_data_com = np.array(seconds_list_com)
 
-    event_mapping_data_mal = []
-    Event_ids_mal = []
+    event_mapping_data_com = []
+    Event_ids_com = []
     # get the digits part of eventID
-    Event_ids_mal = [int(x) for x in fd_linux_mali_id['EventId']]
+    Event_ids_com = [int(x) for x in fd_linux_com_id['EventId']]
 
-    for id, log in zip(Event_ids_mal, fd_linux_mali_id['EventTemplate']):
-        event_mapping_data_mal.append([id, log])
+    for id, log in zip(Event_ids_com, fd_linux_com_id['EventTemplate']):
+        event_mapping_data_com.append([id, log])
 
 
-    event_count_matrix_mal = Linux_preprocess_data(para_mal, raw_data_mal, event_mapping_data_mal)
+    event_count_matrix_com = Linux_preprocess_data(para_com, raw_data_com, event_mapping_data_com)
     # print("the event_count_matrix is:", Counter(event_count_matrix[9]))
-    print("the event_count_matrix is:", event_count_matrix_mal)
-    mal_matrix = '../../Dataset_ML/Linux_mal_matrix/mal_matrix.npy'
-    np.save(mal_matrix, event_count_matrix_mal)
-    # np.load(mal_matrix)
\ No newline at end of file
+    print("the event_count_matrix is:", event_count_matrix_com)
+    # matrix_com has been given by parser
+    np.save(matrix_com, event_count_matrix_com)

From 7ebb2b4aaf5c6e440e497c897333bba641734dbc Mon Sep 17 00:00:00 2001
From: Wapiti08 <tzrzhuoran@163.com>
Date: Mon, 14 Oct 2019 14:36:59 +0100
Subject: [PATCH 7/8] Update preprocessing.py


From b7af83c959c5b84e7291e66e838b6bcc9d390bca Mon Sep 17 00:00:00 2001
From: Wapiti08 <tzrzhuoran@163.com>
Date: Wed, 13 Nov 2019 16:22:30 +0000
Subject: [PATCH 8/8] Update PCA.py

in line 67: i is not assigned before reference
---
 loglizer/models/PCA.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/loglizer/models/PCA.py b/loglizer/models/PCA.py
index 6d6a437..22ebf5a 100644
--- a/loglizer/models/PCA.py
+++ b/loglizer/models/PCA.py
@@ -64,7 +64,7 @@ def fit(self, X):
                 variance += sigma[i]
                 if variance / total_variance >= n_components:
                     break
-            n_components = i + 1
+                n_components = i + 1
 
         P = U[:, :n_components]
         I = np.identity(num_events, int)