现研究DE的采集过滤方法,遇到难题,请求援手
) T) e5 p7 ?8 d& w
, t; Z1 \' W* `# z
现在dedeCMS的采集过滤,试过好些网站没问题,记得有网友说QQ的文章内广告不知如何过滤,趁今晚有些时间,随便找了一个页面测试了一下
; f7 h. ^0 F( k7 t
. Y4 e. F9 v2 P1 n5 i5 S' J
http://finance.qq.com/a/20061007/000052.htm# ]; N3 A2 Y7 l+ V' `" O" {
) I- t$ [' O0 k* Z, k6 n! e0 C
用了一位坛友写的万能码
5 }% l0 ~" u2 d9 z! S5 w! ~# _
2 k1 K9 J3 \- o9 O, H( C/ G) t# T8 S5 Y
CODE:
; }3 C4 Z0 }/ ]( |# R) w& t
{dede:trim}<param([^>]*)>{/dede:trim}
8 m0 L+ T! j- |' S
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
6 e9 ?$ o* Q$ D1 U. C5 W+ j( I
{dede:trim}<embed([^>]*)>{/dede:trim}
. O7 [* C B* n, c0 F& c5 ~( i. B
{dede:trim}</embed>{/dede:trim}
2 G9 I3 y ?/ I8 k& a( E{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
" ~5 f6 R* Z8 Q$ d7 }* `9 ?: _
{dede:trim}<object([^>]*)>{/dede:trim}
, a. N% f. a9 X7 @8 q6 ?$ S2 f
{dede:trim}</object>{/dede:trim}
+ L8 }; {) ~# {! y
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
! A$ X3 `6 @2 D1 l. \% O9 ^{dede:trim}<OBJECT([^>]*)>{/dede:trim}
$ z( c C* w. J/ T/ k. L8 r{dede:trim}</OBJECT>{/dede:trim}
n6 E8 L: s6 `
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
# w3 D* G1 u+ y{dede:trim}<iframe([^>]*)>{/dede:trim}
- P4 @ ~6 g4 F3 C
{dede:trim}</iframe>{/dede:trim}
' ~* ~$ h4 o6 L$ V! D4 w+ U. n% a& S{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
+ V; ^6 N7 p# a{dede:trim}<IFRAME([^>]*)>{/dede:trim}
. c8 l( I6 e7 u+ E ?3 J9 D
{dede:trim}</IFRAME>{/dede:trim}
2 w: L( g% v( }( S$ U; b* h; W{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
$ h4 m0 X- H, K5 ]: u: b{dede:trim}<font([^>]*)>{/dede:trim}
" l) F' p; C7 q9 z( g8 n) `, H{dede:trim}</font>{/dede:trim}
4 Z9 F! O+ G" l{dede:trim}<img([^>]*)>{/dede:trim}
. m) i7 N& J5 p' Q6 q: Y
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
1 G& e9 s% m: m' T
{dede:trim}<a([^>]*)>{/dede:trim}
5 N* o' c' }* K( ~
{dede:trim}</a>{/dede:trim}
. J& j6 r0 F& V
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
+ X9 X$ U4 v5 Q/ a
{dede:trim}<td([^>]*)>{/dede:trim}
1 \9 r9 t) B- Z0 \. Q' [{dede:trim}</td>{/dede:trim}
/ |! N/ z4 [5 b( S
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
4 m& v& x" y3 I. Y' m{dede:trim}<tr([^>]*)>{/dede:trim}
' d! U% D6 }- K# h{dede:trim}</tr>{/dede:trim}
/ {% u' Z3 X; Y{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
+ L* m8 b, h- n- \. ~8 V" g
{dede:trim}<tbody>{/dede:trim}
! _+ X8 P$ J' U% U1 v{dede:trim}</tbody>{/dede:trim}
, H, A _% E9 A! [/ E9 ?2 Y{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
\8 {& [& Y4 [4 i
{dede:trim}<table([^>]*)>{/dede:trim}
7 n" x7 n* K Z3 |' E) Z$ y
{dede:trim}</table>{/dede:trim}
" U) c0 v/ `! Q
[Copy to clipboard]
8 N& m: ]' g6 D' d, l7 J
Y5 G2 b' Y/ O4 {" h0 r; \
7 D/ N0 R! Y6 Y- z# J
文章页广告<table>部分内容多数去掉了,但仍然有下面的注释及<script>无法去掉
6 u* b* T1 @# S' ]% d! C3 C& N+ |* q" S
) }; h, m& s6 I) p8 X+ H- yCODE:
2 I# t* s0 z+ k% {& t
<!--<script src="
http://adsview.qq.com/adsview?c= ... C_Text4&log=off "></script>-->
9 w9 @ P6 G/ e" a9 P( Y
[Copy to clipboard]
/ D* v; L& E: R; q
$ _% }; u9 R2 |; g/ Z. n
' V7 x6 |% S) a* {* z) N) `
& E/ H& l* h* W6 i- ]' E# Y4 ~
按任意字符的方法过滤写了两个
7 ?6 `+ D" C, W, z
+ j3 O4 e2 v: w3 M1 l! f' f/ I+ ?2 v# A6 L
CODE:
! q# M j* [9 H; t: q1 _2 m
{dede:trim}<!--([^>]*)-->{/dede:trim}
- @! V" x7 u+ h9 M{dede:trim}<script([^>]*)</script>{/dede:trim}
6 R# a) Q4 W+ C* |[Copy to clipboard]
0 _" _, d4 }1 O8 b& I$ O, m
8 Q5 V7 h: v4 k. F
' c% J% P% |3 Q& n5 ?3 y4 T- ?0 @7 Z
, ]1 T5 J3 j' {2 O6 p MCODE:
+ K2 U* U- \! w) Q: R
{dede:trim}<script([^>]*) {/dede:trim}
T3 U9 z; @- r* B. \- d( a
{dede:trim}</script> {/dede:trim}
! w, X3 b3 n7 V1 V g{dede:trim}<!--([^>]*)-->{/dede:trim}
W2 @; n1 q) h( L% W, `; O" y0 W7 k! E
[Copy to clipboard]
8 ^9 w+ W9 ^% t9 T7 w- U& }
! C( H: v( f$ Q
7 J3 c# R# e8 K6 S+ j6 V& ?! _也是无效
" @% p7 {7 w% c6 _! J: M9 F
; F8 B, n5 {4 @& X* E% \不知错在哪里?希望高手出来解答
& }; k; h7 `4 A! w
- [8 J& R; y; X' G. |
' X7 F8 F6 N$ x7 j" b/ O& |: Q{dede:trim}<!--<script([^>]*)"></script>-->{/dede:trim}