zurück zur Startseite
  


Zurück XHTMLforum > Webentwicklung (außer XHTML und CSS) > Serveradministration und serverseitige Scripte
Seite neu laden Websitevergleich.

Antwort
 
LinkBack Themen-Optionen Ansicht
  #1 (permalink)  
Alt 01.07.2007, 22:22
Neuer Benutzer
neuer user
Thread-Ersteller
 
Registriert seit: 22.06.2007
Beiträge: 10
[WT]Speedi befindet sich auf einem aufstrebenden Ast
Standard Websitevergleich.

Hallo Community,

Habe mal ne Frage.
Wie kann ich 2 Websites den Content vergleichen und dort die Top 10 Wörter die in beiden auftreten ausgeben?
Außerdem sollen Wörter, die in einer "Badwordlist" vorhanden sind, nicht beachtet werden.

Habe gedacht lese das ganze per fopen() in nen Array an und vergleiche diese dann, habe aber keine Ahnung wie ich die Arrays vergleiche.

Danke für eure Hilfe.
Speedi
Mit Zitat antworten
Sponsored Links
  #2 (permalink)  
Alt 02.07.2007, 08:42
Neuer Benutzer
neuer user
Thread-Ersteller
 
Registriert seit: 22.06.2007
Beiträge: 10
[WT]Speedi befindet sich auf einem aufstrebenden Ast
Standard

So, hab das jetzt schon soweit, dass ich nun 2 Arrays mit den einzelnen Wörtern des Contents habe.

Wie vergleich ich nun die 2 Arrays nach übereinstimmungen und häufigkeit der Wörter?

wenn ich z.B. habe:
Array1: "Sie sind so toll, da Sie toll sind."
Array2: "Ich finde Sie nicht toll."

Top10:
Sie (3)
toll (3)
sind (2)
so (1)
da (1)
Ich (1)
finde (1)
nicht (1)

Danke,
Speedi
Mit Zitat antworten
Sponsored Links
  #3 (permalink)  
Alt 02.07.2007, 11:14
Erfahrener Benutzer
XHTMLforum-Kenner
 
Registriert seit: 29.07.2005
Beiträge: 1.073
xm22 befindet sich auf einem aufstrebenden Ast
Standard

Vielleicht kannst Du mit in_array und array_search was anfangen.

Was mich interessieren würde: Wie hast Du aus dem HTML-Code die Wörter isoliert?
__________________
... Meine Meinung
Mit Zitat antworten
  #4 (permalink)  
Alt 02.07.2007, 12:01
Neuer Benutzer
neuer user
Thread-Ersteller
 
Registriert seit: 22.06.2007
Beiträge: 10
[WT]Speedi befindet sich auf einem aufstrebenden Ast
Standard

Hi,

PHP-Code:
//HTML ersetzen
$suche = array ("'<script[^>]*?>.*?</script>'si",  // JavaScript entfernen
                
"'<[\/\!]*?[^<>]*?>'si",           // HTML-Tags entfernen
                
"'([\r\n])[\s]+'",                 // Leerräume entfernen
                
"'&(quot|#34);'i",                 // HTML-Entitäten ersetzen
                
"'&(amp|#38);'i",
                
"'&(lt|#60);'i",
                
"'&(gt|#62);'i",
                
"'&(nbsp|#160);'i",
                
"'&(iexcl|#161);'i",
                
"'&(cent|#162);'i",
                
"'&(pound|#163);'i",
                
"'&(copy|#169);'i",
                
"'&#(\d+);'e");                    // als PHP auswerten

$ersetze = array ("",
                  
"",
                  
"\\1",
                  
"\"",
                  
"&",
                  
"<",
                  
">",
                  
" ",
                  
chr(161),
                  
chr(162),
                  
chr(163),
                  
chr(169),
                  
"chr(\\1)");
//HTML entfernen
$text1 preg_replace($suche$ersetze$content1);
$text2 preg_replace($suche$ersetze$content2); 
Mit Zitat antworten
  #5 (permalink)  
Alt 02.07.2007, 15:00
Benutzerbild von Yhi
Yhi Yhi ist offline
/* no comment */
XHTMLforum-Mitglied
 
Registriert seit: 28.05.2006
Beiträge: 208
Yhi befindet sich auf einem aufstrebenden Ast
Standard

Hallo,

also ich denke dir bleibt nichts anderes übrig als alle Wörter durchzugehen:

PHP-Code:
<?php
$results 
= array(); // key: Wort; value: Anzahl
foreach($words as $w) {
    if(isset(
$results[$w])) {
       
$results[$w]++;
   }
   else {
     
$results[$w] = 1;
   }
}

// Ergebnisse ausgeben
foreach($results as $word => $count) {
   echo 
$word .' ('$count .')';
}
?>
So in etwa müsste das klappen
__________________
PHP und Webdesign Blog
Mit Zitat antworten
Antwort

Themen-Optionen
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus



Alle Zeitangaben in WEZ +2. Es ist jetzt 01:36 Uhr.