Spider Friendly URL – ASP.NET URL Rewriting

Hintergrund:

Dynamisch erstellte Web Seiten haben häufig mit Parameter gespickte URL’s. Manche Suchmaschinen können diese Parameter behafteten URL’s nicht oder nur schlecht auswerten.

Beispiele von URL’s:

Hier eine typische URL einer DotNetNuke Webseite:

http://www.dnnportal.de/default.aspx&tabid=179&type=art&site=40&parentid=48

Mit dem hier besprochenen Ansatz könnte die URL wie folgt aussehen http://www.dnnportal.de/Default.aspx/type/art/site/40/tabid/179/parentid/48

Mir ist auch schon aufgefallen das Webseiten von exakt gleichem Inhalt mit URL’s ohne Parameter häufig weiter oben in den Suchmaschinen angesiedelt sind, als die gleiche Seite mit parametrisierten URL’s.

Leider ist es nicht ohne weiteres Möglich diese Art von SFU (Spider Friendly URL’s) aus einem Programm welches nicht von vornherein dafür vorgesehen ist zu erzeugen. Und wenn, dann doch meist, nur mit vielen Kompromissen und in vielen Fällen auch nur mit Änderungen im Quellcode.

Die Aufgabenstellung lautet also eine Möglichkeit zu schaffen, SFU URL’s ohne oder mit nur geringen Änderungen des Quellcode’s anwendungsdurchgängig zu implementieren.

Die Idee

Die Idee zur Erstellung eines Programms welches Suchmaschinen freundliche URL’s (Spider Friendly URL’s) erstellt ist im Zusammenhang mit der Suchmaschinenoptimierung für DotNetNuke Portale entstanden.

Nachdem ich mir viele Ansätze für solch eine Lösung im Internet angesehen hatte und mit den Ergebnissen nicht zufrieden war (Es waren meist irgendwie keine durchgängigen Lösungen), bin ich auf einen Beitrag von Scott Van Vliet gestoßen, der mir dann als Basis für die Erstellung dieser Lösung gedient hat.

Der Beitrag von Scott Van Vliet basiert im groben darauf dass der vom Webserver an den Client gesendete Response gefiltert wird und bei dieser Filterung die dynamischen URL’s in statische URL’s ausgetauscht werden Und das bei einer Anforderung von einem Client die an den Server gesendete Statische URL wieder für die Internet Verwendung in die ursprüngliche Dynamische URL umgesetzt wird.

Wie Sie sich Denken können ist dies ein vorhaben, dass seine Tücken haben soll.

Aber ich kann Ihnen schon hier verraten, es funktioniert.

Eine fertige Lösung. welche die Konzepte dieses Beitrags umsetzt können Sie auf DNNPortal im Download Bereich herunterladen.

Für registrierte Benutzer liegt auch der komplette Source Code als Download bereit.

Ich habe dann auf Basis dieses Lösungsansatzes dieses Modul HPS.Utilities.SFU erstellt.

Grundsätzliche Lösung

In diesem Kapitel möchte ich den Grundsätzlichen Weg beschreiben, welcher für diese Lösung beschritten wird.

Normale Webanforderung

Schauen wir uns doch zuerst einmal an wie der normale Aufruf einer Web Seite funktioniert.

graphic

Der Client sendet eine Request an den Server. Der Request besteht aus einer angeforderten URL. Nehmen wir als Beispiel die folgende URL:

http://www.dnnportal.de/default.aspx&tabid=163.

In diesem Fall bedeutet das, der Client fordert die Homepage der Web Anwendung www.dnnportal.de an.

Der Server empfängt nun diese Anforderung, die Webanwendung (wir sprechen ja über ASP.NET) löst die Parameter auf und schickt als Response die gewünschte Web Seite als Stream zum Browser.

Soweit zur normalen Anforderung einer Webseite eines Client vom Server.

Ansatzpunkte zur Umsetzung

Betrachten wir uns das ganze mal etwas näher was wir erreichen wollen:

graphic

Gewünscht wäre, der Client Request lautet http://www.dnnportal.de/default.aspx/tabid/163, den Request den der Server bekommt sollte aber http://www.dnnportal.de/default.aspx?tabid=163 lauten.

In diesem Fall würde der Server den Request des Client verstehen und im den Response (also die gewünschte Webseite) an ihn zurücksenden.

Schauen wir uns doch mal an was der Server an den Client sendet.

Es sendet ihm den Inhalt der Webseite http://www.dnnportal.de/default.aspx?tabid=163 in diesem Inhalt (der Content) können sich Links auf andere Seiten oder auf Java Skript oder sonstiges mit meist absoluten Pfadangaben enthalten, die immer auf das Wurzelverzeichnis der aktuellen Web Anwendung (also unserer Dynamischen Web Anwendung) verweist.

Somit erhält der Client Links die im Format http://www.dnnportal.de/default.aspx?tabid=163 gehalten sind.

Eigentlich wollen wir ja aber das der Client die URL Informationen im Format http://www.dnnportal.de/default.aspx/tabid/163 erhält.

Wenn wir uns die obige Abbildung anschauen dann ist dort bereits der Ansatz der Lösung zu erkennen.

Wenn wir die beiden Rechtecke Response vom Server und Request vom Client nicht als Beschreibung sondern als die Möglichkeit sehen, dort die ein und ausgehenden Stream (Anforderungen und Antworten) so zu manipulieren, dass Sie unser gewünschte Resultat ergeben.

Der Oberbegriff für unsere Lösung heißt also HTTPHandler.

Wir erzeugen also ein Klassenmodul welches als HTTPHandler später über die Web.Config aktiviert wird.

Also erzeugen wir eine Klasse (Diese Klasse muss von der Klasse System.Web.IHttpModule abgeleitet sein.):

public class SfuHttpModule : System.Web.IHttpModule
{

}
Request (Eingehende Streams)

Um den eingehenden Stream abzufangen und zu ändern bevor wir Ihn an den Webserver weiterleiten gibt es die Möglichkeit einen Event der ausgelöst wird wenn eine Anforderung zum Server geschickt wird auf eine eigene Event Methode umzulenken.

Dies geschieht auf folgende Art und Weise.

Im Init Event unseres HTTPHandler weisen wir einen neue Event Methode zu:

public void Init(HttpApplication application)
{
     application.BeginRequest +=new EventHandler(Application_BeginRequest);
}

Das bedeutet immer wenn ein Request an den Server gesendet wird, wird durch die Event Methode Application_Begin_Request unseres HTTPHandler aufgerufen.

An dieser Stelle behandle ich die dort durchgeführten Aktionen rein generisch, nähere Erläuterungen was in der Methode genau geschieht folgt später in diesem Artikel.

public void Application_BeginRequest(object sender, EventArgs e)
{
     // Hier wird jetzt eine Funktion eingefügt, welche die eingehende statische URL wieder               //in die ursprüngliche dynamische URL umwandelt.
}
Response (Ausgehende Streams)

Um den Inhalt der an den Client übertragen wird zu manipulieren, ist es notwendig den vom Server ausgehenden Stream abzufangen und zu manipulieren.

Um es gleich vorweg zu sagen, dies ist die wesentlich größere Herausforderung. Hierbei handelt es sich ja nicht nur um eine URL die abgefangen und manipuliert werden muss, sondern um den gesamten Inhalt der Webseite die vom Server an den Client übertragen wird.

Aber das es dafür Lösungsmöglichkeiten gibt sehen wir ja in diesem Artikel.

Wir gehen also wie folgt vor und registrieren einen weiteren Event (hier fett dargestellt) in unserer Init Methode des HTTPModules:

public void Init(HttpApplication application)
{
     application.BeginRequest +=new EventHandler Application_BeginRequest);

     application.PostRequestHandlerExecute += new EventHandler(application_PostRequestHandlerExecute);
}

Das hinzufügen des Events application_PostRequestHandlerExecute hat zur Folge dass jedesmal wenn der Server einen Response an eine Client sendet unsere Event Methode aufgerufen wird bevor der Client die Daten des Response erhält.

An dieser Stelle auch nur die generische Beschreibung was in dieser Methode geschieht.

private void application_PostRequestHandlerExecute(object sender, EventArgs e)
{
// Daten vom Server empfangen und manipulierte Daten dann zum Client senden
}

Dieses beschriebene Ansinnen ist etwas umfangreicher als es hier dargestellt ist und wird später näher erläutert.

Zusammenfassung

Wenn wir also die eingehenden und ausgehenden Streams abfangen und manipulieren können, sollte es möglich sein, die gewünschten Anforderungen zu erfüllen.

Im nächsten Abschnitt werden wir auf die einzelnen Funktionen die wir implementieren müssen näher eingehen.

HTTPHandler im Detail

Nun wird es ernst, in diesem Abschnitt werden nun die einzelnen Funktionen beschrieben die notwendig sind um die ein und ausgehenden Streams abzufangen und zu manipulieren.

Beginnen wir mit dem einfacheren Teil.

Beginn_Request

Schauen wir uns zuerst einmal an, wie die Event Methode nach unserer Implementierung aussieht und welche Funktionalitäten darin versteckt sind:

public voidApplication_BeginRequest(objectsender, EventArgs e)
{
       HttpContext context = ((HttpApplication)sender).Context;
       context.RewritePath(SfuUtil.FromSfuUrl(context.Request.Path) );
}

In einfachen Worten beschrieben, wird in der Methode die Funktion context.RewritePath() aufgerufen um die eingehende URL im statischen Format durch die ursprüngliche dynamische URL umzuschreiben, so dass der Server uns die zu dieser URL gehörigen Informationen zurückliefern kann.

Wir verwenden hierzu die Funktion FromSfuUrl der Klasse SfuUtil. Diese Funktion der Klasse wandelt einfach die statische in die dynamische URL um.

Um diesen Bericht nicht unnötig aufzublasen möchte ich keine detaillierte Erläuterung der Klasse SfuUtil vornehmen. Die Klasse ist im Source Code enthalten und bei Fragen können diese gerne per Email an mich gesendet werden.

PostRequestHandlerExecute

Nun zum Interessanteren Teil der Lösung.

private void application_PostRequestHandlerExecute(object sender, EventArgs e)
{
     HttpApplication application = (HttpApplication)sender;
     string _querystring = application.Context.Request.QueryString.ToString();
     application.Context.Response.Filter = new RequestFilter(application.Context.Response.Filter, application.User);
}

Wie sie sehen wird im PostRequestHandlerExecute ein weiterer Event registriert. Ein Context.Response.Filter. Dieser Event wird immer dann ausgelöst wenn der Server Daten zum Client senden möchte.

Das was nun folgt ist der eigentliche Höhepunkt dieser Anwendung.

RequestFilter

Diese Klasse enthält nun die Funktionalität den ausgehende Stream vom Client zum Server abzufangen und zu manipulieren. Aber sehen Sie selbst:

Die Klasse muss von Stream abgeleitet werden, diese wiederum erfordert dass eine Anzahl von Methoden überschrieben werden müssen, da sonst die Implementierung der Klasse nicht vorgenommen werden kann.

Erforderliche Überschreibungen:

Nachfolgende werden die Methoden aufgeführt die zwingend Überschrieben werden müssen, damit unsere Klasse von der Stream Klasse abgeleitet werden kann.

public override bool CanRead
{

     get

     {

          return true;

     }

}

public override bool CanSeek
{

     get

     {

          return true;

     }

}

public override bool CanWrite
{

     get

     {

          return true;

     }

}

public override long Length
{

     get

     {

          return 0;

     }

}

public override long Position
{

     get

     {

          return _position;

     }

     set

     {

          _position = value;

     }

}

public override long Seek(long offset, SeekOrigin origin)
{

     return _sink.Seek(offset,origin);

}

public override void SetLength(long value)
{

     _sink.SetLength(value);

}

public override void Close()
{

     _sink.Close ();

}

public override void Flush()
{

     _sink.Flush();

}

public override int Read(byte[] buffer, int offset, int count)
{

     return _sink.Read(buffer, offset, count);

}
Write Methode (Hier ist das Herzstück unseres Content Filter)
public override void Write(byte[] buffer, int offset, int count)

{

     string sBuffer = Encoding.Default.GetString(buffer, offset, count);

     sBuffer = _tempBuffer + sBuffer.Trim();

     if (buffer.Length != count)         

     {

          int idx = sBuffer.LastIndexOf(">");

          _tempBuffer = sBuffer.Substring(idx + 1);

          sBuffer = sBuffer.Substring(0,idx+1);

     }

     MatchCollection hrefMatches = Regex.Matches(sBuffer, RegexPattern.HrefPattern, RegexOptions.IgnoreCase);

     HttpContext Context = HttpContext.Current;

     if ((hrefMatches.Count > 0))

     {

          try

          {

               foreach (Match match in hrefMatches)

               {

                    string href = match.Groups[match.Groups.Count - 2].Value;

                    if (href.IndexOf(Context.Request.Headers["Host"]) > 0)

                         href = href.Substring(href.IndexOf(Context.Request.Headers["Host"])+ Context.Request.Headers["Host"].Length );

                    if (Regex.IsMatch(href, RegexPattern.AspxPattern) &&

                         !Regex.IsMatch(match.Value, RegexPattern.ImgPattern) &&

                         !Regex.IsMatch(match.Value, RegexPattern.CssPattern) &&

                         !Regex.IsMatch(match.Value, RegexPattern.ScriptPattern))

                    {

                         href = href.Replace(href, SfuUtil.ToSfuUrl(href));

                    }

                    if (!Regex.IsMatch(href, RegexPattern.HttpProtocolPattern) &&

                         !Regex.IsMatch(href, RegexPattern.MailToPattern,RegexOptions.IgnoreCase) &&

                         !Regex.IsMatch(href, RegexPattern.AnchorPattern) &&

                         !Regex.IsMatch(href, RegexPattern.JavascriptHtmlStatementPattern))

                    {

                         if (!Regex.IsMatch(href, RegexPattern.AbsolutePathPattern))

                         {

                              href = Regex.Match(Context.Request.Path, RegexPattern.CurrentPathPattern).Groups[1].Value + href;

                         }

                         sBuffer = sBuffer.Replace(match.Value, match.Value.Replace(match.Groups[match.Groups.Count - 2].Value, href));

                    }

               }

          }

          catch (Exception ex)

          {

               System.Diagnostics.Debug.WriteLine(ex.Message);

          }

     }

     byte[] bufferNew = Encoding.Default.GetBytes(sBuffer);

     _sink.Write(bufferNew, 0, bufferNew.Length);

}

Nachdem wir den HTTPHandler erzeugt und die Events wie in diesem Artikel beschrieben haben registriert haben, wird die Methode Write immer dann ausgeführt wenn der Server etwas an den Client senden möchte. Wir müssen in dieser Methode jetzt selbst dafür sorgen dass der Client eine Antwort von unserem Server erhält. Wenn wir an dieser Stelle nichts senden, bekommt der Client keinen Response.

Nachdem ich mit dieser Methode gearbeitet habe sind mir fast unbegrenzte Möglichkeiten für den Einsatz eingefallen, aber bleiben wir nun erst einmal bei unserem Thema und schauen uns die Methode näher an.

public override void Write(byte[] buffer, int offset, int count)

Die Methode erhält als Parameter im Parameter buffer den Response der vom Server auf den Request des Client zurück gesendet werden soll.

Diesen Buffer können wir nun lesen, manipulieren und anschließend an den Client als Server Response senden (Der Client bekommt davon nichts mit)

Kommen wir aber gleich zu einem Problem, was wenn nicht gelöst zu einem echten Problem werden kann.

Der Server sendet maximal 25 KByte (diese Zahl ist nicht genau, konnte keine genaue Definition finden) auf einmal an den Client. Das bedeutet wenn größere Webseiten Inhalten an den Client gesendet werden, so wird diese Methode mehrfach aufgerufen und jeweils ein Teil des Webseite an den Client gesendet. Dies kann aber in unserem Fall (den wir später noch näher erläutern) des Stringvergleiches dazu führen, dass wir nur einen Teil des gesamten String während eines Aufrufs der Methode Write enthalten haben.

Um dies zu berücksichtigen habe ich folgenden Code eingebaut:

int idx = sBuffer.LastIndexOf(">");
_tempBuffer = sBuffer.Substring(idx + 1);
sBuffer = sBuffer.Substring(0,idx+1);

Da der Filter dazu verwendet wird HTML Seiten an den Client zu übertragen suche ich einfach das letzte vorkommen eines abschließenden Tags.

Kopiere alles einschließlich des letzten Tags in die zu verarbeitende Puffervariable sBuffer. Alles was hinter dem letzten abschließenden Tag ist kopiere ich in einen temporären Zwischenpuffer _tempBuffer.

Dieser wird beim nächsten Aufruf an den Anfang von sBuffer kopiert und anschließen geleert.

Hierdurch wird sichergestellt dass bei den Stringvergleichen immer ein ganzer in einem Tag eingeschlossener String zur Verfügung steht und nicht nur ein Teil eines href oder ähnlichem im sBuffer verarbeitet wird.

Den Teil des Stringvergleiches werde ich an dieser Stelle auch nicht ausführlich beschreiben, es sei nur soviel das gesagt, dass alle vorkommen von href gesucht werden und mit der Funktion ToSfu der Klasse SfuUtil von dynamischen URL in statischen URL umgewandelt werden. Außerdem werden Tags wie src, img, java scripte etc im sBuffer gesucht und anstelle von relativen angaben wie Image\logo.gif gegen absolute angaben wie http://www.dnnportal.de/imager/logo.gif ausgetauscht.

Zum Schluss werden die Daten des sBuffer als Stream zum Client gesendet.

Klasse in der Übersicht

public class RequestFilter : Stream
{
    private Stream _sink;
    protected IPrincipal _user;
    private long _position;
    bool openTag, endTag;
    string _tempBuffer;
    public RequestFilter(Stream sink, IPrincipal user)
    {
        _sink = sink;
        _user = user;
        openTag = false;
        endTag = false;
        _tempBuffer = String.Empty;
    }
    public override bool CanRead
    {
        get
        {
            return true;
        }
    }
    public override bool CanSeek
    {
        get
        {
            return true;
        }
    }
    public override bool CanWrite
    {
        get
        {
            return true;
        }
    }
    public override long Length
    {
        get
        {
            return 0;
        }
    }
    public override long Position
    {
        get
        {
            return _position;
        }
        set
        {
            _position = value;
        }
    }
    public override long Seek(long offset, SeekOrigin origin)
    {
        return _sink.Seek(offset, origin);
    }
    public override void SetLength(long value)
    {
        _sink.SetLength(value);
    }
    public override void Close()
    {
        _sink.Close();
    }
    public override void Flush()
    {
        _sink.Flush();
    }
    public override int Read(byte[] buffer, int offset, int count)
    {
        return _sink.Read(buffer, offset, count);
    }
    public override void Write(byte[] buffer, int offset, int count)
    {
        string sBuffer = Encoding.Default.GetString(buffer, offset, count);
        sBuffer = _tempBuffer + sBuffer.Trim();
        if (buffer.Length != count)
        {
            int idx = sBuffer.LastIndexOf(">");
            _tempBuffer = sBuffer.Substring(idx + 1);
            sBuffer = sBuffer.Substring(0, idx + 1);
        }
        MatchCollection hrefMatches = Regex.Matches(sBuffer, RegexPattern.HrefPattern, RegexOptions.IgnoreCase);
        HttpContext Context = HttpContext.Current;
        if ((hrefMatches.Count > 0))
        {
            try
            {
                foreach (Match match in hrefMatches)
                {
                    string href = match.Groups[match.Groups.Count - 2].Value;
                    if (href.IndexOf(Context.Request.Headers["Host"]) > 0)
                        href = href.Substring(href.IndexOf(Context.Request.Headers["Host"]) + Context.Request.Headers["Host"].Length);
                    if (Regex.IsMatch(href, RegexPattern.AspxPattern) &&
                    !Regex.IsMatch(match.Value, RegexPattern.ImgPattern) &&
                    !Regex.IsMatch(match.Value, RegexPattern.CssPattern) &&
                    !Regex.IsMatch(match.Value, RegexPattern.ScriptPattern))
                    {
                        href = href.Replace(href, SfuUtil.ToSfuUrl(href));
                    }
                    if (!Regex.IsMatch(href, RegexPattern.HttpProtocolPattern) &&
                    !Regex.IsMatch(href, RegexPattern.MailToPattern, RegexOptions.IgnoreCase) &&
                    !Regex.IsMatch(href, RegexPattern.AnchorPattern) &&
                    !Regex.IsMatch(href, RegexPattern.JavascriptHtmlStatementPattern))
                    {
                        if (!Regex.IsMatch(href, RegexPattern.AbsolutePathPattern))
                        {
                            href = Regex.Match(Context.Request.Path, RegexPattern.CurrentPathPattern).Groups[1].Value + href;
                        }
                        sBuffer = sBuffer.Replace(match.Value, match.Value.Replace(match.Groups[match.Groups.Count - 2].Value, href));
                    }
                }
            }
            catch (Exception ex)
            {
                System.Diagnostics.Debug.WriteLine(ex.Message);
            }
        }
        byte[] bufferNew = Encoding.Default.GetBytes(sBuffer);
        _sink.Write(bufferNew, 0, bufferNew.Length);
    }
}
Schlussbemerkungen

Die in diesem Artikel beschriebenen Klassen sind nicht vollständig und somit nicht lauffähig.

Außerdem gibt es bei dieser Verarbeitung noch einige andere Aspekte die gesondert betrachtet werden müssen.

Einen kompletten lauffähigen HTTPHandler der genau auf diesem Artikel basiert kann hier herunterladen.

Für registriert Mitglieder steht hier auch der Quellcode zum Download zur Verfügung.

Für Anregungen, Kritik oder Verbesserungsvorschläge bitte einfach Kommentare hinterlassen.

Der Autor: Hans-Peter Schelian

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.