Ankündigung

Einklappen
Keine Ankündigung bisher.

Probleme mit Suchindex von Contao

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Probleme mit Suchindex von Contao

    In meiner Eclipse/CC Installation ist beim Aufbau des Contao Suchindex irgendwie der Wurm drin.
    Ich habe hier einige Listenmodule in der Installation und beim Aufbau des Suchindex wird hier jede Detail-URL aus jedem Listenmodul separat indexiert. Im konkreten Fall sind das 24 x 3330 Entries....

    Dabei hängt sich der Browser teilweise auf.

    Dabei ist es merkwürdig, dass nach dem Durchlaufen eine [0] for dem indexierten Eintrag steht...
    [0] http://www.testseite.de/motorradhote...eutschland.htm
    heißt das, dass der Eintrag nicht indexiert wurde?

    Kann man das hier irgendwie entschlacken/beschleunigen?
    Werden beim indexieren eigentlich alle Felder des CC mit berücksichtigt?

  • #2
    Klingt alles korrekt. CC muss davon ausgehen, das du mit jedem Liste Modul etwas anders indexieren willst. Nachrichtenlisten ticken genauso. CC macht hier genau das gleiche wie die Nachrichtenlisten - hab mir das von Leo abgeschaut

    * Dabei hängt sich der Browser teilweise auf.
    - Aber nur teilweise. Das dauert lange, ja. Ein frisch aufgesetztes Betriebssystem indexiert seine Suche ebenfalls ewig.

    Hier hat man direkten Einfluss über den getSearchablePages Hook.
    Zuletzt geändert von Tim; 15.03.2017, 13:52.
    http://www.premium-contao-themes.com

    Kommentar


    • #3
      Zitat von Tim Beitrag anzeigen
      Hier hat man direkten Einfluss über den getSearchablePages Hook.
      ... wenn man dazu in der Lage ist...

      Nochmals die Frage zu den Feldern.
      Diese sollten doch alle beim Indexieren berücksichtigt werden (also alles, was auf der Leser-Seite ausgegeben wird) oder?

      Kommentar


      • #4
        Zitat von eblick Beitrag anzeigen

        ... wenn man dazu in der Lage ist...

        Nochmals die Frage zu den Feldern.
        Diese sollten doch alle beim Indexieren berücksichtigt werden (also alles, was auf der Leser-Seite ausgegeben wird) oder?
        Ich muss gestehen, das weiss ich nicht. Contao verlangt für seinen Suchindex erstmal nur die Url. Was genau da wie abgerödelt wird, keine Ahnung. Da kann ja im Grunde neben CC alles mögliche liegen. Wiederum News, normale Inhaltselemente usw. usw.
        Ich denke Contao grabtscht sich alles aus den Templates, was nicht in indexer stop usw. steht.
        Ich nehme einfach mal an da wird der Quelltext ausgelesen, daher auch die Möglichkeit den Suchindex unter der Verwendung eines FE-Mitglieds zu starten. Aus dem Quelltext wird das Html ausradiert und dann bei einer Suche einfach nach Treffern in dem Haufen Text gesucht.

        ---> Ein Blick in die tl_search Tabelle bestätigt es eigentlich. Das ist Quellcode zu Reintext "gergxt".

        Ich ergänze hier noch, dass das "Nicht durchsuchen" Feld in den Seiteneinstellungen respektiert wird. Damit kann man Detailseiten aussschließen von der Indexierung.
        Zuletzt geändert von Tim; 15.03.2017, 14:27.
        http://www.premium-contao-themes.com

        Kommentar


        • #5
          Wäre das nicht auf Modulebene möglich/besser?
          Eine Detailseite sollte ja indexiert werden, nur nicht 24x dieselbe?

          Kommentar


          • #6
            Zitat von eblick Beitrag anzeigen
            Wäre das nicht auf Modulebene möglich/besser?
            Eine Detailseite sollte ja indexiert werden, nur nicht 24x dieselbe?
            Sicher, kann man auch so rum sehen, aber das sollte dann eher Contao stellen nicht CC. Für diese Funktion würde ich durch CC nicht Contao tl_module Tabelle durch ein neues Feld erweitern.
            http://www.premium-contao-themes.com

            Kommentar


            • #7
              Beim Indexieren läuft hier allerdings immer noch (oder wieder) etwas krumm.
              Gegeben ist hier eine Multidomain Installation. Während die erste Domain hier problemlos durchläuft, ist bei der zweiten der Link fehlerhaft. Siehe hier einen Auszug:

              https://www.testseite1.de/motorradho...utschland.html

              https://www.testseite1.de/motorradhotel/hotel-du-grand-pre-marly-schweiz.html
              https://www.testseite1.de/motorradhotel/hotel-frankfurt-maintal-maintal-doernigheim.html
              http://testseite2.com/http://testseite2.com/hotel/hotel-mosser-villach-oesterreich.html
              http://testseite2.com/http://testseite2.com/hotel/kunsthotel-fuchspalast-st-veit-oesterreich.h …
              http://testseite2.com/http://testseite2.com/hotel/romantik-hotel-post-villach-oesterreich.html
              http://testseite2.com/http://testseite2.com/hotel/hotel-restaurant-alpenhof-uebersee-deutschla …

              Entsprechend sehen die Ergebnisse in der Sitemap.xml aus.

              Bei der testseite2-Domain wird hier die Base dupliziert.

              Nachtrag:
              Dasselbe Phänomen habe ich nun in einer weiteren Multidomain-Installation entdeckt. Auch hier wird die erste Root korrekt indexiert und bei der zweiten die Base dupliziert.


              Dies betrifft im Übrigen nur die Leser/Listenseiten. Bei den regulären Seiten erscheint hier diese Darstellung:

              [0] http://testseite2.com/
              [0] http://testseite2.com/hotel.html
              [0] http://testseite2.com/impressum.html

              In einer früheren CC Version war das Problem noch, dass die Base in der Sitemap komplett gefehlt hat.



              Ich ergänze hier noch, dass das "Nicht durchsuchen" Feld in den Seiteneinstellungen respektiert wird. Damit kann man Detailseiten aussschließen von der Indexierung.
              Ist dies bereits umgesetzt? Ich habe hier testweise alle Seiten auf "Nicht durchsuchen" gesetzt, aber es wurde trotzdem versucht zu indexieren.
              Zuletzt geändert von eblick; 17.04.2017, 13:00.

              Kommentar


              • #8
                Dopplungen sind sehr seltsam. Ich denke es liegt daran, dass hier jetzt sowohl die Domain aus der Wurzelseite abgegriffen wird, als auch CC selbst den Detaillink generiert und dieser natürlich jetzt auch eine Domain fährt.
                ---
                -> Ja, das ist es. Ist notiert.

                ---
                Nicht durchsuchen ist bereits implementiert. Es muss natürlich die Weiterleitungsseite sein. Andere Seiten sind hier irrelevant.
                Zuletzt geändert von Tim; 18.04.2017, 07:39.
                http://www.premium-contao-themes.com

                Kommentar


                • #9
                  Hallo Tim,

                  ich muss das Thema noch mal auf die Tagesordnung bringen, da die Sitemaps in allen Installationen nach wie vor für die Kunden nicht befriedigend ist.
                  Diese beanstanden regelmäßig, dass in der Google Search Console nur einen kleinen Teil der eingereichten URLs indexiert wird.
                  Wenn man sich die Sitemap ansieht, dann ist das auch nachvollziehbar.
                  Hier werden aus allen CC-Listenmodulen, die auf dieselbe Detailseite zielen, URLs generiert. In einem Fall habe ich 8 x dieselben URLS in der Sitemap -> Folge 500 eingereichte URLS und nur etwa 40 von Google indexiert.
                  Ich habe es auch mal mit dem "achtung böses Wort" Metamodels verglichen. Hier tritt dieses Phänomen nicht auf.

                  Ich habe auch versucht mit indexer::stop im mod_customcatalog Template zu arbeiten, aber das ändert nichts.
                  <!-- indexer::stop -->
                  <?php echo $this->customcatalog; ?>
                  <!-- indexer::continue -->

                  Es sollte doch irgendeine praktikable Lösung geben, diese Dubletten auszuschließen?!

                  Kommentar


                  • #10
                    Multidomain sollte keine Probleme darstellen. Es muss die Domain in der Root-Seite angegeben sein.

                    Indexer bezieht sich nur auf die Contao Suchmaschine.

                    Bereiche ausschließen kann über Nicht durchsuchen geschehen. Dies muss natürlich auf die entsprechende Leser/Weiterleitungsseite Seite angewendet werden (siehe Betrag vorab).

                    -> Welche Art von Duplikaten ist gemeint?
                    http://www.premium-contao-themes.com

                    Kommentar


                    • #11
                      Ich schicke dir mal die Sitemap als PN.

                      Wie gesagt: Es gibt mehrere CC-Listenmodule -> aller haben dieselbe Leser-Seite als Weiterleitungsseite.
                      Dadurch werden in der Sitemap die URLs mehrfach gelistet (aus jedem Listenmodul).

                      Kommentar


                      • #12
                        Das klingt generell richtig. Man könnte halt noch eine Art array_unique ergänzen.
                        Ich muss ja auch immer etwas mit Contao selbst vergleichen. Die News würden bei diesem Aufbau aber auch Duplikate erstellen, denke ich. Dort ist ebenfalls keine "unique" Prüfung vorgesehen.

                        ---

                        Passt die Multidomain?
                        Zuletzt geändert von Tim; 25.09.2017, 08:31.
                        http://www.premium-contao-themes.com

                        Kommentar


                        • #13
                          Bei den News wird die Weiterleitungsseite 1-malig im Archiv angegeben. Da spielt es dann keine Rolle, wenn mehrere Listenmodule vorhanden sind.
                          Der Sitemap Eintrag der Newsreader-Urls erfolgt nur einmal.

                          Die Multidomain-Sache läuft aktuell rund!

                          Kommentar


                          • #14
                            Das Problem ist, dass für mehrere autarke Listen identische Leser-Seiten genutzt werden.
                            Mal ehrlich gefragt, warum sollte der CC Kern dies abfangen? Der Aufbau ist ja nicht verboten - sowas gibt's nicht - aber ist er korrekt im eigentlichen Sinne
                            Contao selbst bietet hier per Hook (getSearchablePages) direkten Einfluss auf die Inhalte des Indexes. Eine Erw., die nach CC getriggert wird, erlaubt einen direkten array_unique.

                            Man könnte genauso fragen. Warum macht Contao ganz am Ende keine unique Prüfung, wenn alle Urls vorhanden sind. Contao überlässt es ebenfalls dem jeweiligen Projekt.

                            Ich bin hier zwie-gesplaten. 1. Klar, ich verstehe die Aufgabe und das Problem. 2. Sehe ich den Lösungsweg eher in einer externen Erw.
                            Zuletzt geändert von Tim; 25.09.2017, 09:06.
                            http://www.premium-contao-themes.com

                            Kommentar


                            • #15
                              Ich verstehe deine Zwiegespaltenheit ;-)

                              Dass es für autarke Listen identische Leser-Seiten gibt, sehe nicht als Problem sondern als gängige Notwendigkeit.

                              In einem Shop-/Katalogsystem gibt es diverse Einstiege für den Besucher, zum individuellen Produkt zu kommen.
                              Beispiel:
                              Die Startseite enthält eine Liste mit den Top-Angeboten.
                              Es gibt Kategorien Seiten (z.B. über Seitenauswahlfilter mit einer Liste).
                              Es gibt Verwandte Produkte Seiten.
                              Es gibt Warenkorb-Listen.
                              Es gibt Sonderangebotsseiten, Deal der Woche, "für den Mann", "für die Frau" uswusw...

                              Es wäre ja unsinnig, für jede dieser Seiten/Listen eine individuelle Leser-Seite zu erstellen.

                              Ich sehe den Lösungsweg eher bei CC direkt.

                              Auch auf die Gefahr gelyncht zu werden... bei Isotope oder Metammmmm... ist das gelöst.

                              Kommentar

                              Lädt...
                              X