Als Beispiel dient ein spezielles Projekt, eine Applikation, die sich Einträge auf Blogs anschaut und den eigentlichen Text, die Überschrift und den Zeitstempel ausliest, so dass man sie in ein anderes CMS importieren kann. Im Folgenden werden einige der Erfahrungen mit diesem Projekt beschrieben. Die Erkenntnisse daraus sollen das nächste Mal nützlich sein, wenn HTML-Code geparst werden muss.
Zum Parsen des HTML-Codes wird das Webbrowser-Steuerelement verwendet, ein .NET-Wrapper um das Internet-Explorer-ActiveX-Steuerelement. Mit dieser Komponente erledigt der Internet Explorer die Hauptarbeit hinsichtlich Parsen der Webseite und Bereitstellen der Eigenschaften. Jetzt muss man nur noch wissen, wie man an die Informationen herankommt. Leider weist der .NET-Wrapper nicht alle erforderlichen Funktionen auf, was eine zusätzliche Herausforderung darstellt.
Das Steuerelement zu instantiieren ist leicht – dafür muss nur der Standard-Konstruktor aufgerufen werden. Die Verarbeitung wird im Hintergrund erledigt, und dem Anwender muss kein Browser gezeigt werden. Um das Steuerelement auf eine Seite zu richten, kann man entweder die URL-Eigenschaft angeben oder die Navigate-Methode aufrufen.
Hier wird die Sache knifflig: Das Steuerelement macht alles asynchron, daher blockieren diese Aufrufe nichts. Wenn man versucht, auf das Dokument zuzugreifen, ist es wahrscheinlich noch nicht fertig, und man sieht lediglich ein leeres Dokument. Doch um die Sache noch komplizierter zu machen, kann man auch nicht einfach an der ReadyState-Eigenschaft drehen – man muss einen Aufruf von Application.DoEvents in diese Schleife einfügen, sonst wird die ReadyState-Eigenschaft nie auf Complete wechseln. Hier der dafür verwendete Code:
Wenn diese Schleife beendet wird, ist das Dokument vollständig geladen und kann verwendet werden. Das Projekt muss einen Verweis auf mshtml.tlb enthalten, und der Code muss mshtml verwenden beziehungsweise importieren.
Page: 1 2
Mit dem Tool können Unternehmen KI-Agenten mithilfe synthetisch generierter Daten testen, um präzise Antworten und…
Kostengünstiger Mini-PC mit AMD Ryzen 7 5825U-Prozessor, 16 GB Arbeitsspeicher (RAM) und 512 GB SSD.
Bösartige QR-Codes, die per E-Mail versendet werden, eignen sich sehr gut, um Spam-Filter zu umgehen.
Unsichere Websites und Phishing-Mails in Verbindung mit Black Friday können kauffreudigen Konsumenten zum Verhängnis werden.
Malware SmokeLoader wird weiterhin von Bedrohungsakteuren genutzt, um Payloads über neue C2-Infrastrukturen zu verbreiten.
Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.