jsoup: Java HTML Sındırıcı - Semalt İcmalı

jsoup - HTML-i icra edən Java depo. Lazımi DOM, CSS və jquery kimi metodlardan istifadə edərək məlumatları toplayan, təhlil edən və idarə edən səmərəli və effektiv bir API ilə təchiz edilmişdir.

Jsoup proqramçıları və veb dizaynerləri ilə mənbə sənədlərinin quruluşunu pozmadan veb mənbə sənədlərindən sənədlər hazırlaya bilərsiniz. Faylları götürdükdən sonra jsoup istifadəçiləri elementləri və ya məzmunu və ya hər ikisini əlavə və ya dəyişdirərək bütün quruluş elementlərini və ya element komponentlərini yenidən qura və ya yenidən düzəldə bilərlər.

Alət geniş veb mühiti və tətbiqləri daxilində istifadəçilərə çevik və standart bir proqramlaşdırma interfeysi təmin etmək üçün geniş çeviklik ilə qurulmuşdur. Bu, istifadəçiyə derivasiyasına komponentləri dəyişdirmək, silmək və ya əlavə etmək üçün lazımlı girişi təmin edir.

jsoup digər formatlara asan tərcümə üçün məlumatları daha kiçik hissələrə ayıra və parçalaya bilər. Giriş məlumatları, toplama və ya törəmə ağacına qurulmuş bir təlimat kodundan ibarət bir alqoritmik irəliləyiş şəklində minalanır. HTML komponentlərini anlamaq və birləşdirmək üçün qurulmuşdur ki, kodlaşdırma quruluşundan asılı olaraq belə rahatlıq ilə fayl tərkiblərini geri ala bilsin. Bunu necə edir? Məlumatlar əldə etmək üçün giriş və nümunə üçün bütün veb səhifəni tarar və cırır. Məlumatların çıxarılması mümkündürsə, davam edəcək:

Hər bir məlumat komponentini nəzərə alaraq analiz ağacını ən yüksək səviyyədən konfiqurasiya quruluşu ilə ən aşağı səviyyəyə qədər naviqasiya və təhlil etmək. Bu yanaşma yuxarıdan aşağıya analiz metodu adlanır.

Quruluşun ən aşağı səviyyəsindən məlumatları parçalayaraq , hər bir məlumat komponentini təhlil edərək ara kompozisiyalardan parça və ya törəmə ağacının yuxarısına qədər.

jsoup, qabaqcıl dizaynı səbəbindən split saniyələr ərzində çoxlu sayda mürəkkəb əməliyyatlardan keçən təsirli bir həlldir. Proses ümumiyyətlə üç əsas mərhələdən ibarət ardıcıllığı əhatə edir:

1. Çıxarılan simvol və məlumatların daha sadə paketlərə bölünməsi və yaratmaq üçün xarakter və məlumatların bu bitkilərinin təhlili.

2. Məlumat elementlərini üstünlük qaydasında yerləşdirmək iqtidarında olan və istehsal etmək üçün istifadə edilə bilən maşın dili ilə oxunan və tərtib edilə bilən bir şərh

3. Lazımi konfiqurasiya, dəyər və istifadəçi üçün uyğun olan məlumat parçaları təşkil edən elektron ifadələr.

jsoup uyğun gəlir və WhatWG HTML5 tələbləri daxil olmaqla HTML yazıları, dil interfeysi, proqramları və sənəd tərzinin geniş bir quruluşunu icra edə bilir. Onlar HTML strukturlarını, World Wide Web-də məlumatların və məlumat qaynaqlarının çıxarılması, naviqasiyası və təqdim edilməsi üçün istifadə olunan veb proqram tətbiqetmələri ilə eyni sənəd obyekti ilə eyni dərəcədə həll edə bilirlər.

jsoupun bacarığı var:

  • bir URL, fayl və ya sətirdən HTML-ni qırın və təhlil edin
  • DOM yolverilməz və ya CSS seçicilərindən istifadə edərək məlumatları tapın və çıxarın
  • HTML elementlərini, atributlarını və mətnini artırın
  • XSS hücumlarının qarşısını almaq üçün istifadəçi tərəfindən təqdim edilmiş məzmunu etibarlı ağ siyahıya silmək
  • səliqəli HTML çatdırın

Proqram, konfiqurasiyasından asılı olmayaraq, HTML-nin hər növünü həll etmək üçün qurulmuşdur: təmiz və doğrulanan, etibarsız etiket şorbasına qədər: jsoup istədiyiniz analiz quruluşunu yaradacaqdır.

mass gmail