Format XML Sitemaps
Salt la:
definiţii etichete XML
Şir escape entitate
Utilizarea fişierelor de index Sitemap
Alte formate de Sitemap
Locaţie fişier Sitemap
Validarea Sitemap-ului dvs.
Extinderea protocolului Sitemaps
Informare motoare de căutare cu accesări prin crawler
Acest document descrie schema XML pentru protocolul de Sitemap.
Formatul protocolului de Sitemap constă în etichete XML. Toate valorile datelor dintr-un Sitemap trebuie să fie entity-escaped. Fişierul însuşi trebuie să fie codificat UTF-8.
Sitemap-ul trebuie să:
- Începeţi cu o
<urlset>
etichetă de început şi terminaţi cu o</urlset>
etichetă de sfârşit. - Specificaţi spaţiul de nume (standard protocol) în
<urlset>
etichetă. - Includeţi o intrare
<url>
pentru fiecare URL, ca o etichetă XML părinte. - Includeţi o intrare
<loc>
copil pentru fiecare<url>
etichetă părinte.
Toate celelalte etichete sunt opţionale. Asistenţa pentru aceste etichete opţionale poate varia în funcţie de motorul de căutare. Pentru detalii, consultaţi documentaţia fiecărui motor de căutare.
Mostră Sitemap XML
Următorul exemplu arată un Sitemap care conţine un singur URL şi utilizează toate etichetele opţionale. Etichetele opţionale sunt în italice.
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>
Vedeţi şi exemplul nostru cu mai multe adrese URL.
Definiţii de etichetă XML
Etichetele XML disponibile sunt descrise mai jos.
Atribut | Descriere | |
---|---|---|
<urlset>
|
necesitat |
Încadrează fişierul şi apelează standardul protocolului curent. |
<url>
|
necesitat |
Etichetă părinte pentru fiecare intrare URL. Etichetele rămase sunt copii ai acestei etichete. |
<loc>
|
necesitat |
Adresa URL a paginii. Această adresă URL trebuie să înceapă cu protocolul (cum ar fi http) şi să se termine cu un slash de final, dacă serverul dvs. Web o cere. Această valoare trebuie să aibă mai puţin de 2.048 de caractere. |
<lastmod>
|
opţional |
Data ultimei modificări a fişierului. Această dată trebuie să fie în format W3C Datetime. Acest format vă permite să omiteţi partea cu ora, dacă doriţi, sau să utilizaţi YYYY-MM-DD. Rețineți că data trebuie să fie setată la data la care pagina legată a fost modificată ultima dată, nu la data la care este generată harta site-ului. Reţineţi că această etichetă este separată de antetul If-Modified-Since (304) pe care îl poate întoarce serverul şi motoarele de căutare pot utiliza diferit informaţia din ambele surse. |
<changefreq>
|
opţional |
Cât de des este probabil să se schimbe pagina. Această valoare furnizează informaţii generale motoarelor de căutare şi este posibil să nu fie corelată exact cu frecvenţa cu care se accesează cu crawlere pagina. Valorile valide sunt:
Valoarea „întotdeauna” trebuie să fie utilizată pentru a descrie documentele care se modifică de fiecare dată când sunt accesate. Valoarea „niciodată” trebuie să fie utilizată pentru a descrie adresele URL arhivate. Reţineţi că valoarea acestei etichete este considerată sugestie, nu comandă. Deşi crawlerele motorului de căutare pot lua în considerare această informaţie când decid, ele pot accesa pagini marcate „în fiecare oră” mai rar decât atât, şi pot accesa pagini marcate „anual” mai des decât atât. Este posibil ca crawlerele să acceseze periodic pagini marcate „niciodată”, pentru a putea trata modificările neaşteptate ale celorlalte pagini. |
<priority>
|
opţional |
Prioritatea acestei adrese URL în comparaţie cu alte adrese URL de pe site-ul dvs. Valorile corecte variază între 0,0 şi 1,0. Această valoare nu afectează modul în care sunt comparate paginile dvs. cu alte pagini din alte site-uri—ci doar anunţă motoarele de căutare care dintre pagini consideraţi că sunt cele mai importante pentru crawlere. Prioritatea implicită a unei pagini este 0,5. A se remarca faptul că prioritatea pe care o atribuiţi unei pagini nu este probabil să influenţeze poziţia adresi dvs. URL în paginile de rezultat ale unui motor de căutare. Motoarele de căutare ar putea utiliza această informaţie când selectează între adresele URL de pe acelaşi site, astfel încât puteţi utiliza această etichetă pentru a creşte probabilitatea faptului că cele mai importante pagini ale dvs. sunt prezente într-un index de căutare. De asemenea, trebuie remarcat faptul că repartizarea unei priorităţi mari tuturor adreselor URL de pe site-ul dvs. nu vă va ajuta prea mult. Deoarece prioritatea este relativă, se utilizează doar pentru a selecta între adresele URL de pe site-ul dvs. |
Şir escape entitate
Fişierul dvs. Sitemap trebuie să fie codificat UTF-8 (în general, puteţi face asta atunci când salvaţi fişierul). Ca la toate fişierele XML, orice valori ale datelor (inclusiv adrese URL) trebuie să utilizeze coduri de ieşire entitate pentru caracterele listate în tabelul de mai jos.
Caracter | Cod de ieşire | |
---|---|---|
Ampersand | & |
&
|
Ghilimea simplă | ' |
'
|
Citat Dublu | " |
"
|
Mai mare de | > |
>
|
Mai puţin de | < |
<
|
În plus, toate adresele URL (inclusiv adresa URL a Sitemap-ului dvs.) trebuie să conţină şiruri de escape adrese URL şi codificate pentru a fi citite de serverul Web pe care sunt localizate. Cu toate acestea, dacă utilizaţi orice fel de script, instrument sau fişier jurnal pentru a genera adresele dvs. URL. (orice altceva, cu excepţia tastării lor manual), aceasta este, de obicei, deja făcută pentru dvs. Asiguraţi-vă că adresele URL sunt conforme standardului pentru URI-uri RFC-3986, standardului pentru IRI-uriRFC-3987 precum şi standardului XML.
Mai jos veţi găsi un exemplu de URL care utilizează un caracter non-ASCII (ü
),
precum şi un caracter care necesită şir de escape entitate (&
):
http://www.exemplu.ro/ümlat.html&q=name
Mai jos este acelaşi URL, codificat ISO-8859-1 (pentru găzduirea pe un server care utilizează acea codificare) cu şir de escape URL:
http://www.exemplu.ro/%FCmlat.html&q=name
Mai jos este acelaşi URL, codificat UTF-8 (pentru găzduirea pe un server care utilizează acea codificare) şi cu şir de escape URL:
http://www.exemplu.ro/%C3%BCmlat.html&q=nume
Mai jos este acelaşi URL dar acum este şi şir de escape entitate:
http://www.exemplu.ro/%C3%BCmlat.html&q=nume
Sitemap XML mostră
Următorul exemplu arată un Sitemap în format XML. Sitemap-ul din exemplu conţine un număr mic de adrese URL, fiecare folosind un set diferit de parametri opţionali.
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc> <lastmod>2004-12-23</lastmod> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=74&desc=vacation_newfoundland</loc> <lastmod>2004-12-23T18:00:15+00:00</lastmod> <priority>0.3</priority> </url> <url> <loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc> <lastmod>2004-11-23</lastmod> </url> </urlset>
Utilizarea fişierelor index Sitemap (pentru a grupa fişiere sitemap multiple)
Puteţi furniza fişiere Sitemap multiple, dar niciun fişier Sitemap furnizat nu trebuie să aibă mai mult de 50.000 de adrese URL şi nu trebuie să fie mai mare de 50 MO (52,428,800 octeţi). Dacă doriţi, puteţi comprima fişierele dvs. Sitemap utilizând gzip pentru a nu depăşi limita de 50 MO şi pentru a reduce lăţimea de bandă necesară. Dacă doriţi să listaţi peste 50.000 de adrese URL, trebuie să creaţi fişiere Sitemap multiple.
Dacă furnizaţi mai multe Sitemaps, trebuie să listaţi apoi fiecare fişier Sitemap într-un fişier index Sitemap. Fişierele index Sitemap nu listează mai mult de 50.000 de Sitemaps şi trebuie să nu fie mai mari de 50 MO (52,428,800 octeţi). Formatul XML al unui fişier de index Sitemap este foarte similar cu formatul XML al unui fişier Sitemap.
Fişierul index Sitemap trebuie să:
- Începeţi cu o etichetă de deschidere
<sitemapindex>
şi terminaţi cu o etichetă de închidere</sitemapindex>
. - Includeţi o intrare
<sitemap>
pentru fiecare Sitemap ca o etichetă XML părinte. - Includeţi
<loc>
o intrare copil pentru fiecare<sitemap>
etichetă părinte.
Eticheta opţională <lastmod>
este, de asemenea, disponibilă pentru fişiere index Sitemap.
Notă: Un fişier index Sitemap poate specifica doar Sitemap-urile care se găsesc în acelaşi site ca şi fişierul index Sitemap. De exemplu, http://www.siteulmeu.ro/sitemap_index.xml poate include Sitemaps în http://www.siteulmeu.ro, dar nu şi în http://www.exemplu.ro sau în http://gazdamea.siteulmeu.ro. Precum Sitemaps, fişierul dvs. index Sitemap trebuie să fie codificat UTF-8.
Mostră Index Sitemap XML
În exemplul următor este prezentat un index Sitemap care listează două Sitemaps:
<?xml version="1.0" encoding="UTF-8"?> < sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <loc>http://www.example.com/sitemap1.xml.gz</loc> <lastmod>2004-10-01T18:23:17+00:00</lastmod> </sitemap> <sitemap> <loc>http://www.example.com/sitemap2.xml.gz</loc> <lastmod>2005-01-01</lastmod> </sitemap> </sitemapindex>
Notă: Adresele URL de Sitemap, ca toate valorile din fişierele dvs. XML, trebuie să conţină un şir escape entitate.
Index Sitemap Etichete XML de Definiţii
Atribut | Descriere | |
---|---|---|
<sitemapindex>
|
necesitat | Încadrează informaţii despre toate Sitemaps din fişier. |
<sitemap>
|
necesitat | Rezumă informaţii despre un anumit Sitemap. |
<loc>
|
necesitat |
Identifică locaţia Sitemap-ului. Această locaţie poate fi un Sitemap, un fişier Atom, fişier RSS sau un simplu fişier text. |
<lastmod>
|
opţional |
Identifică ora la care a fost modificat fişierul Sitemap corespondent. Nu corespunde orei la care au fost modificate paginile listate în acel Sitemap. Valoarea etichetei lastmod trebuie să fie în format Datăoră W3C. Furnizând marcajul de timp al ultimei modificări, daţi posibilitatea crawlerelor motoarelor de căutare să regăsească doar un subset de Sitemap-uri în index, adică un crawler poate regăsi doar Sitemap-urile care au fost modificate începând cu o anumită dată. Acest mecanism incremental de căutare a Sitemap-urilor permite găsirea rapidă a adreselor URL noi pe site-urile foarte mari. |
Alte formate de Sitemap
Protocolul Sitemap-ului vă permite să furnizaţi motoarelor de căutare detalii despre paginile dvs., iar noi încurajăm utilizarea lui, de vreme ce puteţi furniza informaţii suplimentare despre paginile site-ului pe lângă adresele URL. Totuşi, pe lângă protocolul XML, acceptăm alimentări RSS şi fişiere text, care furnizează informaţii mai limitate.
Alimentare
Puteţi furniza o alimentare RSS (Real Simple Syndication) 2.0 sau Atom 0.3 sau 1.0. În general, aţi utiliza acest format numai dacă site-ul dvs. are deja o alimentare. Reţineţi că această metodă ar putea să nu permită motoarelor de căutare să afle toate adresele URL din site-ul dvs., de vreme ce alimentarea poate furniza numai informaţii despre adresele URL recente, deşi motoarele de căutare pot totuşi să utilizeze acele informaţii pentru a afla alte pagini de pe site-ul dvs. în timpul proceselor lor normale de accesare urmând linkurile din paginile alimentării. Asiguraţi-vă că alimentarea este localizată în directorul de la nivelul cel mai înalt pe care doriţi să-l acceseze cu crawlere motoarele de căutare. Motoarele de căutare extrag informaţiile din alimentare după cum urmează:
- Câmpul <link> - indică adresa URL
- câmpul datei modificării (câmpul <pubDate> pentru alimentările RSS şi data <updated> pentru alimentările Atom) - indică data la care a fost operată ultima modificare pentru fiecare adresă URL. Utilizarea câmpului datei modificării este opţională.
Fişier text
Puteţi furniza un fişier text simplu care să conţină o singură adresă URL pe linie. Fişierul text trebuie să respecte aceste reguli:
- Fişierul text trebuie să aibă o singură adresă URL pe linie: Adresele URL nu pot conţine noi linii înglobate.
- Trebuie să precizaţi adresele URL complete, inclusiv protocolul http.
- Fiecare fişier text poate să conţină maximum 50.000 de adrese URL. Dacă site-ul dvs. include peste 50.000 de adrese URL, puteţi separa lista în mai multe fişiere text şi le puteţi adăuga pe fiecare separat.
- Fişierul text trebuie să utilizeze codificarea UTF-8. Puteţi specifica aceasta când salvaţi fişierul (de exemplu, în Notepad, aceasta este listată în meniul de Codificare al casetei de dialog Salvare ca).
- Fişierul text nu trebuie să conţină nicio altă informaţie decât lista de adrese URL.
- Fişierul text nu trebuie să conţină nicio informaţie de antet sau de subsol.
- Puteţi denumi fişierul oricum doriţi.
- Trebuie să încărcaţi fişierul text în directorul de la cel mai înalt nivel la care doriţi să acceseze cu crawlere motoarele de căutare şi să vă asiguraţi că nu listaţi în fişierul text adrese URL care sunt localizate într-un director la un nivel superior.
Intrările fişierului text mostră sunt afişate mai jos.
http://www.exemplu.ro/catalog?item=1
http://www.exemplu.ro/catalog?item=11
Locaţie fişier Sitemap
Locaţia unui fişier Sitemap determină setul de adrese URL care poate fi inclus în acel Sitemap. Un fişier Sitemap localizat la http://exemplu.ro/catalog/sitemap.xml poate include oricare adresă URL care începe cu http://exemplu.ro/catalog/, dar nu poate include adrese URL care încep cu http://exemplu.ro/imagini/.
Dacă aveţi permisiunea să schimbaţi http://examplu.org/path/sitemap.xml, se presupune că aveţi şi permisiunea să furnizaţi informaţii pentru adresele URL cu prefixul http://exemplu.org/path/. Exemple de adrese URL considerate valide în http://exemplu.ro/catalog/sitemap.xml includ:
http://example.com/catalog/show?item=23 http://example.com/catalog/show?item=233&user=3453
Adresele URL considerate invalide în http://exemplu.ro/catalog/sitemap.xml includ:
http://example.com/image/show?item=23 http://example.com/image/show?item=233&user=3453 https://example.com/catalog/page1.html
De remarcat că aceasta înseamnă că toate adresele URL listate în Sitemap trebuie să utilizeze acelaşi protocol (http, în acest exemplu) şi să aibă aceeaşi gazdă ca şi Sitemap-ul. De exemplu, dacă Sitemap-ul este localizat la http://www.exemplu.ro/sitemap.xml, poate include adrese URL din http://subdomeniu.exemplu.ro.
Adresele URL care nu sunt considerate valide sunt retrase din consideraţii ulterioare. Se recomandă să vă plasaţi Sitemap-ul la directorul rădăcină al serverului dvs. de Web. De exemplu, dacă serverul dvs. de Web este la exemplu.ro, atunci fişierul de indexare al Sitemap-ului dvs. va fi la http://exemplu.ro/sitemap.xml. În anumite cazuri, e posibil să aveţi nevoie să produceţi diferite Sitemap-uri pentru diferite căi (de exemplu, dacă permisiunile de securitate din organizaţia dvs. compartimentează accesul la scriere pentru diferite directoare).
Dacă trimiteţi un Sitemap utilizând o cale cu un număr de port, trebuie să includeţi acel număr de port ca parte din cale în fiecare URL listat în fişierul Sitemap. De exemplu, dacă Sitemap-ul dvs. este localizat la http://www.exemplu.ro:100/sitemap.xml, atunci fiecare URL listat în Sitemap trebuie să înceapă cu http://www.exemplu.ro:100.
Validarea Sitemap-ului dvs.
Următoarele scheme XML definesc elementele şi atributele care pot apărea în fişierul dvs. Sitemap. Puteţi descărca această schemă din link-urile de mai jos:
Pentru Sitemap-uri:
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd
Pentru fişierele index Sitemap:
http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd
Există un număr de instrumente disponibile pentru a vă ajuta să validaţi structura
Sitemap-ului dvs. pe baza acestei scheme. Puteţi găsi o listă cu instrumente referitoare
la XML la fiecare dintre locaţiile următoare:
http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html
Pentru a valida Sitemap-ul dvs. sau fişierul index Sitemap pe baza unei scheme, fişierul XML va avea nevoie de antete suplimentare, după cum se arată mai jos.
Sitemap:
<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> ... </url> </urlset>
Fişier index Sitemap:
<?xml version='1.0' encoding='UTF-8'?> <sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> ... </sitemap> </sitemapindex>
Extinderea protocolului de Sitemap-uri
Puteţi extinde protocolul Sitemaps utilizând propriul spaţiu de nume. Doar specificaţi acest spaţiu de nume în elementul rădăcină. De exemplu:
<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:example="http://www.example.com/schemas/example_schema"> <!-- namespace extension --> <url> <example:example_tag> ... </example:example_tag> ... </url> </urlset>
Informare motoare de căutare cu accesări prin crawler
Odată ce aţi creat fişierul Sitemap şi l-aţi plasat pe serverul dvs. Web, trebuie să informaţi motoarele de căutare care acceptă acest protocol despre locaţia lui. Puteţi face aceasta prin:
- trimiterea sa spre ele prin intermediul interfeţei de trimitere a motorului de căutare
- specificarea locaţiei în fişierul robots.txt al site-ului dvs.
- trimiterea unei solicitări HTTP
Motoarele de căutare pot apoi regăsi Sitemap-ul dvs. şi pot face adresele URL disponibile pentru crawlerele lor.
Trimiterea Sitemap-ului prin intermediul
interfeţei de trimitere a motorului de căutare
Pentru a trimite Sitemap-ul direct la un motor de căutare, care vă va permite să primiţi informaţii de stare şi orice erori de procesare, consultaţi documentaţia fiecărui motor de căutare.
Specificaţi locaţia Sitemap-ului
în fişierul dvs. robots.txt.
Puteţi specifica locaţia pentru Sitemap utilizând un fişier robots.txt. Pentru a face aceasta, pur şi simplu adăugaţi următoarea linie:
Sitemap: http://www.example.com/sitemap.xml
Această directivă este independentă de linia user-agent, astfel încât nu contează unde o plasaţi în fişierul dvs. Dacă aveţi un fişier index Sitemap, puteţi include doar locaţia acelui fişier. Nu este necesar să listaţi fiecare Sitemap individual din fişierul index.
Trimiterea Sitemap-ului printr-o solicitare
HTTP
Pentru a trimite Sitemap-ul utilizând o solicitare HTTP (înlocuiţi <searchengine_URL> cu adresa URL furnizată de motorul de căutare), trimiteţi solicitarea dvs. spre următoarea adresă URL:
<searchengine_URL>/ping?sitemap=sitemap_url
De exemplu, dacă Sitemap-ul dvs. este localizat la http://www.exemplu.ro/sitemap.gz, adresa URL va deveni:
<searchengine_URL>/ping?sitemap=http://www.exemplu.ro/sitemap.gz
Codificaţi complet adresa URL după /ping?sitemap=:
<searchengine_URL>/ping?sitemap=http%3A%2F%2Fwww.yoursite.com%2Fsitemap.gz
Puteţi emite solicitarea HTTP utilizând wget, curl sau un alt mecanism la alegere.
O solicitare reuşită va returna un cod de răspuns HTTP 200; dacă primiţi un răspuns
diferit, trebuie să retrimiteţi solicitarea. Codul de răspuns HTTP 200 indică doar
faptul că motorul de căutare a primit Sitemap-ul dvs., nu faptul că Sitemap-ul sau
adresa URL cuprinsă în el sunt valide. O metodă facilă de a face aceasta este să
configuraţi un serviciu automat pentru generarea şi trimiterea Sitemap-urilor în
mod regulat.
Notă: Dacă furnizaţi un fişier index Sitemap, nu trebuie să emiteţi
decât o singură solicitare HTTP care să includă locaţia fişierului index Sitemap;
nu este necesar să emiteţi solicitări individuale pentru fiecare Sitemap listat
în index.
Excluderea conţinutului
Protocolul Sitemaps vă permite să anunţaţi motoarele de căutare ce conţinut aţi dori să fie indexat. Pentru a indica motoarelor de căutare ce conţinut nu doriţi să fie indexat, utilizaţi un fişier robots.txt sau meta-eticheta robots.txt. Consultaţi robotstxt.org pentru mai multe informaţii despre cum să excludeţi conţinut din motoarele de căutare.
Ultima Actualizare: 21 noiembrie 2016