sitemap 的設定問題
主要是碰到如果我有 http 跟 https 兩種版本,該怎麼做。因為大陸有些還尚未支援 https, 因此在 google 就送 https, 大陸那邊就給 http。
以下是 sitemaps.org 提供問題及解答
如同所有的 XML 檔案一樣,下列字元的任何資料值 (包括 URL),都必須使用實體逸出碼:AND 符號 (&)、單引號 (')、雙引號 (")、小於 (<) 以及大於 (>)。同時您也應該確認所有的 URL 都遵循 RFC-3986 URI 標準、RFC-3987 IRI 標準,以及 XML 標準。如果您使用指令碼來產生 URL,通常可以在該指令碼中加入 URL 逸出的指令。您還是必須將它們實體逸出。例如,以下 python 指令碼會將實體逸出 http://www.example.com/view?widget=3&count>2
$ python Python 2.2.2 (#1, Feb 24 2003, 19:13:11) >>> import xml.sax.saxutils >>> xml.sax.saxutils.escape("http://www.example.com/view?widget=3&count>2")
上述範例的結果 URL 為:
http://www.example.com/view?widget=3&count>2
是的。您的 Sitemap 檔案必須使用 UTF-8 編碼。
此通訊協定中的 lastmod 時間戳記以及其他日期與時間,請使用 W3C 日期時間編碼。例如,2004-09-22T14:12:14+00:00。
此編碼允許您略過 ISO8601 格式中時間的部分,例如,2004-09-22 也是有效的。不過,如果您的網站經常變更,建議您將時間部分包含在內,以便讓搜尋器得到更多關於您網站的完整資訊。
對靜態檔案而言,這是指實際的檔案更新日期。您可以使用 UNIX 的 date 指令來取得這個日期:
$ date --iso-8601=seconds -u -r /home/foo/www/bar.html >> 2004-10-26T08:56:39+00:00
對於大部分的動態 URL,您或許可以根據基本資料何時變更,或者根據定期的更新大概日期 (若適用的話),來輕易地推斷出 lastmod 日期。您甚至可以使用大約的日期或時間戳記,以避免搜尋器檢索尚未變更的 URL。這樣可以降低您網頁伺服器對頻寬和 CPU 的需求。
我們強烈建議您將 Sitemap 放在您 HTML 伺服器的根目錄中,也就是位於 http://example.com/sitemap.xml。
在某些情況下,您可能想要針對您網站上不同的路徑來產生不同的 Sitemap,例如,當您組織的安全性權限會針對不同目錄劃分不同的使用權限時。
我們假定您有權限上載 http://example.com/path/sitemap.xml,則您也有報告 http://example.com/path/ 下之中繼資料的權限。
列在 Sitemap 中的所有 URL 必須和 Sitemap 位於同一個主機。例如,如果 Sitemap 位於 http://www.example.com/sitemap.xml,就不可包含來自 http://subdomain.example.com 的 URL。如果 Sitemap 位於 http://www.example.com/myfolder/sitemap.xml,就不可包含來自 http://www.example.com 的 URL。
Sitemaps 不得大於 50MB (52,428,800 位元組),且最多能包含 50,000 個 URL。這些限制是為了確保您的網頁伺服器不會因為傳送的檔案過大而當機。表示如果您的網站包含 50,000 個以上的 URL,或您的 Sitemap 大於 50MB,,您必須建立多個 Sitemap 檔案,並且使用 Sitemap 索引檔。即使您擁有的是一個小型網站,但如果您計劃將網站成長至含 50,000 個 URL 或 50MB. 大小的檔案的規模,則仍應使用 Sitemap 索引檔。Sitemap 索引檔至多可包含 50,000 個 Sitemap,且不可超過 50MB (52,428,800 位元組)。您也可以使用 gzip 來壓縮您的 Sitemap。
您可以將經常更新的 URL 列在少數的 Sitemap 中,然後在您的 Sitemap 索引檔中使用 lastmod 標記來辨識這些 Sitemap 檔案。這樣一來搜尋引擎只會額外檢索已變更的 Sitemap。
Once you have created your Sitemap, let search engines know about it by submitting directly to them, pinging them, or adding the Sitemap location to your robots.txt file.
是的。您需要在 URL 中加入通訊協定 (例如 http)。如果您的網頁伺服器有要求尾端斜線的話,您也必須在 URL 的尾端加入斜線。例如,http://www.example.com/ 對於 Sitemap 而言是有效的 URL,而 www.example.com 則不是。
不是,請列出您 Sitemaps 中的一種 URL 版本即可。包含多個版本的 URL,可能會讓搜尋器無法完整檢索您的網站。
是的。在 URL 中包含工作階段 ID,可能會造成網站檢索不完整與多餘的檢索。
否,URL 在 Sitemap 中的位置並不會影響搜尋引擎使用或辨識該 URL 的方式。
請附上這兩個 URL。
請使用 gzip 來壓縮 Sitemap。請記住,無論是否有壓縮,您的 Sitemap 均不可大於 50MB (52,428,800 位元組)。
Sitemap 中的「優先順序」提示只是用來表示您自己網站中的某特定 URL 在和其餘 URL 相較之下的重要性,而這對您網頁在搜尋結果中的排名並不會有任何影響。
是的。您可以在 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd 取得 Sitemap 檔案的 XML 配置,也可以在 http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd 取得 Sitemap 索引檔的配置。您也可以參閱更多關於驗證 Sitemap 的詳細資訊。
請參閱各搜尋引擎的說明文件,以瞭解更多關於 Sitemap 的提交方式和用法。
0 意見:
張貼留言