Особенности скачивания web-страниц

Идея для этой статьи родилась во время создания плагина WebPage для OutWiker. Этот плагин предназначен для скачивания страниц из Интернета и добавления ее в дерево заметок. Во время его создания ставились две цели. Во-первых, скачанная страница должна выглядеть так же, как она отображается в браузерах, и, во-вторых, страница должна нормально отображаться без подключения к Интернету, то есть по возможности все картинки, файлы CSS и скрипты должны быть скачаны и сохранены в специально отведенную для них папку (__download), а на самой HTML-странице все ссылки на внешние файлы должны быть исправлены таким образом, чтобы они загружались из этой папки.

Язык HTML является достаточно гибким (в данном случае даже слишком), и для корректного отображения страниц пришлось учитывать множество особенностей, связанных с тем, как могут загружаться картинки и CSS файлы на HTML-странице. Вот об этих особенностях и пойдет речь. Если кто-то захочет реализовать подобное скачивание страниц в своей программе, эта статья может служить что-то вроде чеклистом со списком того, что нужно учесть. Все эти пункты разделены на разделы.

1. Изображения

1.1 Изображения могут быть вставлены не только с помощью тега <img>, но и с помощью CSS с использованием свойства background-image.

GeSHi Error: GeSHi could not find the language html (using path /home/jenyay/domains/jenyay.net/public_html/cookbook/geshi/geshi/) (code 2)

	Подписаться на комментарии
Автор:
Тема:
	Ваш комментарий


Введите код 401

1. Изображения

1.1 Изображения могут быть вставлены не только с помощью тега <img>, но и с помощью CSS с использованием свойства background-image.

1.2. Изображения могут быть вставлены с помощью CSS, описанных в теге атрибутах style.

1.3. Ссылки на изображения могут быть не только в теге <img>, но и в других тегах

1.4. Ссылки на изображения могут быть как относительные, так и абсолютные

1.5. В заголовке HTML может быть указан тег <base>

1.6. Кавычки в тегах могут быть как одинарные, так и двойные

1.7. Изображения на странице могут быть вставлены не только из внешнего файла, но также могут быть внедрены в текст HTML или CSS с помощью base64-кодирования

2. CSS

2.1. Стили CSS могут загружаться не только из внешних файлов .css, но и быть прописаны непосредственно в коде HTML.

2.2. В CSS ссылки могут иметь вид url("path_to_img.png"), url('path_to_img.png') или url(path_to_img.png)

2.3 Внутри одного CSS-файла могут загружаться другие CSS-файлы с помощью @import

2.4 Ссылки на CSS могут быть указаны с параметрами

2.5 На сайтах, заточенных под Internet Explorer старых версий, может встречаться встраивание изображений с использованием MHTML.

3. Favicon (значок сайта)

3.1. Ссылка на favicon может быть не указана в HTML явно

3.2. Favicon может быть не только в форматах ICO и PNG

3.3. Для указания ссылки на favicon внутри тега link внутри атрибута rel могут использоваться как значение "icon", так и значение "shortcut icon"

3.4. Favicon может быть размером не только 16x16 пикселей

4. Разное

4.1. Некоторые элементы могут загружаться через JavaScript

4.2. При скачивании страниц обязательно нужно указывать User-agent

4.3. Многие серверы отдают страницу сжатой с помощью gzip

Заключение