Отпечатки файлов

Меня победили файлы. Я сдался. Когда-то я успевал раскладывать все программы по каталогам, проставлять теги в mp3 файлах, переименовывать удобным для себя способом фильмы и книжки. С появлением толстого интернет-канала не всегда хватает времени просто на то, чтобы скинуть скачанное на DVD болванки. Если завтра отключат интернет, приходите — кажется, я сохранил значительную его часть, перепишу 🙂
Шутки в сторону — я знаю, как справиться с хаосом. Вот вам идея социального сервиса, в котором заинтересована огромная армия пользователей торрент-трекеров, ослика и файловых хранилищ типа рапидшары.


Что такое файл? Во многих случаях удобно думать о нём как о данных, к которым привязана метаинформация. Метаинформация — это тип содержимого (книга, фильм и т.п.), название книги или фильма, исполнитель музыкальной композиии и т.п.

В файловых системах используется универсальное решение — любой файл имеет имя, в котором можно хранить метаинформацию. Конечно, во многих специальных случаях имени файла для хранения метаинформации недостаточно, приходится использовать либо сам файл (id3 теги в *.mp3 файлах), либо дополнительные файлы (descript.ion).

Файлы не так уж уникальны, как кажется на первый взгляд. Скачанное из Сети составляет значительную часть содержимого многих винчестеров. Следовательно, метаинформация, которую многие добавляют к полученным файлам, может оказаться полезна и другим владельцам того же файла. Ещё раз — речь идет о метаинформации, привязанной к файлу, а не, скажем, к книжке, которая в этом файле находится.

Что дает привязка к файлу? Возможность быстро и автоматически привязать метаинформацию к такому же файлу на другом компьютере с помощью дайджестов (таких как crc32 или md5).

Чтобы мозаика сложилась, осталось вспомнить freedb — он-лайн базу метаинформации о музыке. В качестве дайджеста используется, насколько я понимаю, длительность звучания всех композиций альбома. По запросу в ответ на дайджест можно получить метаинформацию об альбоме.

В общем виде это должно выглядеть так: пользователь вычисляет дайджесты имеющихся у него файлов и посылает их в запросе к серверу, который возвращает метаинформацию об известных ему файлах. Эта информация поставляется самими пользователями.

Что делать с полученной метаинформацией? В первую очередь, использовать её для удобного поиска и упорядочения/переименования файлов. Кроме того, можно без скачивания файла определять, совпадает ли он с локальной версией.

Отпечатки файлов, упомянутые в заголовке, состоят из двух частей — дайджестов, позволяющих привязать их к файлу, и собственно метаинформации. Реализовано это может быть, например, в виде расширяемого XML формата.

Не буду писать о нюансах — для понимания идеи они несущественны, ежели кто заинтересуется — продолжим разговор.

06.07.2007   Рубрики: Идеи, Программы

Один комментарий

  1. Искусство ходить по граблям » Blog Archive » Каталогизаторы - 06.07.2007

    […] Искусство ходить по граблям Личный опыт укрощения компьютеров « Отпечатки файлов […]

Написать комментарий