1

Тема: Видео про обработку образов дисков

https://www.youtube.com/watch?v=bDBwNDyMNLA

2

Re: Видео про обработку образов дисков

Жесть, прямо "компьютерная археология" какая-то...

3 Отредактировано avivanov76 (19-06-2017 14:28)

Re: Видео про обработку образов дисков

Почему жесть? Видно, что процесс отлажен, почти для всего есть утилиты, софт рассортирован, всё, что представляет ценность - сохраняется.
Ручного труда, наверно, могло быть меньше, если бы были какие-то утилиты для сравнения бейсиковых программ. Еще непонятно, использует ли bnf хэши файлов - судя по видео - нет, а можно было бы получить выгоду в скорости, сравнивая побайтно только файлы с совпавшими хэшами, а не все подряд. Но тут надо, конечно, хэш считать только от полезной части (игнорируя "хвост"), чтобы не получить кучу "как бы" разных файлов.

4

Re: Видео про обработку образов дисков

Вот потому и жесть, что каждый файл из образа надо просмотреть для правильной сортировки.

5 Отредактировано Voldemar0 (19-06-2017 17:57)

Re: Видео про обработку образов дисков

Хеши не используются, но за счёт кеширования всей базы (нужно 2 гига озу, минимум - эмпирически найденная цифра) повторные поиски идут со скоростью, вполне сопоставимой со щёлканьем по клавиатуре + обдумывание. Так что пока в этом нет необходимости. С другой стороны - хэши могут лишь указать на полное совпадение содержимого, а часто (и это показано в ролике) бывает нужно найти что-то похожее.

Без сравнивалки бейсик-программ жить немного сложно, но и сравнивалка бинарей появилась не сразу. Возможно, рано или поздно, сделаю и для бейсика.

Просматриваются не все файлы - даже на видео видно, что примерно половина диска отщёлкалась без просмотра.

Ну и надо держать в уме, что этот образ был выбран специально для того, чтобы продемонстрировать разнообразие методов. В реале всё зависит от коллекции: случается, что и половина коллекции уходит автоматом. особенно если это диски с игрушками Apple ][ - они исчезают уже на этапе сравнении образов. Бывает и наоборот:  куча файлов , например, с ассемблерными исходниками, ни одного комментария, на каждом диске совпадающие имена, но различающееся содержимое + десятки удалённых файлов примерно с таким же содержанием. Как это автоматизировать - я уже не знаю. Можно было бы попробовать сделать близкий поиск по текстовым файлам ...... к счастью, такая коллекция была всего однажды. Остальные - даже если принадлежали плодовитым разработчикам - были более-менее логично скомпонованы.