1 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Что интересного есть в архиве данных из ВК и какие занятные выводы из него можно сделать

Содержание

Что интересного есть в архиве данных из ВК и какие занятные выводы из него можно сделать

Andrey Viktorov

Nov 20, 2018 · 5 min read

Если вы знаете что такое GPG и как оно работает, рекомендую выгружать архив в зашифрованном виде. Я использовал для этого свой ключ с keybase и расшифровывал через консоль вот таким образом:

keybase pgp decrypt -i Archive_zip.gpg > Archive.zip

Попытки расчета количества информации на планете Земля 4

  1. Статьи
  2. Редакционные статьи

Как и физическая Вселенная, информационная Вселенная человечества разнообразна и постоянно расширяется – она обогащается ресурсами, когда кто-нибудь снимает красивые закаты или восходы на цифровую фотокамеру, когда данные собираются и анализируются от множества установленных на гигантской газовой Турбине датчиков, что делает процесс выработки электроэнергии дешевле и эффективнее; когда ученые получают и обрабатывают данные, передаваемые со скоростью 2,8 гигабайт в секунду с австралийского радиотелескопа ASKAP; когда человек делает групповое селфи на церемонии вручения Оскар и выкладывает его в сеть, где его просматривают в течение 12-часового периода 26 миллионов человек. Ниже показано данное фото с участием Брэдли Купера, Брэда Питта, Анжелины Джоли, Мерил Стрип, Джулии Робертс, Кевина Спейси, Чэннинга Татума и др.

Сегодня более чем 2 миллиарда людей и миллионы предприятий выполняют свою работу через интернет, миллиарды устройств связи отправляют и принимают данные, более одного миллиарда часов телевизионных шоу, сериалов и фильмов транслируется в интернете на основе потокового мультимедиа за один месяц только одной компанией Netflix. Вся информация, начиная от данных, собранных марсоходом Curiosity Rover на Марсе, до ваших фотографий с последнего отпуска, выложенных в Вконтакте или инстаграме с каждым днем пополняет и пополняет информационную Вселенную человечества.

В прошлой статье мы оценили масштабы таких единиц информации как Эксабайт, Зеттабайт, Йоттабайт и поэтому сейчас готовы к осознанию масштабов того количества информации, которое генерируется, хранится, передается и анализируется в современном мире. В данной статье собрано множество фактов с конкретными цифрами о нашей информационной Вселенной: как она развивалась последнее десятилетие, в каком состоянии она сейчас и что нас ждет в будущем. Начнем разбирательство с рассмотрения значимых компаний, которые вносят наиболее существенный вклад в информационную Вселенную.

Вопрос: Какая компания обрабатывает больше всего данных в мире?

Ответ: Неудивительно, что ответ на этот вопрос – компания Google. Возможно, более удивительно, какие именно цифры сегодня стоят за этой корпорацией. Например, знаете ли вы, что Google обрабатывает 5.3 миллиарда запросов в день? Или что Google хранит более 10 эксабайт данных? Конечно Facebook, Microsoft и Amazon составляют Google серьезную конкуренцию: только Facebook имеет 2.5 миллиарда единиц контента, 2.7 миллиарда «лайков» и 300 миллионов фотографий – все это составляет более 500 терабайт данных.

Вопрос: какая компания имеет наибольшее количество серверов?

Ответ: После того, как дан ответ на предыдущий вопрос, логично подумать опять про Google. Но на самом деле ответ – Amazon. В компании размещают 1 000 000 000 гигабайт данных на более чем 1 400 000 серверах. Предполагается, что Google и Microsoft имеют около 1 000 000 серверов каждый, но, ни одна из компаний не оглашает точные цифры.

Вопрос: Какой процент данных хранится в цифровом формате?

Ответ: представьте каждую книгу в каждой библиотеке, каждой школе, каждом доме во всем мире – это много книг. Тем не менее, все эти книги вместе взятые составляют максимум 6 процентов от общей суммы всех человеческих данных. В 2007 году было подсчитано, что только 6% всех данных поступают из книг и из других печатных материалов – остальные 94% данных представляются уже в цифровом формате.

Вопрос: Что ждет нас в будущем?

Ответ: заглядывая в будущее, эксперты прогнозируют, что к 2020 году будет существовать 44 зеттабайт данных. Три года назад, по некоторым оценкам, вся всемирная паутина содержала около 500 эксабайт – это 5 миллиардов гигабайт, и только половина одного зеттабайта!

В настоящее время объемы цифровых данных удваиваются каждые два года. Международная исследовательская и консалтинговая компания IDC, занимающаяся изучением мирового рынка информационных технологий и телекоммуникаций, сначала прогнозировала, что с 2009 г до 2020 г. объем мировых данных увеличится в 44 раза, потом, что в 50 раз, теперь уже значится цифра 55 раз. Каждый год IDC с учетом анализа новых данных перестраивает кривую роста вверх, как правило, на несколько зеттабайт, по последнему отчету с 2009 г объем данных за год с 0,8 зеттабайт вырастет до 44 зеттабайт в 2020 г.

Картинка отлично показывает, насколько велик 44-кратный рост. Однако она в действительности не передает, насколько много 44 Зеттабайта на самом деле, и в каком объеме данных мы будем плавать (или тонуть) в 2020 году.

Число байт в 44 зеттабайтах является слишком большим даже для записи его в Microsoft Excel (Число настолько велико, что при вычислениях Excel урежет последние семь цифр точности). Предполагая, что закон Мура позволит нам удвоить емкость смартфонов в три раза до 2020 года, потребуется 188 978,561,024 (188+ триллион) смартфонов для хранения 44 ZB. Это число соответствует 25 смартфонам на человека для всего населения планеты. Представьте себе задачу управления данными, распределенными по множеству смартфонов.

Facebook в настоящее время хранит 300 Петабайт (PB) данных (это число растет на 600 ТБ в день, а по некоторым другим данным даже больше). Довольно внушительная цифра. Однако это намного, намного меньше, чем даже один Зеттабайт, который вмещает в себя 3 тысячи 495 хранилищ данных Facebook.

Сегодня Facebook имеет 1.3 миллиарда активных пользователей в месяц (стоит отметить, что при этом Facebook содержит около 81 миллиона фейковых профилей). Если бы к 2020 г. в Facebook зарегистрировались все жители на Земле – 7.5 миллиарда человек и данные продолжали бы увеличиваться ежегодно в 10 раз, то хранилище данных Facebook все равно содержало бы только 1/60 часть от 1 ZB:

Незаурядные попытки расчета количества информации человечества

В 2003 году Марк Либерман рассчитал требования к хранилищу всей когда-либо произносимой человеческой речи. Его расчеты показали примерно 42 зеттабайта, если бы оцифровка звука осуществлялась с параметрами 16 кГц/16-бит (что, на мой взгляд, для речи жирно). Он сделал это, чтобы проверить следующий факт: «все слова, произнесенные когда-либо людьми, несут около 5 эксабайт данных».

Расчеты были банально простыми:

Допустим в 1800 году на планете жил 1 миллиард человек, в 1900 году –1,6 миллиарда человек, а в 2000 году – 6,1 миллиарда человек. Предположим, что 10 миллиардов человек прожили в среднем 50 лет, говоря в среднем по 2 часа в день на протяжении всей своей жизни. Это

10 * 10^9 * 50 * 365 * 2 * 60 * 60 = 1.314 * 10^18 секунд.

Если оцифровать одноканальный звук со скоростью 32 КБ в секунду, то получим

1.314 * 10^18 * 3.2 * 10^4 = 4.208 * 10^22 байт или 42 зеттабайта

После полученных результатов Либерман предположил, что возможно, авторы приведенной выше фразы имели в виду «все слова, написанные когда-либо людьми».

Для тех, кому все эти биты и байты кажутся немного абстрактными в 2015 году студенты Лестерского университета попытались посчитать размер Интернета в физических терминах.

Сначала они подсчитали, что в индексированной поисковой сети насчитывается примерно 47 миллиардов страниц. Между тем, чтобы узнать, сколько печатных страниц будет у каждой веб-страницы из этих 47 миллиардов, нужно было посетить репрезентативную выборку веб-сайтов и попытаться распечатать каждый. Чтобы получить справедливое среднее значение с 5-процентной погрешностью и 95-процентным доверительным интервалом пришлось бы протестировать 385 случайных сайтов с помощью программы Random Website Machine. Цитата студента-исследователя Лестерского университета: «Это забавная игра, вы можете играть в нее у себя дома, если вам больше абсолютно нечем заняться: нажмите кнопку «случайный сайт»; нажмите CTRL+A и CTRL+P; и запишите полученное число страниц в таблицу».

Студенты подсчитали, что потребуется 2 процента тропических лесов Амазонки, чтобы сделать бумагу, на которой можно будет распечатать все текстовые данные сети интернет. Исследователи оценили, что средняя веб-страница содержит данных на 6,5 печатных страниц. При таком предположении для печати всех текстовых данных интернета потребуется 305,5 миллиарда листов (это 212 миллионов копий произведения «Война и мир» Льва Толстого или 75 миллионов копий всей серии книг о Гарри Поттере).

Конечно, оценивать огромный объем данных, размещенный в сети Интернет в текстовом виде нерационально. Согласно исследованиям Cisco, в 2015 году IP-трафик по передаче видео составил 8000 петабайт в месяц, по сравнению с около 3000 петабайт по загрузке web страниц и электронной почты. В целом, по итогам года видео составляло большую часть интернет трафика – 34 000 петабайт, второе место занял общий доступ к файлам – 14 000 петабайт.

Тезисная подборка других интересных фактов:

  • Сегодня в цифровой Вселенной насчитывается 2.7 зеттабайт данных.
  • Компания Akamai (поставщик услуг для акселерации веб-сайтов, провайдер платформ доставки контента и приложений) анализирует 75 миллионов событий в день, чтобы улучшить целевую рекламу.
  • По всему миру сегодня более 5 миллиардов человек звонят, пишут друг другу в мессенджерах и просматривают веб-страницы на мобильных телефонах.
  • На расшифровку генома человека первоначально было потрачено 10 лет. Сегодня эту же работу по обработке информации можно было выполнить за одну неделю.
  • В 2008 году Google обрабатывал 20 000 терабайт данных в день.
  • Самая большая база данных AT&T может похвастаться названиями, включая самый большой объем данных в одной уникальной базе данных (312 терабайт) и второе по величине количество строк в уникальной базе данных (1,9 триллиона), которая включает в себя обширные записи вызовов AT&T.
  • Пользователи YouTube загружают 48 часов нового видео каждую минуту, каждый день загружается видео на 10 терабайт, что эквивалентно 405 Blu-Ray дискам.
  • Каждую минуту создается 571 новых сайтов.
  • В 2006 году совокупное пространство всех жестких дисков компьютера в мире оценивалось примерно в 160 эксабайт.
  • В 1986 году технологический потенциал сетей телерадиовещания во всем мире составлял 0.432 зеттабайта оптимально сжатой информации, в 1993 году эта же цифра составила 0.715 зеттабайта, в 2000 году – 1,2 зеттабайта, в 2007 – 1,9 зеттабайта, что является информационным эквивалентом того, как если бы каждый человек на Земле получал в день 174 газеты.
  • По состоянию на 2009 год, вся Всемирная паутина содержала около 0.5 зеттабайт данных.
  • Компания Seagate Technology сообщила о продаже только в 2011 году жестких дисков общей емкостью 330 эксабайт.
  • К 2025 году, согласно исследованию IDC по заказу Seagate, количество информации вырастет до 163 зеттабайт.
  • Стандарт формата размещения таблиц разделов на физическом жестком диске допускает максимальный размер диска и раздела 7,02 зеттабайт или 5,946 зебибайт при использовании секторов размером 512 байт.
  • Файловая система ZFS (Zettabyte File System), которая поддерживает большие объёмы данных, обеспечивает максимальный объем хранилища около 256 квадриллионов зеттабайт.
  • Человеческий мозг способен хранить 10 терабайт информации.
  • За месяц по WhatsApp отправляют 1 641 600 000 000 сообщений.
  • По электронной почте за месяц отправляют 8 078 400 000 000 писем
Читать еще:  Web виджеты. Пишем встраиваемый виджет на нативном javascript и php. Включайтесь в нужный момент

Генерировать информацию это дело несложное, а вот обработать ее и проанализировать уже гораздо сложнее. В 2013 году только 22% информации в цифровой Вселенной потенциально можно было проанализировать, т. е. эта часть содержала хоть какие-то метаданные (чаще всего мы мало что знаем о данных, если только они каким-то образом не охарактеризованы или не помечены); менее 5% из этих данных были фактически проанализированы. Согласно некоторым оценкам к 2020 году этот полезный процент может вырасти до 35% за счет роста объема данных, получаемых от встраиваемых информационных систем. Если задуматься над приведенными цифрами, то в скором времени будет не только проблема большого количества мусора на нашей планете, но также появится проблема большого количества неперерабатываемого информационного мусора.

Напоследок, представляем вашему вниманию интересную картинку: «что происходит при помощи Интернета за 1 минуту?»

Борьба с ветряными мельницами

Наказать тех, кто использует данные чужого паспорта для мошенничества в интернете, куда сложнее. Правоохранительным органам для этого необходимо заявление потерпевших. По факту тех, кто готов идти в полицию, — не так много. Чаще всего обманутые граждане ограничиваются угрозами.

Роскомнадзор Евгению в этой ситуации тоже помог не сильно. «Они отвечают, что использовать мои паспортные данные действительно запрещено, обратитесь в администрацию «ВКонтакте». Те вручную удаляют все фейковые страницы, но данные паспорта-то из интернета всё равно не исчезают. На ресурсах, до которых Роскомнадзор не может достать, они остаются. А значит, завтра может спокойно появиться и новый аккаунт» — сетует Осенков.

Избежать более печальных последствий Евгению помогла и удача, и замена паспорта. Документ, гуляющий по Сети, стал недействительным, а значит, возможность использовать его у злоумышленников исчезла.

Как найти предков до пятого колена

Знать свою родословную важно, ведь это не только дань уважения своим корням — на примере собственной семьи можно проследить ход истории страны. Так она станет более личной и поможет взглянуть на давно минувшие дни под другим углом. Однако для того, чтобы приступить к созданию генеалогического древа, специалисты советуют запастись терпением. Город+ узнал, с чего начинать поиски информации, какие документы необходимы и где их искать, а также в каких случаях нужен профессиональный генеалог.

С чего начинать

Решившись составить генеалогическое древо, не стоит сразу бежать в архив. Первое и, пожалуй, самое важное для поисков – общение с живыми родственниками: родителями, бабушками и дедушками, дядями и тетями. Нужно собрать как можно больше информации и подкрепить ее документально.

«Сначала необходимо поднять все документы, которые есть в семье, разложить их по полочкам, понять, что вы знаете. Это могут быть документы, удостоверяющие личность, свидетельства о рождении, бракосочетании, смерти, документы об образовании, аттестаты, грамоты, документы о работе, трудовые книжки, благодарности — все, где содержится какая-то биографическая информация. Эти сведения нужно систематизировать, чтобы понять, куда двигаться дальше», — говорит архивист отдела использования и публикации документов Центрального государственного исторического архива (ЦГИА СПб) Ольга Заерко.

Еще один важный пункт при начале исследования – отделы ЗАГС. Профессиональный генеалог Леонид Генеалогос рекомендует первым делом обратиться именно туда: «Там хранятся документы о рождении, бракосочетании, смерти. Причем лучше всего заказывать не свидетельства, которые стоят 350 рублей каждое, а архивные справки, они стоят дешевле — 200 рублей. В них могут быть указаны места и даты рождения родителей ребёнка, молодожёнов или усопшего, какой ребенок по счету это был, места проживания, профессия, адрес. Все эти данные дают ценные сведения, особенно необходимые в тяжелых исследованиях».

Для получения этих документов нужно подтвердить родство с человеком, по которому ведется поиск информации (иначе архивные справки вам не выдадут). Еще один важный момент – искать нужно в районных отделах ЗАГС, где жил родственник. Эти правила касаются и государственных архивов.

Работа с архивами советского периода

Все, что удалось собрать, в итоге станет фундаментом для дальнейшей исследовательской работы. Следующий шаг – государственные архивы. На этом этапе нужно иметь представление о том, где искать. Поэтому не стоит обращаться в любой попавшийся архив. Кстати, в Петербурге таких семь, у каждого свое направление. Одни хранят сведения по истории Северной столицы до 1917 года, другие — по истории города после революции, в третьих находятся документы партийных, комсомольских органов и организаций с 1917 по 1991 годы. Есть даже отдельный архив литературы и искусства.

«Перед тем, как обратиться в архив, необходимо понять, где искать. Предположим, ваш дедушка работал на Обуховском заводе. Таким образом, вам нужно найти, где хранятся документы этого предприятия, чтобы искать сведения о его трудовой деятельности», — объясняет Заерко.

Все подобные запросы платные, исключение — справка на себя, чтобы, например, подтвердить трудовой стаж. Ознакомиться с ценами можно на портале «Архивы Санкт-Петербурга». «По архивному законодательству существует 75-летнее ограничение на доступ к документам, которые содержат личную и семейную тайну гражданина. До истечения этого срока нужно еще доказать, что вы являетесь родственником этого человека», — рассказывает архивист ЦГИА СПб.

Доказать родство, как говорится, сложно, но можно. Например, если речь идет о бабушках или дедушках, то стоит поднять свидетельства о рождении родителей, зачастую получить нужную информацию помогают сведения о братьях и сестрах искомого человека. Так что «копать» нужно не вглубь, а в ширь — это позволит не зайти при поисках в тупик.

На что стоит обратить внимание

В генеалогической работе много нюансов, например, важно знать, на что нужно обращать особое внимание, и какие документы упростят исследование. В Петербурге, например, это домовая книга.

«Такие книги существовали еще до революции, но с тех пор их сохранилось совсем немного. Большинство велось после и особенно с 1933 года, когда появилась так называемая прописка, позволяющая государству отказывать нежелательным лицам в проживании на территории Ленинграда. В домовых книгах указаны место рождения, национальность, откуда прибыл, куда выбыл; по ним можно проследить состав семьи. Все эти ценнейшие данные хранятся либо в паспортных столах по району, либо в ЦГА, в хранилище на Варфоломеевской», — рассказывает Генеалогос.

Важна и информация о репрессиях: сталинских чистках в 30-е годы и раскулачивании в 20-е. Сведения по этому направлению стоит искать в архивах ФСБ, МВД, ФСИН.

Что касается мест учебы или работы, то если человек был как-то отмечен или занимал высокую должность, а не был простым слесарем на заводе, то, возможно, на него сохранилось личное дело. Хотя, по словам специалистов, поиски в этом направлении дают мало результатов, но попробовать в любом случае стоит, иногда все-таки удается сделать любопытные открытия.

Еще одним кладезем информации зачастую являются партийные архивы. Если родственник состоял в партии, то можно найти его анкету. «В Петербурге партийный архив находится на Таврической улице. Правда, отчасти дела там еще засекречены. Если документы пока нельзя выдавать, то по аашему заявлению через квартал их могут рассекретить. В партийных делах есть анкета, в которой написано, где человек родился, как звали его родителей, его послужной список и другие данные. Интереснейшая документация, которая дает очень много информации», — объясняет генеалог.

Если предок из другого города или страны

Если ваш предок приехал в Петербург извне, то нужно обращаться в архивы той административной единицы, где он проживал. Можно приехать туда лично, а можно просто написать запрос в архив. Тоже самое относится к иностранцам. Отметим, что письменные запросы платные. И если с российскими регионами все более или менее понятно, то с иностранными государствами сложнее. Порядок везде свой, проще всего работать с бывшими советскими республиками или странами, которые так или иначе входили в сферу российского влияния.

«Есть бывшие советские республики, есть страны Варшавского договора, есть Франция, США, Бразилия. Это совершенно разные области. Если родственник родился, вступил в брак или умер на территории бывшего Советского Союза, то нужно обращаться в свой районный ЗАГС и отсюда истребовать документы из бывших советских республик. Есть соглашение между МИДами этих стран, согласно которому они относительно быстро выдают справки. Конечно, тяжеловато заполнять все анкеты, но без этого никак не обойтись. Еще любопытна Польша. Часть её до революции входила в состав Российской империи . Там и после регистрация актов гражданского состояния велась приходскими церквями и записывалась в метрические книги, хранящихся в отделах ЗАГС. В идеале, вы находите контакты польскх ЗАГСов в сети, звоните туда и общаетесь с ними, хоть на ломаном английском или русском. Как правило, сотрудники вас поймут и смогут помочь. Информация часто высылается по электронной почте. Поляки очень качественно работают и с удовольствием помогают», — рассказывает Генеалогос.

Он также отметил, что при исследовательской работе не помешают различные тематические интернет-ресурсы, которые помогают найти нужную информацию. К слову, в интернете можно также создать генеалогическое древо. Нужно просто найти наиболее удобный сайт и ввести туда данные по своей семье. Ресурс автоматически выстроит всю информацию в виде древа. По мере поступления сведений, данные будут расширяться, а «дерево» расти.

Читать еще:  ТОП-12 Лучших Домашних Кинотеатров

Когда стоит обращаться к специалисту

Самостоятельные поиски (при должном усердии) помогут узнать информацию о прадедах, но не всегда удается продвинуться по родословной дальше: чем более дальний период, тем сложнее поиск по документам. Поэтому в конечном счете и обращаются к профессионалам. Услуга эта не из дешевых. Правда, некоторые генеалоги, зная, что человек не может ее оплатить, идут ему навстречу и дают бесплатные консультации, чтобы помочь в поисках хотя бы советом. Так что обращаться стоит в двух случаях: если у вас есть деньги или вам просто нужно узнать в каком направлении двигаться.

«Для исследования в архивах нужно понимать всю структуру административного устройства СССР и Российской империи, и как она менялась в разные периоды истории. Приходится все время углублять свои знания, искать, обращаться к первоисточникам. Конечно, желательно обратиться к специалисту, занимающемуся только этим, а чтобы любителю во все вникнуть самому, могут понадобиться годы. При этом, чтобы не упустить интересные документы, нужно хорошо понимать материю», — объясняет специалист по генеалогии.

Если же человек все-таки захотел взяться за это дело самостоятельно, эксперты советуют быть усердными и терпеливыми. Без этих качеств, уверены они, результат не будет достигнут.

Для справки:

В Петербурге работает семь архивов:

Центральный государственный исторический архив (ЦГИА СПб — Псковская ул., 18),

Центральный государственный архив (ЦГА СПб — ул. Антонова-Овсеенко, 1/1),

Центральный государственный архив по личному составу ликвидированных государственных предприятий, учреждений и организаций (ЦГАЛС СПб — Днепропетровская ул., 9 а),

Центральный государственный архив историко-политических документов (ЦГАИПД СПб — Таврическая ул., 39),

Центральный государственный архив кинофотофонодокументов (ЦГАКФФД — Таврическая ул., 39),

Центральный государственный архив научно-технической документации (ЦГАНТД — Тамбовская ул., 17),

Центральный государственный архив литературы и искусства (ЦГАЛИ — Шпалерная ул., 34).

С перечнем петербургских ЗАГСов можно ознакомиться здесь.

Интернет-провайдеры

Каждый раз, когда вы с его помощью выходите в Сеть, ваш интернет-провайдер или мобильный оператор выдает подключающемуся к Сети устройству (компьютеру, смартфону, планшету) уникальный адрес – IP-адрес. Он может быть индивидуальным или использоваться сразу несколькими устройствами. Но главное – именно по этому адресу пользователя устройства проще всего сопоставить с физическим адресом, паспортными данными, номерами банковских счетов и так далее. Кроме тех случаев, когда вы пользуетесь каким-нибудь публичным интернет-соединением вроде вайфай-точки в кафе.

Технически провайдеры способны просматривать все, что вы передаете через интернет в незашифрованном виде. Именно поэтому стоит пользоваться сайтами с защищенным соединением (https) или дополнительно использовать VPN-провайдеров. VPN – это посредник, предоставляющий тот же интернет-доступ по шифрованному каналу связи для защиты от внешней «прослушки». Важно только не забывать, что это не обеспечивает стопроцентную неуязвимость: вы просто доверяете свои данные другой компании, часто из другой страны. Опытные пользователи могут сами организовать для себя VPN-сервер и стать собственным «VPN-провайдером», что снизит часть рисков. Однако в этом случае доступ к открытым коммуникациям будет уже у хостинговой компании, на которой вы разместите VPN-сервер.

Все операторы связи обязаны по закону сотрудничать с правоохранительными органами при расследованиях и предоставлять им доступ к пользовательским данным (СОРМ в России и аналоги в других странах), а иногда и содействовать в доступе к защищенным коммуникациям. Так, недавно «прослушивать» все зашифрованные интернет-данные собирались в Казахстане, но позже отказались от этой затеи.

Хотя стойкое шифрование серьезно осложняет интернет-слежку, адрес сервера, как правило, сперва передается незашифрованным: это нужно для обмена ключами и установки защищенного соединения. И это тоже способствует уязвимости: для получения чувствительной информации часто не так даже важно, что именно вы передаете, – важно, куда или откуда. Факты подключений и связанная информация («метаданные»), если их сопоставить с другой имеющейся у ваших провайдеров информацией, позволят узнать о вас очень многое даже без доступа к вашим зашифрованным данным.

Представьте, что злоумышленник с доступом к Сети вашего мобильного оператора видит, что ваш смартфон подключился к сотовой вышке на территории одной из больниц. Через пять минут после этого оператор зафиксировал, что вы зашли на https-сайт онкоцентра (c шифрованием). Злоумышленник не сможет легко узнать, какие именно страницы вы на этом сайте смотрели, но может с достаточной степенью уверенности предположить, что у вас какая-то онкологическая проблема.

Как бороться? Полностью защититься от слежки через провайдеров вряд ли получится, но ее можно усложнить, если пользоваться зашифрованными соединениями, VPN, гостевым интернет-доступом, прокси-серверами (чтобы скрыть свой IP-адрес), анонимизирующей сетью Tor и другими подобными службами.

В моем случае их оказалось сравнительно немного, но НИКОГДА не давайте ВК доступ к импорту контактов. Также я не нашел никакого способа их оттуда удалить, так что написал в саппорт и на эту тему.

  1. История IP-адресов более чем за 21 день

В России ВКонтакте внесена в реестр организаторов распространения информации в интернете, поэтому обязана хранить переписку российских пользователей в течение шести месяцев, другую информацию о них — в течение года (согласно п. 3 ст. 10.1 Федерального закона «Об информации, информационных технологиях и о защите информации»).

Исходя из этого утверждения, ВК обязана хранить информацию о пользователях в течении года. Маловероятно, что ВК не хранит IP-адреса только за 21 день.

2. История поиска

К примеру, в видео есть “Недавние запросы”, но в выгруженном архиве я такого не нашел.

Попытки расчета количества информации на планете Земля 4

  1. Статьи
  2. Редакционные статьи

Как и физическая Вселенная, информационная Вселенная человечества разнообразна и постоянно расширяется – она обогащается ресурсами, когда кто-нибудь снимает красивые закаты или восходы на цифровую фотокамеру, когда данные собираются и анализируются от множества установленных на гигантской газовой Турбине датчиков, что делает процесс выработки электроэнергии дешевле и эффективнее; когда ученые получают и обрабатывают данные, передаваемые со скоростью 2,8 гигабайт в секунду с австралийского радиотелескопа ASKAP; когда человек делает групповое селфи на церемонии вручения Оскар и выкладывает его в сеть, где его просматривают в течение 12-часового периода 26 миллионов человек. Ниже показано данное фото с участием Брэдли Купера, Брэда Питта, Анжелины Джоли, Мерил Стрип, Джулии Робертс, Кевина Спейси, Чэннинга Татума и др.

Сегодня более чем 2 миллиарда людей и миллионы предприятий выполняют свою работу через интернет, миллиарды устройств связи отправляют и принимают данные, более одного миллиарда часов телевизионных шоу, сериалов и фильмов транслируется в интернете на основе потокового мультимедиа за один месяц только одной компанией Netflix. Вся информация, начиная от данных, собранных марсоходом Curiosity Rover на Марсе, до ваших фотографий с последнего отпуска, выложенных в Вконтакте или инстаграме с каждым днем пополняет и пополняет информационную Вселенную человечества.

В прошлой статье мы оценили масштабы таких единиц информации как Эксабайт, Зеттабайт, Йоттабайт и поэтому сейчас готовы к осознанию масштабов того количества информации, которое генерируется, хранится, передается и анализируется в современном мире. В данной статье собрано множество фактов с конкретными цифрами о нашей информационной Вселенной: как она развивалась последнее десятилетие, в каком состоянии она сейчас и что нас ждет в будущем. Начнем разбирательство с рассмотрения значимых компаний, которые вносят наиболее существенный вклад в информационную Вселенную.

Вопрос: Какая компания обрабатывает больше всего данных в мире?

Ответ: Неудивительно, что ответ на этот вопрос – компания Google. Возможно, более удивительно, какие именно цифры сегодня стоят за этой корпорацией. Например, знаете ли вы, что Google обрабатывает 5.3 миллиарда запросов в день? Или что Google хранит более 10 эксабайт данных? Конечно Facebook, Microsoft и Amazon составляют Google серьезную конкуренцию: только Facebook имеет 2.5 миллиарда единиц контента, 2.7 миллиарда «лайков» и 300 миллионов фотографий – все это составляет более 500 терабайт данных.

Вопрос: какая компания имеет наибольшее количество серверов?

Ответ: После того, как дан ответ на предыдущий вопрос, логично подумать опять про Google. Но на самом деле ответ – Amazon. В компании размещают 1 000 000 000 гигабайт данных на более чем 1 400 000 серверах. Предполагается, что Google и Microsoft имеют около 1 000 000 серверов каждый, но, ни одна из компаний не оглашает точные цифры.

Вопрос: Какой процент данных хранится в цифровом формате?

Ответ: представьте каждую книгу в каждой библиотеке, каждой школе, каждом доме во всем мире – это много книг. Тем не менее, все эти книги вместе взятые составляют максимум 6 процентов от общей суммы всех человеческих данных. В 2007 году было подсчитано, что только 6% всех данных поступают из книг и из других печатных материалов – остальные 94% данных представляются уже в цифровом формате.

Вопрос: Что ждет нас в будущем?

Ответ: заглядывая в будущее, эксперты прогнозируют, что к 2020 году будет существовать 44 зеттабайт данных. Три года назад, по некоторым оценкам, вся всемирная паутина содержала около 500 эксабайт – это 5 миллиардов гигабайт, и только половина одного зеттабайта!

В настоящее время объемы цифровых данных удваиваются каждые два года. Международная исследовательская и консалтинговая компания IDC, занимающаяся изучением мирового рынка информационных технологий и телекоммуникаций, сначала прогнозировала, что с 2009 г до 2020 г. объем мировых данных увеличится в 44 раза, потом, что в 50 раз, теперь уже значится цифра 55 раз. Каждый год IDC с учетом анализа новых данных перестраивает кривую роста вверх, как правило, на несколько зеттабайт, по последнему отчету с 2009 г объем данных за год с 0,8 зеттабайт вырастет до 44 зеттабайт в 2020 г.

Картинка отлично показывает, насколько велик 44-кратный рост. Однако она в действительности не передает, насколько много 44 Зеттабайта на самом деле, и в каком объеме данных мы будем плавать (или тонуть) в 2020 году.

Число байт в 44 зеттабайтах является слишком большим даже для записи его в Microsoft Excel (Число настолько велико, что при вычислениях Excel урежет последние семь цифр точности). Предполагая, что закон Мура позволит нам удвоить емкость смартфонов в три раза до 2020 года, потребуется 188 978,561,024 (188+ триллион) смартфонов для хранения 44 ZB. Это число соответствует 25 смартфонам на человека для всего населения планеты. Представьте себе задачу управления данными, распределенными по множеству смартфонов.

Читать еще:  Установка Windows на данный диск невозможна – стиль разделов GPT

Facebook в настоящее время хранит 300 Петабайт (PB) данных (это число растет на 600 ТБ в день, а по некоторым другим данным даже больше). Довольно внушительная цифра. Однако это намного, намного меньше, чем даже один Зеттабайт, который вмещает в себя 3 тысячи 495 хранилищ данных Facebook.

Сегодня Facebook имеет 1.3 миллиарда активных пользователей в месяц (стоит отметить, что при этом Facebook содержит около 81 миллиона фейковых профилей). Если бы к 2020 г. в Facebook зарегистрировались все жители на Земле – 7.5 миллиарда человек и данные продолжали бы увеличиваться ежегодно в 10 раз, то хранилище данных Facebook все равно содержало бы только 1/60 часть от 1 ZB:

Незаурядные попытки расчета количества информации человечества

В 2003 году Марк Либерман рассчитал требования к хранилищу всей когда-либо произносимой человеческой речи. Его расчеты показали примерно 42 зеттабайта, если бы оцифровка звука осуществлялась с параметрами 16 кГц/16-бит (что, на мой взгляд, для речи жирно). Он сделал это, чтобы проверить следующий факт: «все слова, произнесенные когда-либо людьми, несут около 5 эксабайт данных».

Расчеты были банально простыми:

Допустим в 1800 году на планете жил 1 миллиард человек, в 1900 году –1,6 миллиарда человек, а в 2000 году – 6,1 миллиарда человек. Предположим, что 10 миллиардов человек прожили в среднем 50 лет, говоря в среднем по 2 часа в день на протяжении всей своей жизни. Это

10 * 10^9 * 50 * 365 * 2 * 60 * 60 = 1.314 * 10^18 секунд.

Если оцифровать одноканальный звук со скоростью 32 КБ в секунду, то получим

1.314 * 10^18 * 3.2 * 10^4 = 4.208 * 10^22 байт или 42 зеттабайта

После полученных результатов Либерман предположил, что возможно, авторы приведенной выше фразы имели в виду «все слова, написанные когда-либо людьми».

Для тех, кому все эти биты и байты кажутся немного абстрактными в 2015 году студенты Лестерского университета попытались посчитать размер Интернета в физических терминах.

Сначала они подсчитали, что в индексированной поисковой сети насчитывается примерно 47 миллиардов страниц. Между тем, чтобы узнать, сколько печатных страниц будет у каждой веб-страницы из этих 47 миллиардов, нужно было посетить репрезентативную выборку веб-сайтов и попытаться распечатать каждый. Чтобы получить справедливое среднее значение с 5-процентной погрешностью и 95-процентным доверительным интервалом пришлось бы протестировать 385 случайных сайтов с помощью программы Random Website Machine. Цитата студента-исследователя Лестерского университета: «Это забавная игра, вы можете играть в нее у себя дома, если вам больше абсолютно нечем заняться: нажмите кнопку «случайный сайт»; нажмите CTRL+A и CTRL+P; и запишите полученное число страниц в таблицу».

Студенты подсчитали, что потребуется 2 процента тропических лесов Амазонки, чтобы сделать бумагу, на которой можно будет распечатать все текстовые данные сети интернет. Исследователи оценили, что средняя веб-страница содержит данных на 6,5 печатных страниц. При таком предположении для печати всех текстовых данных интернета потребуется 305,5 миллиарда листов (это 212 миллионов копий произведения «Война и мир» Льва Толстого или 75 миллионов копий всей серии книг о Гарри Поттере).

Конечно, оценивать огромный объем данных, размещенный в сети Интернет в текстовом виде нерационально. Согласно исследованиям Cisco, в 2015 году IP-трафик по передаче видео составил 8000 петабайт в месяц, по сравнению с около 3000 петабайт по загрузке web страниц и электронной почты. В целом, по итогам года видео составляло большую часть интернет трафика – 34 000 петабайт, второе место занял общий доступ к файлам – 14 000 петабайт.

Тезисная подборка других интересных фактов:

  • Сегодня в цифровой Вселенной насчитывается 2.7 зеттабайт данных.
  • Компания Akamai (поставщик услуг для акселерации веб-сайтов, провайдер платформ доставки контента и приложений) анализирует 75 миллионов событий в день, чтобы улучшить целевую рекламу.
  • По всему миру сегодня более 5 миллиардов человек звонят, пишут друг другу в мессенджерах и просматривают веб-страницы на мобильных телефонах.
  • На расшифровку генома человека первоначально было потрачено 10 лет. Сегодня эту же работу по обработке информации можно было выполнить за одну неделю.
  • В 2008 году Google обрабатывал 20 000 терабайт данных в день.
  • Самая большая база данных AT&T может похвастаться названиями, включая самый большой объем данных в одной уникальной базе данных (312 терабайт) и второе по величине количество строк в уникальной базе данных (1,9 триллиона), которая включает в себя обширные записи вызовов AT&T.
  • Пользователи YouTube загружают 48 часов нового видео каждую минуту, каждый день загружается видео на 10 терабайт, что эквивалентно 405 Blu-Ray дискам.
  • Каждую минуту создается 571 новых сайтов.
  • В 2006 году совокупное пространство всех жестких дисков компьютера в мире оценивалось примерно в 160 эксабайт.
  • В 1986 году технологический потенциал сетей телерадиовещания во всем мире составлял 0.432 зеттабайта оптимально сжатой информации, в 1993 году эта же цифра составила 0.715 зеттабайта, в 2000 году – 1,2 зеттабайта, в 2007 – 1,9 зеттабайта, что является информационным эквивалентом того, как если бы каждый человек на Земле получал в день 174 газеты.
  • По состоянию на 2009 год, вся Всемирная паутина содержала около 0.5 зеттабайт данных.
  • Компания Seagate Technology сообщила о продаже только в 2011 году жестких дисков общей емкостью 330 эксабайт.
  • К 2025 году, согласно исследованию IDC по заказу Seagate, количество информации вырастет до 163 зеттабайт.
  • Стандарт формата размещения таблиц разделов на физическом жестком диске допускает максимальный размер диска и раздела 7,02 зеттабайт или 5,946 зебибайт при использовании секторов размером 512 байт.
  • Файловая система ZFS (Zettabyte File System), которая поддерживает большие объёмы данных, обеспечивает максимальный объем хранилища около 256 квадриллионов зеттабайт.
  • Человеческий мозг способен хранить 10 терабайт информации.
  • За месяц по WhatsApp отправляют 1 641 600 000 000 сообщений.
  • По электронной почте за месяц отправляют 8 078 400 000 000 писем

Генерировать информацию это дело несложное, а вот обработать ее и проанализировать уже гораздо сложнее. В 2013 году только 22% информации в цифровой Вселенной потенциально можно было проанализировать, т. е. эта часть содержала хоть какие-то метаданные (чаще всего мы мало что знаем о данных, если только они каким-то образом не охарактеризованы или не помечены); менее 5% из этих данных были фактически проанализированы. Согласно некоторым оценкам к 2020 году этот полезный процент может вырасти до 35% за счет роста объема данных, получаемых от встраиваемых информационных систем. Если задуматься над приведенными цифрами, то в скором времени будет не только проблема большого количества мусора на нашей планете, но также появится проблема большого количества неперерабатываемого информационного мусора.

Напоследок, представляем вашему вниманию интересную картинку: «что происходит при помощи Интернета за 1 минуту?»

Измените настройки конфиденциальности вашей учётной записи Anchor link

Измените настройки по умолчанию. Например, хотите ли вы делиться своими публикациями со всеми или же только с какой-либо конкретной группой людей? Можно ли позволить людям искать вас по номеру телефона или адресу электронной почты? Хотите ли вы публиковать свое местоположение в автоматическом режиме?

Несмотря на то, что на каждой платформе социальных сетей есть свои уникальные настройки, вы можете заметить некоторое сходство.

  • Настройки конфиденциальности склонны искать ответ на вопрос: «Кто может это видеть?» Здесь, вероятно, вы сможете выбрать аудиторию («Все», «Друзья друзей», «Только друзья» и т.д.) для своих публикаций, местоположения, фотографий, контактной информации, меток и тех, кто может найти ваш профиль через поиск.
  • Настройки безопасности, скорее всего, будут связаны с возможностью блокирования других учетных записей и способов оповещения о попытках неавторизированного доступа к вашей учетной записи. Иногда в этом разделе будут присутствовать настройки входа в аккаунт: например, включение двухфакторной аутентификации и запасной адрес электронной почты/номер телефона. Иногда эти настройки, наряду с возможностью изменить пароль, могут оказаться в настройках учётной записи или в разделе настроек входа в аккаунт.

Воспользуйтесь «проверками» настроек безопасности и конфиденциальности. Facebook, Google и многие другие солидные веб-сайты предлагают провести «проверку настроек безопасности» учётной записи. Эти проверки представляют собой превосходные пошаговые руководства, описанные простым языком и помогающие пользователю подходящим образом настроить безопасность и конфиденциальность своей учётной записи.

Помните, что настройки конфиденциальности могут измениться. Иногда они могут становиться более надёжными и детальными, а иногда – наоборот. Обращайте пристальное внимание на эти изменения – вдруг информация, бывшая конфиденциальной, внезапно стала открытой для всех, или новые дополнительные настройки позволят лучше контролировать уровень вашей конфиденциальности?

Интернет-компании: через «отпечатки» браузеров

Но далеко не всегда компаниям нужно возиться с cookies, чтобы отследить вас в интернете.

Зайдите на сайт AmIUnique (или другой похожий), нажмите «My browser fingerprint» – и вам покажут, насколько ваш компьютер и браузер уникальны, то есть насколько просто его отследить среди остальных посетителей.

Любой сайт может получить множество данных о браузере и устройстве, на котором он запущен: версию программы, часовой пояс, установленные шрифты, языки и десятки других настроек. Хотя каждая из этих деталей не позволяет однозначно выделить вас из толпы, все вместе они часто создают уникальный «цифровой отпечаток пальцев» устройства. И вас заодно.

Скажем, на сайт постоянно могут заходить сотни тысяч людей, использующих Windows-версию браузера Chrome. Но лишь у одного из них будет браузер Chrome версии 76.0.3509 под Windows 8.1 при разрешении экрана 1920×1080, а в системе при этом найдутся английский, французский, казахский и русский языки. Соответственно, такому пользователю присваивается уникальный идентификатор и в дальнейшем о нем собирается информация по всему интернету. Этим занимаются брокеры данных: они собирают, покупают и продают максимально подробную информацию о профилях пользователей. В очень упрощенном виде это может выглядеть так: «человек с отпечатком XXYYYZZ, скорее всего, в возрасте 18-25 лет, не женат, любит путешествия и машины, курит, живет, скорее всего, в городе N или окрестностях», однако часто профили будут содержать массу подробностей, особенно если человек активен в интернете.

«Цифровые отпечатки пальцев» используются, конечно же, не только для интернет-слежки. Сайты банков могут применять их для дополнительной защиты: если пользователь прежде все время заходил через Safari на MacOS, при попытке залогиниться через Firefox на Windows вам предложат на всякий случай еще разок ввести имя и пароль.

Как бороться? Пользоваться новейшими версиями браузеров. Chrome, Firefox, Safari анонсировали и внедрили ряд функций для борьбы со слежкой. Радикальное решение – отключить Javascript, язык, который используется для сбора данных; но большинство сайтов тогда сразу «поломаются». Можно попробовать пересесть на самый популярный смартфон-планшет-ноутбук в вашем регионе и не персонализировать настройки.

Ссылка на основную публикацию
Статьи c упоминанием слов:
Adblock
detector