0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Импорт данных из PDF в Excel через Power Query

Импорт данных из PDF в Excel через Power Query

Задача переноса данных из таблицы в PDF-файле на лист Microsoft Excel — это всегда «весело». Особенно если у вас нет дорогих программ распознавания типа FineReader или чего-то подобного. Прямое копирование обычно ни к чему хорошему не приводит, т.к. после вставки скопированных данных на лист, они, скорее всего, «слипнутся» в один столбец. Так что их потом придется кропотливо разделять с помощью инструмента Текст по столбцам с вкладки Данные (Data — Text to Columns) .

И само-собой, копирование возможно только для тех PDF-файлов, где есть текстовый слой, т.е. с только что отсканированным с бумаги в PDF документом это не сработает в принципе.

Но все не так грустно, на самом деле 🙂

Если у вас Office 2013 или 2016, то за пару минут без дополнительных программ вполне можно реализовать перенос данных из PDF в Microsoft Excel. А помогут нам в этом Word и Power Query.

Для примера, давайте возьмем вот такой PDF-отчет с кучей текста, формул и таблиц с сайта Европейской Экономической Комиссии:

. и попробуем вытащить из него в Excel, скажем первую таблицу:

Шаг 1. Открываем PDF в Word

Почему-то мало кто знает, но начиная с 2013 года Microsoft Word научился открывать и распознавать PDF файлы (даже отсканированные, т.е. без текстового слоя!). Делается это совершенно стандартным образом: открываем Word, жмем Файл — Открыть (File — Open) и уточняем PDF-формат в выпадающем списке в правом нижнем углу окна.

Затем выбираем нужный нам PDF-файл и жмем Открыть (Open) . Word сообщает нам, что собирается запустить распознавание этого документа в текст:

Соглашаемся и через несколько секунд увидим наш PDF открытым для редактирования уже в Word:

Само-собой, у документа частично слетит дизайн, стили, шрифты, колонтитулы и т.п., но для нас это не важно — нам нужны только данные из таблиц. В принципе, на этом этапе уже возникает соблазн дальше просто скопировать таблицу из распознанного документа в Word и просто вставить ее в Excel. Иногда это срабатывает, но чаще приводит ко всевозможным искажениям данных — например числа могут превратиться в даты или остаться текстом, как в нашем случае, т.к. в PDF используется не российские разделители:

Читать еще:  Скачать конструктор программ на русском. Удобные инструменты для создания программ. Выбор инструмента для создания программ

Так что давайте не будем срезать углы, а сделаем все чуть сложнее, но правильно.

Этап 2. Сохраняем документ как веб-страницу

Чтобы потом загрузить полученные данные в Excel (через Power Query), наш документ в Word нужно сохранить в формате веб-страницы — этот формат является, в данном случае, неким общим знаменателем между Word’ом и Excel’ем.

Для этого идем в меню Файл — Сохранить как (File — Save As) или жмем клавишу F12 на клавиатуре и в открывшемся окне выбираем тип файла Веб-страница в одном файле (Webpage — Single file) :

После сохранения должен получиться файл с расширением mhtml (если у вас в Проводнике видны расширения файлов).

Этап 3. Загружаем файл в Excel через Power Query

Можно открыть созданный MHTML-файл в Excel напрямую, но тогда мы получим, во-первых сразу все содержимое PDF вместе текстом и кучей ненужных таблиц, а, во-вторых, опять потеряем данные из-за неправильных разделителей. Поэтому импорт в Excel мы будем делать через надстройку Power Query. Это совершенно бесплатная надстройка, с помощью которой можно загружать в Excel данные практически из любых источников (файлов, папок, баз данных, ERP-систем) и всячески затем полученные данные трансформировать, придавая им нужную форму.

Если у вас Excel 2010-2013, то скачать Power Query можно с официального сайта Microsoft — после установки у вас появится вкладка Power Query. Если у вас Excel 2016 или новее, то качать ничего не нужно — весь функционал уже встроен в Excel по-умолчанию и находится на вкладке Данные (Data) в группе Загрузить и преобразовать (Get & Transform) .

Так что идем либо на вкладку Данные, либо на вкладку Power Query и выбираем команду Получить данные или Создать запрос — Из файла — Из XML. Чтобы были видны не только XML-файлы — меняем в выпадающем списке в правом нижнем углу окна фильтры на Все файлы (All files) и указываем наш MHTML-файл:

Обратите внимание, что импорт успешно не завершится, т.к. Power Query ждет от нас XML, а у нас, на самом деле, HTML-формат. Поэтому в следующем появившемся окне нужно будет щелкнуть правой кнопкой мыши по непонятному для Power Query файлу и уточнить его формат:

Читать еще:  Резервное хранение данных в облаке. Сохраняем фото в облаке: лучшие сервисы. Преимущества хранения резервных копий данных в облаке

После этого файл будет корректно распознан и мы увидим список всех таблиц, которые в нем есть:

Посмотреть содержимое таблиц можно, если щелкать левой кнопкой мыши в белый фон (не в слово Table!) ячеек в столбце Data.

Когда нужная таблица определена, щелкните по зеленому слову Table — и вы «провалитесь» в её содержимое:

Останется проделать несколько простых действий, чтобы «причесать» ее содержимое, а именно:

  1. удалить ненужные столбцы (правой кнопкой мыши по заголовку столбца — Удалить)
  2. заменить точки на запятые (выделить столбцы, щелкнуть правой — Замена значений)
  3. удалить знаки равно в шапке (выделить столбцы, щелкнуть правой — Замена значений)
  4. удалить верхнюю строку (Главная— Удалить строки — Удаление верхних строк)
  5. удалить пустые строки (Главная — Удалить строки — Удаление пустых строк)
  6. поднять первую строку в шапку таблицы (Главная — Использовать первую строку в качестве заголовков)
  7. отфильтровать лишние данные с помощью фильтра

Когда таблица будет приведена в нормальный вид, ее можно выгрузить на лист командой Закрыть и загрузить (Close & Load) на Главной вкладке. И мы получим вот такую красоту, с которой уже можно работать:

Как сохранить веб-страницу в формате PDF в программе Microsoft Internet Explorer

Internet Explorer – это один из самых популярных интернет-браузеров.

Чтобы сохранить веб-страницу в формате PDF в программе Internet Explorer, скачайте и установите Универсальный Конвертер Документов. Затем, пожалуйста, следуйте этим инструкциям:

  • 1
  • 2
  • 3
  • 4

CRM система OneBox

настроив интеграцию с телефонией:

  • делать исходящие вызовы и принимать звонки;
  • получать историю и звукозаписи звонков в раздел событий;
  • видеть всплывающее окно, где можно вывести: контактные данные клиента, страну звонка, запустить процесс, создать карточку контакта.

настроив интеграцию с email:

  • отправлять письма с CRM вручную;
  • отправлять письма с CRM автоматическими действиями;
  • создавать шаблоны для писем;
  • делать массовые рассылки;
  • письма в виде цепочки переписки загружаются в события системы, где их можно: посмотреть, написать ответ или переслать, превратить в процесс.

На сегодняшний день, с целью диверсификации источников получения выручки, практически каждая компания, занима.

Телефония в широком смысле – это система аппаратных и программных средств связи, обеспечивающих коммуни.

Какие есть варианты запуска магазина в CRM, что позволит такая интеграция и в чем ее ценность — об этом пойдет речь.

Новую неделю обучающих уроков мы начнем с API цены товаров. Мы покажем как работать с этим API, как формирова.

Ваша компания выросла из «малыша», в котором обзвоном клиентов, обработкой заказов, формированием.

Что делать, если заказчиков не десяток, а сотни или даже тысячи. Как не запутаться в предпочтениях каждого кл.

Читать еще:  Какой принтер выбрать?

Примеры интерфейс OneBox

Удобный и понятный интерфейс позволит вам внедрить OneBox без особых сложностей. Особенность OneBox, что вы можете настраивать интерфейс для каждого сотрудника, для каждой роли, для каждого процесса компании самостоятельно через интуитивный конструктор интерфейс меню. Вам нравится минимализм? Не вопрос, оставьте только те данные, которые хотите видеть. Ваши сотрудники хотят видеть максимум информации? Не надо быть программистом, чтобы за 5-7 минут настроить вывод требуемых данных.

5 причин выбрать OneBox:CRM+ERP

  • 1 Полное управление всех отделов в едином решении.
  • 2 Исключает человеческие ошибки.
  • 3 Убирает рутину из вашей работы. Все, что может делать не человек делает OneBox.
  • 4 Возможность работы из любой точки мира, без привязки к рабочему месту.
  • 5 Ваши задачи, уведомления, сообщения никогда не потеряются.

Полезные фишки от OneBox

ВНЕШНИМ РАЗРАБОТЧИКАМ ONEBOX: CRM+ERP

В целом, OneBox можно подключить к вашему сайту, 1C бухглатерии, Google сервисам и другим внешним инструментам, которые вы можете использовать.

  • №1 узнать CRM — работает без выходных
  • №2 узнать CRM — не просит повышение зарплаты
  • №3 узнать CRM — не может уволиться
  • №4 узнать CRM — не может проспать важную встречу
  • №5 узнать CRM — не нужна мотивация работать
  • №6 узнать CRM — не перейдёт работать к конкуренту
  • №7 узнать CRM — не уйдет в декрет

Преимущества OneBox: CRM+ERP над другими, аналогичными продуктами

OneBox — это кроссплатформенная CRM и ERP, которая позволяет вам работать с любой точки мира. Вы не зависите от рабочего места и можете работать с ноутбука, планшета, телефона.

Вы настоящий хозяин CRM и ERP. OneBox позволяет вам управлять настройками автоматизации без привлечения программистов. Так вы экономите деньги, время на то, чтобы изменять условия работы программного обеспечения. Никакая другая CRM или ERP такой возможности вам не предоставляет.

Мы можем много говорить о том, что OneBox — это уникальное решение и аналогов пока нет на рынке СНГ. Если кратко, то:

  • возможность выкупа лицензий
  • OneBox — это конструктор, который вы можете собрать идеально под свои потребности
  • практически не требует привлечение программистов для кастомизации
  • самое эффективное решение в соотношение цена и возможности

Внедрение OneBox: CRM+ERP

OneBox: CRM + ERP — это уникальный продукт с огромными возможностями. Это конструктор, который идеально подстроится под ваши потребности. Продукт максимально подготовлен под рынок СНГ. Мы работаем в России, Казахстане, Белоруссии, Украине и других странах. Вы можете ознакомиться с нашим продуктом дистанционно, или приехать к нам в офис.

Ссылка на основную публикацию
Статьи c упоминанием слов:

Adblock
detector