Федеральное государственное автономное образовательное учреждение высшего профессионального образования
"Национальный исследовательский университет "Высшая школа экономики"
Институт демографии
База данных Института демографии
Исследовательский проект "Разработка Базы данных демографических показателей по регионам России и странам мира"
№11-04-0039 по конкурсу Программы "Научный фонд ГУ-ВШЭ" "Учитель-Ученики" 2011-2012 гг.
.

Часто задаваемые вопросы

.
 

Зачем еще одна база данных?
Как начать работу в Базе данных?
В чем отличие от других баз данных?
Что такое показатель?
Что такое разрез?
Какие источники были использованы?
Какие показатели есть в Базе данных?
Что такое информационный массив?
Какие форматы имеет результат запроса?
Как быстрее найти нужный показатель?
Какие единицы измерения использованы?
Что содержит результат запроса при наличии показателя в нескольких разных источниках?
В чем отличие итоговой и суммарной рождаемости?
Чем отличается численность мигрантов и численность эмигрантов?

Зачем еще одна база данных?
База данных представляет собой коллекцию демографических данных, собранных из различных источников. База данных обладает рядом принципиальных отличий, реализующих новые подходы к созданию подобных баз данных. Новизна подходов состоит в следующем.
1. База данных представляет собой коллекцию информационных массивов, создаваемую из различных источников. Данный подход позволяет решить проблему неоднозначности значения показателя для заданного периода, региона и др.
2. Формирование запроса к Базе данных производится по заданному пользователем демографическому показателю и его разрезу путем обращения к данной коллекции "на лету".
3. Пользователю Базы данных предоставляется возможность выбора одного или нескольких источников данных только тех, которым он доверяет при формировании результата запроса по конкретному показателю и его разрезу.
4. При разработке Базы данных было предложено решение проблемы эффективного определение того, что же такое демографический показатель. С этой целью предложен и реализован принцип, который можно коротко сформулировать как "Показатель = индикатор + разрез". Реализация данного принципа позволило продемонстрировать экономное формирование списка показателей.
5. В Базе данных реализован метод автоматического пересчета значений показателя, измеренных в различных единицах измерения, полученных из различных источников, без участия пользователя.
6. База данных снабжена фильтром тех значений показателя, которые были получены в различных источниках, но содержат те или иные ошибки, которые заведомо противоречат данным демографии и статистики. Данная функция позволяет не пропустить эти недопустимые значения в формируемый результат запроса. Необходимость этого возникла ввиду нередкого попадания таких значений в исходные информационные массивы.

Как начать работу в Базе данных?
Используйте для этого список показателей и разрезов или непосредственный доступ к отдельному показателю.

В чем отличие от других баз данных?
Имеющиеся базы данных имеют существенные ограничения на размерность содержащихся в них демографических показателей. Большинство из них двухмерные (страна-период), реже - трехмерные. В разрабатываемой базе данных какие-либо ограничения на размерность практически отсутствуют: каждый показатель может иметь несколько произвольных категорий, по которым База данных содержит его значения.

Что такое показатель?
Основной единицей доступа в Базе данных является демографический показатель - индикатор, характеризующий количественно ту или иную структуру населения, сторону демографического процесса, его абсолютную или относительную величину, направление или интенсивность. Для каждого интикатора имеется формула или алгоритм расчета, а также исходные данные демографической статистики.

Что такое разрез?
Каждый показатель может быть рассчитан для определенного периода времени, территории и других признаков, характеризующих население или демографический процесс. Эти признаки наряду с территорией и периодом образуют разрез - совокупность категорий, по которым База данных содержит значения данного показателя, например, по полу, возрасту, году, стране, направлению миграции,... Показатель может иметь несколько разрезов, например, по странам мира и по регионам России. Пользователь системы имеет возможность выбрать любой показатель и один из его разрезов.

Какие источники были использованы?
В Базе данных использовано более 20 источников. Большинство из них проанализированы и описаны на странице Источники демографической информации. В их число входят базы данных международных организаций, национальных статистических служб, публикаций Росстата. Кроме этого использованы: База данных INED, раздел Приложения демографического еженедельника Демоскоп Weekly, ежегодные демографические доклады Население России Института демографии НИУ ВШЭ. Перечень источников постоянно расширяется.

Какие показатели есть в Базе данных?
Список показателей содержится в раскрывающем списке при доступе к отдельному показателю, а также на странице со списоком показателей и разрезов.

Что такое информационный массив?
Информационный массив (data cube) - минимальная порция демографических данных. Содержит значения одного конкретного показателя, полученных их одного конкретного источника данных в некоторый момент времени. В его качестве может служить база данных, файл, электронное издание или публикация. На конец 2012 года система содержит около 400 массивов.

Какие форматы имеет результат запроса?
Для сделанного пользователем выбора показатель - разрез система формирует результат запроса. Фрагмент этого результата изображается на экране в виде таблицы с первыми и последними строками и столбцами. Полный результат запроса может иметь форму текстового (CSV) или Excel файла, доступ к которым предоставляется после выбора соответствующей кнопки. Если часть из использованных источников данных по каким-либо соображениям вызывает сомнения или недоверие, пользователь имеет возможность уточнить перечень использованных источников, отметив только те из них, которые его устраивают. В этом случае результат запроса будет пересчитан.

Как быстрее найти нужный показатель?
Общее число показателей в Базе данных приближается к сотне. Как ориентироваться в их длинном списке? Чтобы ускорить и облегчить поиск нужного показателя система предоставляет возможность сужения перечня путем выбора показателей 1) по виду демографических процессов и 2) по характеру индикатора. Первый список содержит 6 позиций: рождаемость, смертность, миграция, брачность, воспроизводство, население. Второй - абсолютные, относительные, возрастные и интегральные показатели.

Какие единицы измерения использованы?
При разработке Базы данных накоплен определенный опыт описания информационных массивов, в том числе по такой важной характеристике, как единица измерения демографического показателя. Единицы измерения, использованные в Базе данных по состоянию на 30.11.2012, представлены на странице db.demoscope.ru/bd_unit.php.

Что содержит результат запроса при наличии показателя в нескольких разных источниках?
При наличии конкретного показателя и его разреза в двух или более источниках система действует по следующему принципу: для каждой комбинации категорий значение этого показателя берется из того источника, который имеет максимальный рейтинг. Текущее состояние рейтинга источников отражено на странице db.demoscope.ru/bd_rating.php.

В чем отличие итоговой и суммарной рождаемости?
Как известно, ряд демографических показателей рассчитывается для условного и реального поколения. Если назвать этот показатель одинаковым образом для того и для другого, потребовалось бы дополнить разрез данного показателя категорией поколения (со значениями условное / реальное). Чтобы избежать этого, одним из возможных подходов состоит в том, чтобы назвать этот показатель немного по-разному, но близким по смыслу этого показателя. При этом само название показателя будет содержать информацию о том, для какого поколения он рассчитан. В данном случае итоговая рождаемость в данной базе данных - то же, что коэффициент суммарной рождаемости для реальных поколений женщин по году их рождения.

Чем отличается численность мигрантов и численность эмигрантов?
Численность мигрантов - показатель более широкий по смыслу по сравнению с численностью эмигрантов. В рамках данной базы данных предполагается, что для доступа к статистическим данным о численности эмигрантов показатель численность мигрантов требует указания категории "направление миграции". Оно может принимать значения выезд (out-migration), приезд (in-migration) и чистая миграция (net migration). В этом случае для описания трех традиционных показателей численности эмигрантов, численности иммигрантов и миграционного прироста потребуется лишь одна строчка в списке показателей. Таким образом, численность эмигрантов = численность мигрантов со значением категории направления миграции равном "выезд". Поскольку предложенный подход может быть воспринят не совсем обычным, на данном этапе разработки базы данных в справочник показателей введены оба показателя. Это не должно вызывать сомнений, так как носит временный, методический характер: такая множественность в будущем предполагается устранить с учетом пожеланий пользователя. Сразу отметим, что использование показателя численность мигрантов имеет как минимум одно важное преимущество: числа прибывших, уехавших и нетто-миграция населения некоторой территории могут быть получены в одном запросе к данному показателю. Для трех разных показателей эмигрантов, иммигрантов и сальдо потребовалось бы выполнить три запроса.

 

 

Версия 1.1 от 28.12.2012

.

 

База данныхСписок показателей и разрезовФормирование запроса
Новое в Базе данныхОписание источников демографической информацииРейтинг источников Часто задаваемые вопросы