Федеральное
государственное автономное образовательное учреждение высшего профессионального
образования
"Национальный исследовательский университет "Высшая школа экономики"
Институт демографии
База данных Института демографии
Исследовательский проект "Разработка Базы данных демографических
показателей по регионам России и странам мира"
№11-04-0039 по конкурсу Программы "Научный фонд ГУ-ВШЭ" "Учитель-Ученики"
2011-2012 гг.
|
.
.
Зачем еще одна база данных?
Как начать работу в Базе данных?
В чем отличие от других баз данных?
Что такое показатель?
Что такое разрез?
Какие источники были использованы?
Какие показатели есть в Базе данных?
Что такое информационный массив?
Какие форматы имеет результат запроса?
Как быстрее найти нужный показатель?
Какие единицы измерения использованы?
Что содержит результат запроса при наличии
показателя в нескольких разных источниках?
В чем отличие итоговой и суммарной рождаемости?
Чем отличается численность мигрантов и
численность эмигрантов?
|
Зачем
еще одна база данных?
База данных представляет собой коллекцию демографических
данных, собранных из различных источников. База данных
обладает рядом принципиальных отличий, реализующих новые
подходы к созданию подобных баз данных. Новизна подходов
состоит в следующем.
1. База данных представляет собой коллекцию информационных
массивов, создаваемую из различных источников. Данный
подход позволяет решить проблему неоднозначности значения
показателя для заданного периода, региона и др.
2. Формирование запроса к Базе данных производится по
заданному пользователем демографическому показателю
и его разрезу путем обращения к данной коллекции "на
лету".
3. Пользователю Базы данных предоставляется возможность
выбора одного или нескольких источников данных только
тех, которым он доверяет при формировании результата
запроса по конкретному показателю и его разрезу.
4. При разработке Базы данных было предложено решение
проблемы эффективного определение того, что же такое
демографический показатель. С этой целью предложен и
реализован принцип, который можно коротко сформулировать
как "Показатель = индикатор + разрез". Реализация
данного принципа позволило продемонстрировать экономное
формирование списка показателей.
5. В Базе данных реализован метод автоматического пересчета
значений показателя, измеренных в различных единицах
измерения, полученных из различных источников, без участия
пользователя.
6. База данных снабжена фильтром тех значений показателя,
которые были получены в различных источниках, но содержат
те или иные ошибки, которые заведомо противоречат данным
демографии и статистики. Данная функция позволяет не
пропустить эти недопустимые значения в формируемый результат
запроса. Необходимость этого возникла ввиду нередкого
попадания таких значений в исходные информационные массивы.
|
Как
начать работу в Базе данных?
Используйте для этого список показателей
и разрезов или непосредственный доступ к
отдельному показателю.
|
В чем
отличие от других баз данных?
Имеющиеся базы данных имеют существенные ограничения
на размерность содержащихся в них демографических показателей.
Большинство из них двухмерные (страна-период), реже
- трехмерные. В разрабатываемой базе данных какие-либо
ограничения на размерность практически отсутствуют:
каждый показатель может иметь несколько произвольных
категорий, по которым База данных содержит его значения.
|
Что
такое показатель?
Основной единицей доступа в Базе данных является демографический
показатель - индикатор, характеризующий количественно
ту или иную структуру населения, сторону демографического
процесса, его абсолютную или относительную величину,
направление или интенсивность. Для каждого интикатора
имеется формула или алгоритм расчета, а также исходные
данные демографической статистики.
|
Что
такое разрез?
Каждый показатель может быть рассчитан для определенного
периода времени, территории и других признаков, характеризующих
население или демографический процесс. Эти признаки
наряду с территорией и периодом образуют разрез - совокупность
категорий, по которым База данных содержит значения
данного показателя, например, по полу, возрасту, году,
стране, направлению миграции,... Показатель может иметь
несколько разрезов, например, по странам мира и по регионам
России. Пользователь системы имеет возможность выбрать
любой показатель и один из его разрезов.
|
Какие
источники были использованы?
В Базе данных использовано более 20 источников. Большинство
из них проанализированы и описаны на странице Источники
демографической информации. В их число входят базы
данных международных организаций, национальных статистических
служб, публикаций Росстата. Кроме этого использованы:
База данных INED, раздел Приложения демографического
еженедельника Демоскоп Weekly, ежегодные демографические
доклады Население России Института демографии НИУ ВШЭ.
Перечень источников постоянно расширяется.
|
Какие
показатели есть в Базе данных?
Список показателей содержится в раскрывающем списке
при доступе к отдельному показателю,
а также на странице со списоком показателей
и разрезов.
|
Что
такое информационный массив?
Информационный массив (data cube) - минимальная порция
демографических данных. Содержит значения одного конкретного
показателя, полученных их одного конкретного источника
данных в некоторый момент времени. В его качестве может
служить база данных, файл, электронное издание или публикация.
На конец 2012 года система содержит около 400 массивов.
|
Какие
форматы имеет результат запроса?
Для сделанного пользователем выбора показатель - разрез
система формирует результат запроса. Фрагмент этого
результата изображается на экране в виде таблицы с первыми
и последними строками и столбцами. Полный результат
запроса может иметь форму текстового (CSV) или Excel
файла, доступ к которым предоставляется после выбора
соответствующей кнопки. Если часть из использованных
источников данных по каким-либо соображениям вызывает
сомнения или недоверие, пользователь имеет возможность
уточнить перечень использованных источников, отметив
только те из них, которые его устраивают. В этом случае
результат запроса будет пересчитан.
|
Как
быстрее найти нужный показатель?
Общее число показателей в Базе данных приближается к
сотне. Как ориентироваться в их длинном списке? Чтобы
ускорить и облегчить поиск нужного показателя система
предоставляет возможность сужения перечня путем выбора
показателей 1) по виду демографических процессов и 2)
по характеру индикатора. Первый список содержит 6 позиций:
рождаемость, смертность, миграция, брачность, воспроизводство,
население. Второй - абсолютные, относительные, возрастные
и интегральные показатели.
|
Какие
единицы измерения использованы?
При разработке Базы данных накоплен определенный опыт
описания информационных массивов, в том числе по такой
важной характеристике, как единица измерения демографического
показателя. Единицы измерения, использованные в Базе
данных по состоянию на 30.11.2012, представлены на странице
db.demoscope.ru/bd_unit.php.
|
Что
содержит результат запроса при наличии показателя в
нескольких разных источниках?
При наличии конкретного показателя и его разреза в двух
или более источниках система действует по следующему
принципу: для каждой комбинации категорий значение этого
показателя берется из того источника, который имеет
максимальный рейтинг. Текущее состояние рейтинга источников
отражено на странице db.demoscope.ru/bd_rating.php.
|
В
чем отличие итоговой и суммарной рождаемости?
Как известно, ряд демографических показателей рассчитывается
для условного и реального поколения. Если назвать этот
показатель одинаковым образом для того и для другого,
потребовалось бы дополнить разрез данного показателя
категорией поколения (со значениями условное / реальное).
Чтобы избежать этого, одним из возможных подходов состоит
в том, чтобы назвать этот показатель немного по-разному,
но близким по смыслу этого показателя. При этом само
название показателя будет содержать информацию о том,
для какого поколения он рассчитан. В данном случае итоговая
рождаемость в данной базе данных - то же, что коэффициент
суммарной рождаемости для реальных поколений женщин
по году их рождения.
|
Чем
отличается численность мигрантов и численность эмигрантов?
Численность мигрантов - показатель более широкий по
смыслу по сравнению с численностью эмигрантов. В рамках
данной базы данных предполагается, что для доступа к
статистическим данным о численности эмигрантов показатель
численность мигрантов требует указания категории "направление
миграции". Оно может принимать значения выезд (out-migration),
приезд (in-migration) и чистая миграция (net migration).
В этом случае для описания трех традиционных показателей
численности эмигрантов, численности иммигрантов и миграционного
прироста потребуется лишь одна строчка в списке показателей.
Таким образом, численность эмигрантов = численность
мигрантов со значением категории направления миграции
равном "выезд". Поскольку предложенный подход
может быть воспринят не совсем обычным, на данном этапе
разработки базы данных в справочник показателей введены
оба показателя. Это не должно вызывать сомнений, так
как носит временный, методический характер: такая множественность
в будущем предполагается устранить с учетом пожеланий
пользователя. Сразу отметим, что использование показателя
численность мигрантов имеет как минимум одно важное
преимущество: числа прибывших, уехавших и нетто-миграция
населения некоторой территории могут быть получены в
одном запросе к данному показателю. Для трех разных
показателей эмигрантов, иммигрантов и сальдо потребовалось
бы выполнить три запроса.
|
|
|
Версия 1.1 от 28.12.2012
.
|
|