Узнайте, где найти данные для исследования. ПингвинКапитал представляет образовательные ресурсы, базы данных и другие полезные источники информации. Получите доступ к бесплатным материалам для вашего исследования.
Cодержание
Концепция открытого доступа к научным данным была институционализирована при подготовке Международного геофизического года (1957—1958). Международный совет по науке организовал систему центров данных для минимизации риска потери данных и максимизации их доступности. В 1955 году было рекомендовано организовать доступ к этим данным в машинно-читаемой форме.
На конференции Science Commons, посвящённой открытым данным (Вашингтон, 2006), было указано, что защита данных в таких областях, как биотехнология, приводит к возникновению трагедии антиобщин: необходимость получения лицензий от значительного числа их владельцев делает исследования в этих областях экономически невыгодными.
В 2010 году были сформулированы Пантонские принципы, которым должны соответствовать данные для признания их открытыми.
«КиберЛенинка»
Один из самых известных образовательных сайтов в Рунете. Система выстроена на основе собственной программы, задача которой – популяризация науки в целом и научной деятельности в частности.
В каталоге представлены основные дисциплины, он регулярно пополняется публикациями из журналов с индексированием ВАК и РИНЦ. Большая часть статей – на русском языке. Ресурс бесплатный, необходима регистрация.
«eLibrary»
Сюда активно вносятся статьи из журналов ВАК и РИНЦ. В новостном блоге всегда можно узнать последние новости о прекращении индексирования. Просмотр большинства статей является бесплатным, но необходима предварительная регистрация.
Для просмотра отдельных статей необходимо предварительно получать специальный пароль организации или учебного заведения. В некоторых университетах публикация материалов на этом сайте студентами и их научными руководителями считается обязательным этапом к лицензированию учебных кафедр и всего вуза.
См. также
«Scholar.ru»
Российская электронная база научных публикаций, в которой можно искать необходимый журнал и работать бесплатно в режимах простого и расширенного поиска. Сайт индексирует любую статью или исследование, рефераты диссертаций и монографии. Для работы необходима предварительная регистрация.
«Math-Net.ru»
Сайт заявлен как общероссийский математический портал, в котором будущие и действующие математики и другие специалисты по техническим направленностям могут получить информацию по своей сфере. Работа портала ведется с 2006 года.
Доступ к большей части изданий бесплатный, но посмотреть их можно при наличии зарегистрированного аккаунта. Система объединяет больше 100 индексируемых журналов на русском языке. Также размещены семинары и конференции.
«ЭБС «Университетская Библиотека Онлайн»
Университетская электронно-библиотечная система предоставляет бесплатно доступ к первоисточникам для студентов учебных заведений. Помимо журналов, база данных содержит справочники, словари, энциклопедии, а также аудио- и видеоматериалы.
См. также
«Российская государственная библиотека»
Научный сайт внедрил с недавнего времени обновленный алгоритм поиска в собственном каталоге для того, чтобы узнавать много полезной информации для изучения различных отраслей. В свободном доступе есть огромная коллекция авторитетных статей и научных работ, которые можно использовать в своих проектах.
Kaggle
Kaggle изначально задумывался как сайт для дата-сайентистов, где они могли бы хвастаться собранными данными. Со временем проект вырос в библиотеку открытых данных.
Датасеты можно отфильтровать по темам, качеству обработки, формату файлов и типу лицензии, по которой их добавили на сайт.
Awesome data на GitHub
В этом репозитории хранится две сотни датасетов, сгруппированные по темам. Эту подборку составляют и обновляют сами пользователи Гитхаба, добавляя туда данные из открытых источников. Если с датасетом что-то не так, пользователи сообщают об этом в комментариях, и такой набор данных помечается жёлтым значком. Это значит, что с данными могут быть сложности — например, не хватает части заполненных полей или некоторые данные перемешаны.
См. также
Pew Research
The Pew Research Center — американская компания, которая занимается исследованиями социальных вопросов, общественного мнения и демографических тенденций в США и мире. С 2004 года у центра накопилось много данных, которые он периодически выкладывает на сайт.
Чаще всего центр выкладывает сырые и необработанные данные — самое то для специалиста по data-science. Для скачивания датасетов нужна регистрация — она бесплатная, нужен только адрес электронной почты.
Open Data Network
Это не сайт с каталогами датасетов, а один из самых мощных поисковиков биг-даты. Он ищет сразу по сотням ресурсов с открытыми данными и выводит описание для каждого результата. Так как источников много, то данные могут быть как сырыми, так и очищенными и готовыми для анализа, поэтому смотрите внимательнее на датасеты перед началом работы.
При желании с каждым датасетом можно поработать по API, чтобы не тащить себе все данные. Там же — инструкции о том, как это сделать:
Данные Минздрава и Минкульта
А вот официальная биг-дата от государства. Это данные, которые ведомства выкладывают в открытый доступ. Огромный плюс в том, что эти данные могут показать интересные взаимосвязи между разными элементами, которые происходят в нашей стране.
Если вы хотели сделать полезный проект с биг-датой, но не нашли нужные данные, не отчаивайтесь. С каждым годом доступных источников становится все больше, и возможности для исследований становятся шире.
См. также
Политические и правительственные данные
Медицинские данные
Социальные данные
Общедоступные наборы данных
Климатические данные
Спортивные данные
Газеты
Музыкальные данные
Многие источники с открытыми данными можно найти на диаграмме LOD cloud (https://lod-coud.net). Она показывает связи между разными источниками открытых данных, которые доступны в сети.
Что нам скажет Википедия?
Где найти данные для исследования?
Концепция открытого доступа к научным данным была институционализирована при подготовке Международного геофизического года (1957—1958). Международный совет по науке организовал систему центров данных для минимизации риска потери данных и максимизации их доступности. В 1955 году было рекомендовано организовать доступ к этим данным в машинно-читаемой форме.
На конференции Science Commons, посвящённой открытым данным (Вашингтон, 2006), было указано, что защита данных в таких областях, как биотехнология, приводит к возникновению трагедии антиобщин: необходимость получения лицензий от значительного числа их владельцев делает исследования в этих областях экономически невыгодными.
В 2010 году были сформулированы Пантонские принципы, которым должны соответствовать данные для признания их открытыми.