суботу, 30 червня 2012 р.

Де взяти дані для аналізу в R?

При вивченні різних технік аналізу даних (часові ряди, факторний аналіз, data mining) потрібно, перш за все, мати набір даних, на яких ці техніки можна застосовувати.
В R доступний готовий пакет datasets-package де можна обрати собі дані до вподоби як по формату даних, так і по предметній області.
Стислий опис наборів:


- A --

ability.covAbility and Intelligence Tests (Тести для перевірки здібностей; коваріаційна матриця)
airmilesPassenger Miles on Commercial US Airlines, 1937-1960 (Доходи з пасажиро-миль польотів комерційних авіаліній США; часовий ряд)
AirPassengersMonthly Airline Passenger Numbers 1949-1960 (Помісячна кількість пасажирів при міжнародних перевезеннях, часовий ряд)
airqualityNew York Air Quality Measurements (Щоденні дані якості повітря в Нью-Йорку; датафрейм)
anscombeAnscombe's Quartet of 'Identical' Simple Linear Regressionsа (Чотири набори даних, які мають однакові статистичні властивості (середнє, дисперсія, кореляція, регресія і т.д.), але зовсім різні; датафрейм)
attenuThe Joyner-Boore Attenuation Data (Пік прискорення, виміряний під час 23 землетрусів у Каліфорнії; датафрейм)
attitudeThe Chatterjee-Price Attitude Data (Опитування клерків великих фінансових організацій;  датафрейм)
austresQuarterly Time Series of the Number of Australian Residents (Поквартальна кількість жителів Австралії, часовий ряд)

-- B --

beaver1Body Temperature Series of Two Beavers (Температура тіла канадських бобрів; датафрейм)
beaver2Body Temperature Series of Two Beavers (Температура тіла канадських бобрів; датафрейм)
beaversBody Temperature Series of Two Beavers (Температура тіла канадських бобрів; датафрейм)
BJsalesSales Data with Leading Indicator (Часовий ряд продажів з випереджальним індикатором; часовий ряд)
BJsales.leadSales Data with Leading Indicator (Часовий ряд продажів з випереджальним індикатором; часовий ряд)
BODBiochemical Oxygen Demand (Біохімічна потреба в кисні в залежності від часу в оцінці якості води; датафрейм)

-- C --

carsSpeed and Stopping Distances of Cars (Швидкість автомобіля та відстань, яка потрібна для зупинки, дані 1920 року; датафрейм))
ChickWeightWeight versus age of chicks on different diets  (Дані експериментів з підбору оптимальної дієти для курчат; набір векторів)
chickwtsChicken Weights by Feed Type (Дослідження ефективності харчових домішок у вигодовуванні курчат; датафрейм)
CO2Carbon Dioxide Uptake in Grass Plants (Дані СО2 на рослинах виду Echinochloa crus-galli; набір векторів)
co2Mauna Loa Atmospheric CO2 Concentration (Концентрація СО2 в атмосфері; часовий ряд)
crimtabStudent's 3000 Criminals Data (Дані 3000 злочинців чоловічої статі, які відбувають покарання у в'язницях Англії та Уельсу; таблиця)

-- D --

discoveriesYearly Numbers of Important Discoveries (Число "великих" винаходів і наукових відкриттів в кожен рік з 1860 по 1959 рік; часовий ряд)
DNaseElisa assay of DNase (Дані отримані під час розробки імуноферментного аналізу рекомбінаційного білка DNase щурячої сироватки; датафрейм)

-- E --

esophSmoking, Alcohol and (O)esophageal Cancer (Дані кейс-контроль дослідження раку стравоходу; датафрейм)
euroConversion Rates of Euro Currencies (Коефіцієнти обміну євровалют; вектор)
euro.crossConversion Rates of Euro Currencies (Коефіцієнти обміну євровалют; матриця)
eurodistDistances Between European Cities (Відстань між містами, 21 місто у Європі; об'єкт класу "dist")
EuStockMarketsDaily Closing Prices of Major European Stock Indices, 1991-1998 (Містить щоденні ціни закриття основних європейських фондових індексів: Німеччина DAX (Ibis), Швейцарія SMI, Франція CAC,  Великобританія FTSE. Дані, зібрані в бізнес-час, тобто вихідні та святкові дні опущені; мультиваріативний часовий ряд)

-- F --

faithfulOld Faithful Geyser Data (Час очікування між виверженнями і тривалість виверження гейзера Old Faithful у Yellowstone National Park, Wyoming, USA; датафрейм)
fdeathsMonthly Deaths from Lung Diseases in the UK (Кількість смертей щомісяця внаслідок бронхіту, емфіземи легенів та бронхіальної астми у Великобританії; часовий ряд)
FormaldehydeDetermination of Formaldehyde (Дані хімічного експерименту з визначення формальдегіду; датафрейм)
freenyFreeny's Revenue Data (Набір даних Freeny, A. E. Freeny (1977) A Portable Linear Regression Package with Test Programs. Bell Laboratories memorandum;  датафрейм)
freeny.xFreeny's Revenue Data (Набір даних Freeny, A. E. Freeny (1977) A Portable Linear Regression Package with Test Programs. Bell Laboratories memorandum;  матриця)
freeny.yFreeny's Revenue Data (Набір даних Freeny, A. E. Freeny (1977) A Portable Linear Regression Package with Test Programs. Bell Laboratories memorandum;  часовий ряд)

-- H --

HairEyeColorHair and Eye Color of Statistics Students (Розподіл кольору волосся, кольору очей та статі серед студентів, які вивчають статистику; масив)
Harman23.corHarman Example 2.3 (Результати вимірювання 8 фізичних показників дівчаток віком 7-17 років; кореляційна матриця)
Harman74.corHarman Example 7.4 (Результати 24 психологічних тестів учнів 7-8 класів; кореляційна матриця)

-- I --

IndomethPharmacokinetics of Indomethacin (Дані фармакінетики індометацину; датафрейм)
infertInfertility after Spontaneous and Induced Abortion (Дані для дослідження належності до умовної логістичної регресії; )
InsectSpraysEffectiveness of Insect Sprays (Кількість комах у сільськогосподарських культурах при використанні різних інсектицидів; датафрейм)
irisEdgar Anderson's Iris Data (Дані вимірів 3-ох різних видів квіток ірису; датафрейм)
iris3Edgar Anderson's Iris Data (Дані вимірів 3-ох різних видів квіток ірису; масив)
islandsAreas of the World's Major Landmasses (Площа масивів суші, яка перевищує 10 тис. кв. миль;  вектор)

-- J --

JohnsonJohnsonQuarterly Earnings per Johnson & Johnson Share (Поквартальний дохід Johnson&Johnson; часовий ряд)

-- L --

LakeHuronLevel of Lake Huron 1875-1972 (Щорічні виміри рівня озера Гурон; часовий ряд)
ldeathsMonthly Deaths from Lung Diseases in the UK  (Кількість смертей щомісяця внаслідок бронхіту, емфіземи легенів та бронхіальної астми у Великобританії; часовий ряд)
lhLuteinizing Hormone in Blood Samples (Рівень лютеїнізуючого гормону в зразках крові жінок; часовий ряд)
LifeCycleSavingsIntercountry Life-Cycle Savings Data (Дані про рівень заощаджень; датафрейм)
LoblollyGrowth of Loblolly pine trees (Дані про ріст сосен; датафрейм)
longleyLongley's Economic Regression Data (Приклад з макроекономіки, який демонструє високу колінеарну регресію; датафрейм)
lynxAnnual Canadian Lynx trappings 1821-1934 (Кількість особин канадської рисі; часовий ряд)

-- M --

mdeathsMonthly Deaths from Lung Diseases in the UK  (Кількість смертей щомісяця внаслідок бронхіту, емфіземи легенів та бронхіальної астми у Великобританії; часовий ряд)
morleyMichelson Speed of Light Data (Дані класичного експерименту поширення світла Майкельсона; датафрейм)
mtcarsMotor Trend Car Road Tests (Дані про потужність, витрати палива та дизайн автомобілів, опубліковані у журналі Motor Trend US в 1974; датафрейм)

-- N --

nhtempAverage Yearly Temperatures in New Haven (Середньорічна температура в градусах за Фаренгейтом в Нью-Хейвені, штат Коннектикут; часовий ряд)
NileFlow of the River Nile (Виміри щорічного розливу Нілу; часовий ряд)
nottemAverage Monthly Temperatures at Nottingham, 1920-1939 (Середньомісячна температура в Ноттінгемі; часовий ряд)

-- O --

occupationalStatusOccupational Status of Fathers and their Sons (Крос-класифікаційна вибірка професії сина в залежності від професії його батька; таблиця)
OrangeGrowth of Orange Trees (Дані про висоту помаранчевих дерев; об'єднання стовпців)
OrchardSpraysPotency of Orchard Sprays (Ефективність садових спреїв; датафрейм)

-- P --

PlantGrowthResults from an Experiment on Plant Growth (Результати порівняння врожайності рослин; датафрейм)
precipAnnual Precipitation in US Cities (Середня кількість опадів для різних міст; вектор)
presidentsQuarterly Approval Ratings of US Presidents (Щоквартальний рейтинг підтримки президентів США, 1945-1974; часовий ряд)
pressureVapor Pressure of Mercury as a Function of Temperature (Дані про зв'язок між температурою в градусах Цельсія і тиск парів ртуті в міліметрах (ртуті); датафрейм)
PuromycinReaction Velocity of an Enzymatic Reaction (Дані швидкості ферментативної реакції; датафрейм)

-- Q --

quakesLocations of Earthquakes off Fiji (Місцезнаходження землетрусів більше 4 балів поблизу Фіджі; датафрейм)

-- R --

randuRandom Numbers from Congruential Generator RANDU (400 трійок послідовних випадкових чисел, отриманих за допомогою генератора RANDU; датафрейм)
riversLengths of Major North American Rivers (Дані про довжину найбільших річок Північної Америки; вектор)
rockMeasurements on Petroleum Rock Samples (Вимірювання зразків гірських порід з нафтової свердловини;  датафрейм)

-- S --

SeatbeltsRoad Casualties in Great Britain 1969-84  (Щомісячні дані кількості водіїв, які загинули або були важко травмовані та використання пасків безпеки; часовий ряд)
sleepStudent's Sleep Data (Дані впливу застосування снодійних препаратів на тривалість сну;  датафрейм)
stack.lossBrownlee's Stack Loss Plant Data  (Операційні дані установки по перетворенню аміаку в азотну кислоту; числовий вектор)
stack.xBrownlee's Stack Loss Plant Data (Операційні дані установки по перетворенню аміаку в азотну кислоту; матриця)
stacklossBrownlee's Stack Loss Plant Data (Операційні дані установки по перетворенню аміаку в азотну кислоту; датафрейм)
stateUS State Facts and Figures (Набори даних, пов'язаних з штатами США)
state.abbUS State Facts and Figures (Абревіатури назв штатів; вектор)
state.areaUS State Facts and Figures (Площа штатів; вектор)
state.centerUS State Facts and Figures (Широта та довгота центру штату; список)
state.divisionUS State Facts and Figures (Приналежність до регіонів; фактор)
state.nameUS State Facts and Figures (Повна назва штату;  вектор)
state.regionUS State Facts and Figures (Приналежність до регіонів; фактор)
state.x77US State Facts and Figures (Базові дані по кожному штату; матриця)
sunspot.monthMonthly Sunspot Data, 1749-1997 (Щомісячна кількість плям на Сонці; часовий ряд)
sunspot.yearYearly Sunspot Data, 1700-1988 (Щорічна кількість плям на Сонці; часовий ряд)
sunspotsMonthly Sunspot Numbers, 1749-1983 (Щомісячна кількість плям на Сонці; часовий ряд)
swissSwiss Fertility and Socioeconomic Indicators (1888) Data (Стандартизована оцінка родючості та соціально-економічні показники для кожної з 47 франкомовних провінцій Швейцарії у 1888; датафрейм)

-- T --

TheophPharmacokinetics of Theophylline (Дані фармакінетики теофіліну; датафрейм)
TitanicSurvival of passengers on the Titanic (Дані про пасажирів "Титаніка" (економічний статус, стать, вік, чи вижили);  масив)
ToothGrowthThe Effect of Vitamin C on Tooth Growth in Guinea Pigs (Залежність довжини зубів у морських свинок залежно від дози та способу приймання вітаміну С; датафрейм))
treeringYearly Treering Data, -6000-1979 (Кількість річних кілець на деревах; часовий ряд)
treesGirth, Height and Volume for Black Cherry Trees (Висота, об'єм, обхват зрубаних черешневих дерев; датафрейм)

-- U --

UCBAdmissionsStudent Admissions at UC Berkeley (Зведені дані про абітурієнтів аспірантури Берклі;  масив)
UKDriverDeathsRoad Casualties in Great Britain 1969-84 (Щомісячні дані кількості водіїв, які загинули або були важко травмовані та використання пасків безпеки; часовий ряд)
UKgasUK Quarterly Gas Consumption (Поквартальний обсяг споживання газу у Великобританії; часовий ряд)
UKLungDeathsMonthly Deaths from Lung Diseases in the UK (Monthly Deaths from Lung Diseases in the UK  (Кількість смертей щомісяця внаслідок бронхіту, емфіземи легенів та бронхіальної астми у Великобританії; часовий ряд)
USAccDeathsAccidental Deaths in the US 1973-1978 (Щомісячна кількість людей, які загинули внаслідок нещасного випадку;  часовий ряд)
USArrestsViolent Crime Rates by US State (Дані про тяжкі злочини в США; датафрейм)
USJudgeRatingsLawyers' Ratings of State Judges in the US Superior Court (Юридичні рейтинги державних суддів у Верховному суді США; датафрейм)
USPersonalExpenditurePersonal Expenditure Data (Дані про особисті витрати; матриця)
uspopPopulations Recorded by the US Census (Кількість населення у США; часовий ряд)

-- V --

VADeathsDeath Rates in Virginia (1940) (Показник смертності у Вірджинії; матриця)
volcanoTopographic Information on Auckland's Maunga Whau Volcano (Топографічна інформація про вулкан Maunga Whau з Оклендського вулканічного поясу; матриця)

-- W --

warpbreaksThe Number of Breaks in Yarn during Weaving (Дані про якість полотна для ткацького станка; датафрейм)
womenAverage Heights and Weights for American Women (Ріст та вага жінок у США; датафрейм)
WorldPhonesThe World's Telephones (Кількість телефонів у різних частинах світу; матриця)
WWWusageInternet Usage per Minute (Похвилинна кількість  користувачів інтернету; часовий ряд)


Також є ще пакети з наборами даних, які відносяться до певних предметних областей:



schoolmath Functions and datasets for math used in school

recommenderlabJester Jester Dataset for recommenderlab

PERregress Regression Functions and Datasets

Protein Mass Spectra Dataset from a Prostate Cancer Study


Protein Mass Spectra Dataset from a Dilution Experiment

Protein Mass Spectra Dataset from a Breast Cancer Study

GANPAdata The GANPA Datasets Package

CShapes Dataset and Utilities


Downloads and Builds datasets for Climate Reference Network

Dealing with very large datasets using BIRCH

Functions for analysis of fMRI datasets stored in the ANALYZE or NIFTI format

Agricultural datasets






 та використані у різних книгах/навчальних курсах: 


WWGbookFunctions and datasets for WWGbook

wikibooksFunctions and datasets of the german WikiBook "GNU R"

spuRsFunctions and Datasets for "Introduction to Scientific Programming and Simulation Using R"

SenSrivastavaDatasets from Sen & Srivastava
RlabFunctions and Datasets Required for ST370 class

qtlbookDatasets for the R/qtl book

PBImiscA set of datasets used in my classes or in the book ,,Modele liniowe i mieszane w R, wraz z przykladami w analizie danych”

MMSTDATASETS FROM MMST

LeLogicielRFunctions and datasets to accompany the book "Le logiciel R: Maitriser le langage, Effectuer des analyses statistiques" (french)

kulifeDatasets and functions from the Faculty of Life Sciences, University of Copenhagen

isdalsProvides datasets for Introduction to Statistical Data Analysis for the Life Sciences

FAwRFunctions and Datasets for "Forest Analytics with R"

farawayFunctions and datasets for books by Julian Faraway

BayesDAFunctions and Datasets for the book "Bayesian Data Analysis"

BaMFunctions and datasets for books by Jeff Gill






Немає коментарів:

Дописати коментар