При вивченні різних технік аналізу даних (часові ряди, факторний аналіз, data mining) потрібно, перш за все, мати набір даних, на яких ці техніки можна застосовувати.
В R доступний готовий пакет
datasets-package де можна обрати собі дані до вподоби як по формату даних, так і по предметній області.
ability.cov | Ability and Intelligence Tests (Тести для перевірки здібностей; коваріаційна матриця) |
airmiles | Passenger Miles on Commercial US Airlines, 1937-1960 (Доходи з пасажиро-миль польотів комерційних авіаліній США; часовий ряд) |
AirPassengers | Monthly Airline Passenger Numbers 1949-1960 (Помісячна кількість пасажирів при міжнародних перевезеннях, часовий ряд) |
airquality | New York Air Quality Measurements (Щоденні дані якості повітря в Нью-Йорку; датафрейм) |
anscombe | Anscombe's Quartet of 'Identical' Simple Linear Regressionsа (Чотири набори даних, які мають однакові статистичні властивості (середнє, дисперсія, кореляція, регресія і т.д.), але зовсім різні; датафрейм) |
attenu | The Joyner-Boore Attenuation Data (Пік прискорення, виміряний під час 23 землетрусів у Каліфорнії; датафрейм) |
attitude | The Chatterjee-Price Attitude Data (Опитування клерків великих фінансових організацій; датафрейм) |
austres | Quarterly Time Series of the Number of Australian Residents (Поквартальна кількість жителів Австралії, часовий ряд) |
beaver1 | Body Temperature Series of Two Beavers (Температура тіла канадських бобрів; датафрейм) |
beaver2 | Body Temperature Series of Two Beavers (Температура тіла канадських бобрів; датафрейм) |
beavers | Body Temperature Series of Two Beavers (Температура тіла канадських бобрів; датафрейм) |
BJsales | Sales Data with Leading Indicator (Часовий ряд продажів з випереджальним індикатором; часовий ряд) |
BJsales.lead | Sales Data with Leading Indicator (Часовий ряд продажів з випереджальним індикатором; часовий ряд) |
BOD | Biochemical Oxygen Demand (Біохімічна потреба в кисні в залежності від часу в оцінці якості води; датафрейм) |
cars | Speed and Stopping Distances of Cars (Швидкість автомобіля та відстань, яка потрібна для зупинки, дані 1920 року; датафрейм)) |
ChickWeight | Weight versus age of chicks on different diets (Дані експериментів з підбору оптимальної дієти для курчат; набір векторів) |
chickwts | Chicken Weights by Feed Type (Дослідження ефективності харчових домішок у вигодовуванні курчат; датафрейм) |
CO2 | Carbon Dioxide Uptake in Grass Plants (Дані СО2 на рослинах виду Echinochloa crus-galli; набір векторів) |
co2 | Mauna Loa Atmospheric CO2 Concentration (Концентрація СО2 в атмосфері; часовий ряд) |
crimtab | Student's 3000 Criminals Data (Дані 3000 злочинців чоловічої статі, які відбувають покарання у в'язницях Англії та Уельсу; таблиця) |
| |
discoveries | Yearly Numbers of Important Discoveries (Число "великих" винаходів і наукових відкриттів в кожен рік з 1860 по 1959 рік; часовий ряд) |
DNase | Elisa assay of DNase (Дані отримані під час розробки імуноферментного аналізу рекомбінаційного білка DNase щурячої сироватки; датафрейм) |
esoph | Smoking, Alcohol and (O)esophageal Cancer (Дані кейс-контроль дослідження раку стравоходу; датафрейм) |
euro | Conversion Rates of Euro Currencies (Коефіцієнти обміну євровалют; вектор) |
euro.cross | Conversion Rates of Euro Currencies (Коефіцієнти обміну євровалют; матриця) |
eurodist | Distances Between European Cities (Відстань між містами, 21 місто у Європі; об'єкт класу "dist") |
EuStockMarkets | Daily Closing Prices of Major European Stock Indices, 1991-1998 (Містить щоденні ціни закриття основних європейських фондових індексів: Німеччина DAX (Ibis), Швейцарія SMI, Франція CAC, Великобританія FTSE. Дані, зібрані в бізнес-час, тобто вихідні та святкові дні опущені; мультиваріативний часовий ряд) |
faithful | Old Faithful Geyser Data (Час очікування між виверженнями і тривалість виверження гейзера Old Faithful у Yellowstone National Park, Wyoming, USA; датафрейм)
|
fdeaths | Monthly Deaths from Lung Diseases in the UK (Кількість смертей щомісяця внаслідок бронхіту, емфіземи легенів та бронхіальної астми у Великобританії; часовий ряд) |
Formaldehyde | Determination of Formaldehyde (Дані хімічного експерименту з визначення формальдегіду; датафрейм) |
freeny | Freeny's Revenue Data (Набір даних Freeny, A. E. Freeny (1977) A Portable Linear Regression Package with Test Programs. Bell Laboratories memorandum; датафрейм) |
freeny.x | Freeny's Revenue Data (Набір даних Freeny, A. E. Freeny (1977) A Portable Linear Regression Package with Test Programs. Bell Laboratories memorandum; матриця) |
freeny.y | Freeny's Revenue Data (Набір даних Freeny, A. E. Freeny (1977) A Portable Linear Regression Package with Test Programs. Bell Laboratories memorandum; часовий ряд)
|
HairEyeColor | Hair and Eye Color of Statistics Students (Розподіл кольору волосся, кольору очей та статі серед студентів, які вивчають статистику; масив) |
Harman23.cor | Harman Example 2.3 (Результати вимірювання 8 фізичних показників дівчаток віком 7-17 років; кореляційна матриця) |
Harman74.cor | Harman Example 7.4 (Результати 24 психологічних тестів учнів 7-8 класів; кореляційна матриця) |
Indometh | Pharmacokinetics of Indomethacin (Дані фармакінетики індометацину; датафрейм) |
infert | Infertility after Spontaneous and Induced Abortion (Дані для дослідження належності до умовної логістичної регресії; ) |
InsectSprays | Effectiveness of Insect Sprays (Кількість комах у сільськогосподарських культурах при використанні різних інсектицидів; датафрейм) |
iris | Edgar Anderson's Iris Data (Дані вимірів 3-ох різних видів квіток ірису; датафрейм) |
iris3 | Edgar Anderson's Iris Data (Дані вимірів 3-ох різних видів квіток ірису; масив) |
islands | Areas of the World's Major Landmasses (Площа масивів суші, яка перевищує 10 тис. кв. миль; вектор) |
JohnsonJohnson | Quarterly Earnings per Johnson & Johnson Share (Поквартальний дохід Johnson&Johnson; часовий ряд) |
LakeHuron | Level of Lake Huron 1875-1972 (Щорічні виміри рівня озера Гурон; часовий ряд) |
ldeaths | Monthly Deaths from Lung Diseases in the UK (Кількість смертей щомісяця внаслідок бронхіту, емфіземи легенів та бронхіальної астми у Великобританії; часовий ряд) |
lh | Luteinizing Hormone in Blood Samples (Рівень лютеїнізуючого гормону в зразках крові жінок; часовий ряд) |
LifeCycleSavings | Intercountry Life-Cycle Savings Data (Дані про рівень заощаджень; датафрейм) |
Loblolly | Growth of Loblolly pine trees (Дані про ріст сосен; датафрейм) |
longley | Longley's Economic Regression Data (Приклад з макроекономіки, який демонструє високу колінеарну регресію; датафрейм) |
lynx | Annual Canadian Lynx trappings 1821-1934 (Кількість особин канадської рисі; часовий ряд) |
mdeaths | Monthly Deaths from Lung Diseases in the UK (Кількість смертей щомісяця внаслідок бронхіту, емфіземи легенів та бронхіальної астми у Великобританії; часовий ряд) |
morley | Michelson Speed of Light Data (Дані класичного експерименту поширення світла Майкельсона; датафрейм) |
mtcars | Motor Trend Car Road Tests (Дані про потужність, витрати палива та дизайн автомобілів, опубліковані у журналі Motor Trend US в 1974; датафрейм)
|
nhtemp | Average Yearly Temperatures in New Haven (Середньорічна температура в градусах за Фаренгейтом в Нью-Хейвені, штат Коннектикут; часовий ряд) |
Nile | Flow of the River Nile (Виміри щорічного розливу Нілу; часовий ряд) |
nottem | Average Monthly Temperatures at Nottingham, 1920-1939 (Середньомісячна температура в Ноттінгемі; часовий ряд) |
occupationalStatus | Occupational Status of Fathers and their Sons (Крос-класифікаційна вибірка професії сина в залежності від професії його батька; таблиця) |
Orange | Growth of Orange Trees (Дані про висоту помаранчевих дерев; об'єднання стовпців) |
OrchardSprays | Potency of Orchard Sprays (Ефективність садових спреїв; датафрейм) |
PlantGrowth | Results from an Experiment on Plant Growth (Результати порівняння врожайності рослин; датафрейм) |
precip | Annual Precipitation in US Cities (Середня кількість опадів для різних міст; вектор) |
presidents | Quarterly Approval Ratings of US Presidents (Щоквартальний рейтинг підтримки президентів США, 1945-1974; часовий ряд) |
pressure | Vapor Pressure of Mercury as a Function of Temperature (Дані про зв'язок між температурою в градусах Цельсія і тиск парів ртуті в міліметрах (ртуті); датафрейм) |
Puromycin | Reaction Velocity of an Enzymatic Reaction (Дані швидкості ферментативної реакції; датафрейм) |
quakes | Locations of Earthquakes off Fiji (Місцезнаходження землетрусів більше 4 балів поблизу Фіджі; датафрейм) |
randu | Random Numbers from Congruential Generator RANDU (400 трійок послідовних випадкових чисел, отриманих за допомогою генератора RANDU; датафрейм) |
rivers | Lengths of Major North American Rivers (Дані про довжину найбільших річок Північної Америки; вектор) |
rock | Measurements on Petroleum Rock Samples (Вимірювання зразків гірських порід з нафтової свердловини; датафрейм) |
Seatbelts | Road Casualties in Great Britain 1969-84 (Щомісячні дані кількості водіїв, які загинули або були важко травмовані та використання пасків безпеки; часовий ряд) |
sleep | Student's Sleep Data (Дані впливу застосування снодійних препаратів на тривалість сну; датафрейм) |
stack.loss | Brownlee's Stack Loss Plant Data (Операційні дані установки по перетворенню аміаку в азотну кислоту; числовий вектор) |
stack.x | Brownlee's Stack Loss Plant Data (Операційні дані установки по перетворенню аміаку в азотну кислоту; матриця) |
stackloss | Brownlee's Stack Loss Plant Data (Операційні дані установки по перетворенню аміаку в азотну кислоту; датафрейм) |
state | US State Facts and Figures (Набори даних, пов'язаних з штатами США) |
state.abb | US State Facts and Figures (Абревіатури назв штатів; вектор) |
state.area | US State Facts and Figures (Площа штатів; вектор) |
state.center | US State Facts and Figures (Широта та довгота центру штату; список) |
state.division | US State Facts and Figures (Приналежність до регіонів; фактор) |
state.name | US State Facts and Figures (Повна назва штату; вектор) |
state.region | US State Facts and Figures (Приналежність до регіонів; фактор) |
state.x77 | US State Facts and Figures (Базові дані по кожному штату; матриця) |
sunspot.month | Monthly Sunspot Data, 1749-1997 (Щомісячна кількість плям на Сонці; часовий ряд) |
sunspot.year | Yearly Sunspot Data, 1700-1988 (Щорічна кількість плям на Сонці; часовий ряд) |
sunspots | Monthly Sunspot Numbers, 1749-1983 (Щомісячна кількість плям на Сонці; часовий ряд) |
swiss | Swiss Fertility and Socioeconomic Indicators (1888) Data (Стандартизована оцінка родючості та соціально-економічні показники для кожної з 47 франкомовних провінцій Швейцарії у 1888; датафрейм) |
Theoph | Pharmacokinetics of Theophylline (Дані фармакінетики теофіліну; датафрейм) |
Titanic | Survival of passengers on the Titanic (Дані про пасажирів "Титаніка" (економічний статус, стать, вік, чи вижили); масив) |
ToothGrowth | The Effect of Vitamin C on Tooth Growth in Guinea Pigs (Залежність довжини зубів у морських свинок залежно від дози та способу приймання вітаміну С; датафрейм)) |
treering | Yearly Treering Data, -6000-1979 (Кількість річних кілець на деревах; часовий ряд) |
trees | Girth, Height and Volume for Black Cherry Trees (Висота, об'єм, обхват зрубаних черешневих дерев; датафрейм) |
UCBAdmissions | Student Admissions at UC Berkeley (Зведені дані про абітурієнтів аспірантури Берклі; масив) |
UKDriverDeaths | Road Casualties in Great Britain 1969-84 (Щомісячні дані кількості водіїв, які загинули або були важко травмовані та використання пасків безпеки; часовий ряд) |
UKgas | UK Quarterly Gas Consumption (Поквартальний обсяг споживання газу у Великобританії; часовий ряд) |
UKLungDeaths | Monthly Deaths from Lung Diseases in the UK (Monthly Deaths from Lung Diseases in the UK (Кількість смертей щомісяця внаслідок бронхіту, емфіземи легенів та бронхіальної астми у Великобританії; часовий ряд) |
USAccDeaths | Accidental Deaths in the US 1973-1978 (Щомісячна кількість людей, які загинули внаслідок нещасного випадку; часовий ряд) |
USArrests | Violent Crime Rates by US State (Дані про тяжкі злочини в США; датафрейм) |
USJudgeRatings | Lawyers' Ratings of State Judges in the US Superior Court (Юридичні рейтинги державних суддів у Верховному суді США; датафрейм) |
USPersonalExpenditure | Personal Expenditure Data (Дані про особисті витрати; матриця) |
uspop | Populations Recorded by the US Census (Кількість населення у США; часовий ряд) |
VADeaths | Death Rates in Virginia (1940) (Показник смертності у Вірджинії; матриця) |
volcano | Topographic Information on Auckland's Maunga Whau Volcano (Топографічна інформація про вулкан Maunga Whau з Оклендського вулканічного поясу; матриця) |
warpbreaks | The Number of Breaks in Yarn during Weaving (Дані про якість полотна для ткацького станка; датафрейм) |
women | Average Heights and Weights for American Women (Ріст та вага жінок у США; датафрейм) |
WorldPhones | The World's Telephones (Кількість телефонів у різних частинах світу; матриця) |
WWWusage | Internet Usage per Minute (Похвилинна кількість користувачів інтернету; часовий ряд)
|
Також є ще пакети з наборами даних, які відносяться до певних предметних областей:
schoolmath Functions and datasets for math used in school
|
Protein Mass Spectra Dataset from a Prostate Cancer Study
|
|
Protein Mass Spectra Dataset from a Dilution Experiment
|
|
Protein Mass Spectra Dataset from a Breast Cancer Study
|
|
CShapes Dataset and Utilities
|
|
Downloads and Builds datasets for Climate Reference Network
|
|
Dealing with very large datasets using BIRCH
|
|
Functions for analysis of fMRI datasets stored in the ANALYZE or NIFTI format
|
та використані у різних книгах/навчальних курсах:
WWGbook | Functions and datasets for WWGbook |
wikibooks | Functions and datasets of the german WikiBook "GNU R" |
spuRs | Functions and Datasets for "Introduction to Scientific Programming and Simulation Using R" |
Rlab | Functions and Datasets Required for ST370 class |
PBImisc | A set of datasets used in my classes or in the book ,,Modele liniowe i mieszane w R, wraz z przykladami w analizie danych” |
LeLogicielR | Functions and datasets to accompany the book "Le logiciel R: Maitriser le langage, Effectuer des analyses statistiques" (french) |
kulife | Datasets and functions from the Faculty of Life Sciences, University of Copenhagen |
isdals | Provides datasets for Introduction to Statistical Data Analysis for the Life Sciences |
FAwR | Functions and Datasets for "Forest Analytics with R" |
faraway | Functions and datasets for books by Julian Faraway |
BayesDA | Functions and Datasets for the book "Bayesian Data Analysis" |
BaM | Functions and datasets for books by Jeff Gill |
Немає коментарів:
Дописати коментар