Автоматизированной информационной системы учета деятельности работы администрации школы

Возможно использование компьютеров в области обработки и анализа данных для пользователей из различных сфер деятельности. Компьютерной обработкой данных называется любой процесс который использует компьютерную программу для ввода данных обобщать их анализировать или иным образом преобразовывать данные в полезную информацию. Какие программные средства можно использовать для обработки статистического материала Каких либо широко распространенных программ статистической обработки данных рассчитанных на общеобразовательную школу нет. В...

2015-09-17

1.86 MB

38 чел.


Поделитесь работой в социальных сетях

Если эта работа Вам не подошла внизу страницы есть список похожих работ. Так же Вы можете воспользоваться кнопкой поиск


ВВЕДЕНИЕ

В настоящее время компьютеризация прочно вошла в нашу жизнь. С помощью компьютера можно осуществлять различные операции.

Возможно использование компьютеров в области обработки и анализа данных для пользователей из различных сфер деятельности.

Компьютерной обработкой данных называется любой процесс ,который использует компьютерную программу для ввода данных, обобщать их, анализировать или иным образом преобразовывать данные в полезную информацию.

Компьютерная интерактивная система, преследует именно такие цели которые позволили бы  дать пользователю, не являющемуся специалистом в области компьютерных технологий и в области обработки данных, возможность грамотно и разносторонне провести анализ статистических данных, не углубляясь в специальные и достаточно сложные математические расчеты.

Использование компьютера при изучении теории вероятностей и статистики становится сегодня все более общепринятым.

Какие программные средства можно использовать для обработки статистического материала? Каких либо широко распространенных программ статистической обработки данных, рассчитанных на общеобразовательную школу, нет. Поэтому естественным выходом представляется использование популярной электронной таблицы MS Excel.

Возможность усовершенствования работы администрации школы за счет внедрения автоматизированной информационной системы обуславливает практическую значимость выбранной темы дипломной работы – «Вероятностно-статистический подход в компьютерной обработке данных », а факт повсеместной компьютеризации и наличие сложных статистических баз в данной сфере деятельности, подтверждает ее актуальность.

Научная ценность исследования заключается в разработке и описании нескольких видов программ, которые в дальнейшем можно будет использовать при разработке аналогичных или схожих информационных систем в любой среде программирования.

Цель дипломной работы состоит в разработке и описании такой программы автоматизированной информационной системы учета  деятельности работы администрации школы, посредством которой, в дальнейшем возможно реализовать систему в любой среде программирования.

В соответствии с поставленной целью и для ее наилучшего достижения, были сформулированы следующие задачи исследования:

Проанализировать предметную область;

Сделать обзор аналогичных программных средств, процессов и методов их описания с помощью распределения вероятностей, плотностей вероятностей, характеристических и производящих функций и функционалов, а также других статистических характеристик;

Проанализировать и обобщить требования, предъявляемые к статистическим базам учета и анализа деятельности школы;

Изучить общие математические модели и определить статистические характеристики различных процессов в информационных системах;

Внедрить программу Excel в работу администрации школы для повышения эффективности управления образовательным учреждением за счет автоматизированного сбора статистической информации и отчетных материалов.

В ходе выполнения работы по теме исследования, были использованы теоретические и практические методы исследования.

Основными методами исследования послужили: анализ научной, технической, методической, нормативной документации; имитационное моделирование; логическое и концептуальное моделирование; синтез.


1 Анализ предметной области

1.1 Вероятностная структура информации  

Bepoятнocтнaя cтрyктyрa инфopмaции Инфopмaция, кaк и любoй фeнoмeн рeaльнocти, являeтся вeрoятнocтнoй пo cвoeй пpиpoде. Cooтвeтствeннo. Вeрoятнocтная cтopoна инфopмaции являeтся вaжнoй для aнaлизa и хaрaктepистики. Нo мoжнo ли пpи этoм cвoдить инфoрмaцию к вeрoятнoсти? 

Пeрeхoдя от рaccмотрeния вeрoятнocтнoгo пoдхoдa к другим вaриaнтaм рaccмoтрeния cущнocти инфoрмaции, неoбхoдимo oтмeтить тo, чтo мoгут быть другие cпоcобы пoнимания, но возможно раскрытие пpиpоды инфоpмации через выявление её вероятностной структуры.11 Aнализ веpоятнoстнo-стaтистичeской кoнцепции информации покaзываeт прoявлениe дaнного меxaнизма. В этoм отнoшении, как oтмечает А.Д.Урсул, инфoрмация опредeляется Шeнноном кaк снятaя неопредeлённость, котораядалее можeт принимать верoятностные вариaнты рaзвития.  Лoгичeски вoзможно и противoположное отнoшение. Тaк, нaпример. Рaссматривая вeроятность кaк показатель информaции, А.Н.Колмогоров выдвинул идею о том, что не столькo верoятностная метoдология применима к анaлизу информaции, скoлько, наoбoрот, информациoнная метoдология в нaиболее пoлной стeпени пoзволяет рaскрыть прирoду верoятности. Eсли за исхoдное, анaлизируемое явлeние берeтся вeроятность и на этой основе выстраивается общeе целостное понимание сущнoсти информации, то вполне естественно, получaемая теоретическая модель информaции в целом приoбретает вероятностный хaрактер. 

Верoятностные спосoбы oпределения сущности информации имеют свою харaктерную cпецифику ,фиксиpуя внимание на том, что информация естьснятая неопределённoсть. К данным методам определения информации будут отнoситься, вероятностно-статистические, континуально-пространствeнные, все те, в которых акцeнтируется в качестве определяющего момeнта снижение неопредeлённости и повышение степeни вероятности устойчивoгo стaтического сoстояния системы. Нaпример. Количество инфoрмации, в соответствии с концепцией количeственной определённости инфoрмации, есть степень умeньшенной, снятoй неопределённoсти. В этом случae, неустановленная степeнь определённости вероятности есть показатель увеличения степени количества информации, соответственно, установление степени вероятности есть показатель уменьшения количества информации. Информация есть степень определенности, соотношение определенности и неопределенности проявляется, например, в соотношении логичeских законов тождeства, как закона устанaвливающего однозначность, и закoнов логики, носящих двузначный хaрактер, то есть законoв «исключeния третьего» и «противорeчия». Лишь закoн тождества устанавливaет однозначность и определеннoсть информaции. То есть информaция есть определеннoсть проявлeния однозначнoго выбoра. Таким образoм, возможно определение сущнoсти информации черeз процесс умeньшения неопределенности выбoра. 

Рассмoтрение сущнoсти информации черeз опредeлённость и неопредeлённость eсть абсолютизация oтдельных aбстрактных стoрон, качеств инфoрмации; в рeзультате чего происхoдит противoпоставление отдельных aспектов сущности инфoрмации самой информaции как целостнoму конкретнoму явлeнию. 

Вeроятностная структура информaции изменяется с измeнением степени её сложнoсти и организaции. Вероятностнaя концепция, проявляющaя идею инфoрмации, свoдится, по сути дeла, к достатoчно простoму полoжению, заключaющемуся в том, что инфoрмация мoжет быть инфoрмацией только тoгда, когда высoко вероятностна степень её устoйчивой однoзначной oпределённости. 

Вероятнoстная oднозначность есть неoбходимая фoрма сущeствования информaции. В дaнном случaе двузначнaя вероятнoсть определённoсти, действительнo, прoявляется кaкважное услoвие, заключaющееся в том, являетсяли, рассматривaемая дaнность элементoв и связей информaцией или не являeтся такoвой.

Более сложные по своей вероятностно значимой структуре состояния с позиций однозначной статичности не воспринимаются как информация. Поэтому простые информационные системы не способны полностью воспринять целостность более сложных информационных систем, отличаясь от них степенью и порядком взаимосвязанной организованности.  Именно взаимосвязанная организованность позволяет увеличивать её внутреннее информационное состояние. Информация в этом смысле есть внутренняя дискретность, внутренняя определённая устойчивость системы взаимосвязей, то есть интроформа системы.Информация может быть рассмотрена как проявленность, то есть как феномен. Проявление реализуется как данность одного объекта другому объекту или объектам. Непроявленные части реальности не являются частью феномена и не являются актуализированной информацией. Информационная реальность может быть разделена на проявленную и непроявленную потенциальную информацию. Если информация есть определённость, то неопределённость антиинформационна. Неопределённость может быть рассмотрена как меональность. Понимание информации как снятой неопределённости даёт возможность акцентировать значность вероятностного состояния, в котором данная информация проявляется. Вероятностность и определённость информации находятся в устойчивой взаимной зависимости. Данный подход, фиксируя вероятностно значнуюструктуру информации, выявляет соотношение рассматриваемых сторон следующим образом, получается: чем меньше вероятностная определённость значности, тем больше информации. Снятие неопределённости увеличивает количество информации. И, наоборот, чем больше степень вероятностной определённости значности, тем меньше количество информации. Увеличение вероятностных, возможных альтернатив становления реальности создаёт неопределённость и неустановленность информации. Из этого следует, что больше всего информации в состоянии полного отсутствия вероятностной значности, то есть в нулевом состоянии значности. Нулевая значность есть потенциально максимальная возможность вероятностных значений и отсутствие реально установленных значений. Разнообразие и определённость взаимосвязаны между собой, разнообразие не может быть неопределённым, разнообразие всегда есть наличие определённости. Неопределённость как отсутствие реально установленного выбора не является увеличением информации в силу неустановленности однозначно интерпретируемых качеств. В этом смысле, неопределённость есть бесконечность, аморфность и хаотичность, соответственно, информация есть атрибутивное качество материи, проявляющееся как показатель организованности реальности. Информация есть содержательная определённость существующих явлений. Можно заметить, что такой подход не исключает и, соответственно, предполагает более широкий философский, философско-семиотический способ понимания сущностной природы информации. Вероятностно-статистическая теория Шеннона имеет свои определённые достоинства, но, вместе с этим, она имеет такие черты, свойства, которые показывают, что данный подход не является универсальным.

Как известно, информация является таким же важным атрибутом реальности как и энергия. Любой объект реальности обладает информационной структурой, любой объект может быть рассмотрен как информационное содержание, реализованное в его данности. Информация как содержание есть преобразованная форма одного объекта, помещённая в структуру взаимосвязей другого объекта. Информация не может быть непреобразованной формой. Степень преобразования зависит от специфики каналов взаимосвязей передачи реальности одного объекта другому, реализованная в структуре данности воспринимающего объекта. Информация как содержание определяется преобразованной содержательной формой данности действующего и воспринимаемого объекта реальности. Во многом становление статистической теории информации явилось важной посылкой и вызвало развитие более широкого комплекса семиотических проблем информационного понимания реальности, во многом это вызвало становление различных семиотических вариантов теории информации. Нестатистическая методология алгоритмической концепции информации. По сути дела, в рамках научно-технологического гносеологического подхода определился статистический подход, сводящий сущностные черты информации к некой количественной величине. Можно отметить, что возращение к целостному глубокому логическому анализу сущности информации позволяет изменить представления в данном отношении. Так, например. В результате работ А.Н.Колмогорова, который один из первых попытался проанализировать логические основания теории информации, возник новый комплекс методов нестатистического определения сущности информации.

Концепция А.Н.Колмогорова позволяет, не отождествляя её с вероятностно-статистическим подходом, обоснованного К.Шенноном, рассмотреть альтернативный способ понимания сущности информации. Таким подходом является алгоритмический подход, одним из весомых аргументов в пользу которого состоит в следующем: необходимо установить вероятность распределения как информационный показатель. Но возникает другой, противоположный аспект: если вероятность распределения установить невозможно, означает ли это отсутствие информации? По-видимому, если невозможно вычислить вероятность, то это не означает отсутствие информации. Последовательность может пониматься как линейная система и можно предположить, что она способна приобретать развёрнутую пространственную организацию.

Алгоритмический анализ информации позволяет сформулировать принципиально новый подход к определению целостной сущности информации. В таком подходе информация есть алгоритмическая сложность последовательности.

Метод определения алгоритмического количества информации, предложенный А.Н.Колмогоровым, обращает внимание на наличие«сложности последовательности», понимаемой как минимальная длина программы её описания, где под «длиной программы» понимается количество команд, необходимых для воспроизводства исходной последовательности.

Продолжая данный подход, обоснованный А.Н.Колмогоровым, можно предположить, что реально существующий мир в своей структуре взаимообусловлено расположенных объектов и процессов представляет пространственно развёрнутый алгоритм, определяющий программу существования всех элементов.

В таком подходе проявляется следующее: информация есть свойство функциональных алгоритмов взаимосвязей, лежащих в основе реальности, выступающих как матрица, порождающая информационная реальность.

1.2 Функции распределения и плотности вероятностей 

При решении задач анализа и синтеза необходимыми для расчета данными служат полученные из опыта некоторые экспериментальные данные. Опытом называются наблюдения какого-либо явления при выполнении некоторого комплекса условий и действий, который каждый раз при повторении указанного опыта строго выполняется. Количественная характеристика опыта состоит в определении получаемой из опыта некоторой величины. Из-за влияния различных трудно учитываемых факторов результаты экспериментов в серии опытов имеют случайный непредсказуемый характер, а сами величины оказываются случайными. Несмотря на это в длинной серии опытов можно установить общие статистические закономерности, присущие реальным явлениям.

Эти закономерности отражаются в вероятности значений, полученных из опыта случайных величин. Так, например, если разбить на действительной числовой оси интервал возможных значений физической величины на конечное число непересекающихся подынтервалов и подсчитать в серии опытов число  события  попадания  случайной  величины  в  каждый  из подынтервалов, то отношение числа событий в одном из подынтервалов к общему числу опытов называется частотой появления событий в этом подынтервале. При достаточно длинной серии опытов эта частота мало изменяется и может служить количественной мерой вероятности появления или непоявления рассматриваемых событий.

Остановимся на одном из способов определения случайного процесса на основе введенного понятия случайной величины. Под случайной величиной ξ(ti) понимается одно из значений случайной функции ξ(t) при фиксированном аргументе ti из произвольного множества T, ti ϵ T. В зависимости от возможных значений случайная величина подразделяется на дискретную (из конечного или счетного множества Х) или непрерывную (принимает непрерывные значений на всей действительной оси или ее интервале). Если аргумент t интерпретируется как время, то совокупность случайных величин называется случайным процессом . Время может принимать дискретные или непрерывные значения. В соответствии с этим случайные процессы подразделяются на процессы с дискретным и непрерывным временем. Конкретный вид случайного процесса в результате отдельных экспериментов называется реализацией (траекторией или выборочной функцией).

Вероятностные характеристики случайного процесса могут быть определены на основе понятия совокупности (последовательности) случайных   величин {ξ(ti),i=}.Наиболее полной такой характеристикой является n-мерная функция распределения вероятностей

- вероятность того, что случайный процесс в любые возможные моменты времени t1,...,tn примет соответственно значения не выше уровней x1,...,xn из множества Х. Эта функция удовлетворяет условиям неотрицательности F(•) ≥ 0 и согласованности

Она является неубывающей функцией своих аргументов

Если функция дифференцируема по x1,...xn, то можно определить n-мерную плотность вероятностей

Плотность вероятностей является неотрицательной функцией p(•) ≥ 0 и удовлетворяет условию нормировки

Важным классом случайных процессов являются стационарные процессы. Случайный процесс называется стационарным, если функции распределения вероятностей инвариантны относительно сдвига времени для любых n и

Для стационарных процессов выражения для функции распределения не зависит от положения начала отсчета времени. Аналогичные соотношения выполняются и для плотностей вероятностей

Если вероятностные характеристики случайных процессов не инвариантны к произвольному смещению начала времени, то процесс является нестационарным. Для стационарных случайных процессов одномерная функция плотности не зависит от времени; двумерная плотность зависит лишь от разности t2-t1:

p(x2 ,t2;x1,t1)=p(x2 ,x1 ;t2-t1)

n-мерная плотность вероятностей будет функцией n-1разностей ti -t1,i -2,n.

Перейдем к рассмотрению условных функций распределений. Вероятность совместного выполнения неравенств

при условии, что

где описывается условной функцией распределения

Определим условную плотность вероятностей как производную по xn,...xn-m функции распределения. С учетом формулы полной вероятности

Соотношение называется формулой Байеса для условных вероятностей. Как и безусловные условные плотности вероятностей удовлетворяют условиям неотрицательности и нормировки

В простейшем варианте двумерной условной плотности (n=2,m=0) формула Байеса принимает вид

В задачах теории случайных процессов довольно часто необходимо найти по известной плотности вероятностей pξ (x) плотность вероятностей функции случайной величины η =ϕ (ξ ), т.е. pη (y) .

Предположим, что функция ϕ(x)имеет первые кусочно-непрерывные производные по x и не постоянна ни на каком множестве значений аргумента x, имеющем отличную от нуля вероятность. Кроме того, будем полагать что случайные величины связаны однозначной детерминированной зависимостью. В силу последнего предположения из того факта, что величина ξ заключена в интервале (x,x+dx) достоверно следует, что η находится в интервале (y,y+dy).И вероятности этих событий должны быть одинаковы pξ(x)dx=pη(y)dy.

Поскольку плотность вероятностей не может быть отрицательной, то в формулу необходимо подставить модуль производной.

1.3 Требования к статистическим базам учета и анализа деятельности школы

Основным критерием современного общеобразовательного учреждения является создание условий для перехода к новому уровню образования на основе информационно-коммуникационных технологий посредством формирования компетентностной информационной образовательной среды. Применение современных образовательных технологий в практике обучения является неотъемлемым условием интеллектуального, творческого и нравственного развития учащихся.

В настоящее время информационно-коммуникационные технологии востребованы не только школьниками, но и учителями, педагогами-психологами, руководством образовательных учреждений любого типа. В ХХI веке компьютер стал незаменимым и уникальным инструментом, который в руках учителя-мастера, администратора-профессионала, ученика-интеллектуала служит средством творческой работы, успешной учебы и интересного общения.

В современной школе, осуществляющей мониторинг и диагностику, личностно-ориентированное и развивающее обучение, поток информации, получаемой участниками образовательного процесса, многократно увеличивается. В связи с этим перед педагогами, а особенно перед администрацией образовательного учреждения встает вопрос об использовании современных технологий по обработке, хранению и анализу получаемой информации.

Современное развитие средств вычислительной техники, средств связи и программных технологий, в совокупности с их постепенным удешевлением, способствуют массовому применению их не только в образовательном процессе, но и в управлении им.

Режим школьного администрирования можно представить как целенаправленную деятельность по регулированию педагогического процесса с целью перевода последнего на более высокий уровень. Он состоит из следующих этапов: сбора информации, её анализа и принятия решений. Школьные управленцы должны иметь необходимый минимум информации о состоянии и развитии процессов, за которые они отвечают и на которые призваны оказывать управляющее воздействие. В связи с этим работу администрации школы можно и нужно организовать с помощью персонального компьютера.

Управление школой включает в себя большой круг вопросов: педагогических, хозяйственных, социально-педагогических, экономических, правовых, финансовых. Важным фактором совершенствования управления являются информационные технологии, которые предоставляют массу новых возможностей. Они позволяют накапливать и обновлять большие объемы информации, являются инструментом оптимизации времени и средств, расходуемых на решение отдельных задач управления, способствуют повышению качества принимаемых управленческих решений за счет предоставления оперативной и достоверной информации о состоянии управляемого объекта.

Сегодня компьютер стал универсальным инструментом школьного администратора в его работе по мониторингу и анализу данных учебно-воспитательного процесса.

Оснащение общеобразовательных учреждений компьютерной техникой, современные требования к ведению и оформлению документации, необходимость быстрого анализа собранных данных образовательного процесса для эффективного управления им приводят к тому, что овладение информационными компьютерными технологиями становится насущной проблемой школьного администратора.

Для более эффективного управления школой в ней должна быть создана единая информатизационная среда, отвечающая следующим требованиям:

банк данных системы должен содержать максимально полную информацию обо всех элементах учебного процесса;

в системе должна быть предусмотрена возможность обмена сообщениями между всеми пользователями;

должна быть предусмотрена возможность взаимного обмена информацией с органами управления образованием;

в системе должна существовать возможность интегрирования электронных учебников.

Многие функции и задачи внутришкольного управления в современных условиях решаются более качественно, эффективно и экономично за счет использования программного обеспечения пакета Microsoft Office.

Программа Microsoft Office Excel позволяет вводить базовые данные об учебном заведении, создавать банки данных по кадровому составу и контингенту учащихся, обрабатывать информацию для получения выходных документов, вести электронные варианты книг приказов. Несомненно, на первых порах, требуется много времени для создания банков данных, но при работе в многопользовательском режиме временные затраты существенно уменьшаются. При наличии соответствующих модулей система может быть использована в работе директора, секретаря, завучей, учителей-предметников и классных руководителей, школьного бухгалтера, библиотекаря, медперсонала.

В электронной таблице информация отражает общую картину по всей школе. Очевидно, что при каждом изменении внутри класса, достаточно только добавить или удалить строку в файле, содержащем список учеников, автоматически произойдут соответствующие изменения во всех сводных таблицах. На итоговой таблице мы получим точную информацию на сегодняшний день.

Очевидно, что, используя эти и другие операции стандартной программы (Excel), можно хранить и обрабатывать информацию по контингенту сотрудников; по учебной и внеурочной деятельности учащихся, по данным социального паспорта школы.

Данная программа позволит освободить заместителя директора от монотонной работы по механическому подсчитыванию, а так же предупредит возможность возникновения арифметических ошибок. Кроме того, большие объемы статистической информации станут для управленца действительно материалом для анализа и основой для принятия правильного управленческого решения.

Технология работы с электронными таблицами, создаваемыми в среде табличного процессора MS Excel, сегодня столь же популярна, как и технология создания текстовых документов. Электронная таблица позволяет производить расчеты по формулам, представлять данные в виде диаграмм, структурировать данные, делать выборку из больших таблиц, создавать консолидированные таблицы и др. Использование возможностей современных информационных технологий позволяет автоматизировать процесс обработки результатов рубежных, тематических, итоговых проверочных работ. Отслеживать их динамику, представлять результаты в наглядном виде, используя возможности мастера диаграмм. Это, в свою очередь, создает условия для своевременной корректировки содержания и методики обучения, целенаправленного достижения образовательного стандарта.

Внедрение программы Excel в работу администрации школы повышает эффективность управления образовательным учреждением за счет автоматизированного сбора статистической информации и отчетных материалов, оперативного структурированного представления информации, использования электронного документооборота.

Есть объективная необходимость создания в школе следующего материала с использование программы Microsoft Excel:

  •  банк данных по педагогическим кадрам
  •  банк данных по отслеживанию результатов обучения
  •  банк данных по всеобучу
  •  банк данных о выпускниках школы
  •  банк данных об учениках-участниках олимпиад
  •  банк данных об учителях,
  •  социальный паспорт школы

Использование перечисленных банков данных позволяет минимизировать сроки создания отчетности, проведения мониторинга обученности школьников, отслеживания повышения профессионального мастерства учителей.

Электронные таблицы Microsoft Excel имеют широкие возможности для воплощения идей автоматизации управления образовательным учреждением.

Наглядно иллюстрирует достигнутые успехи электронная таблица «Анализ успеваемости за 8 лет». Она позволяет иметь объективную информацию по каждому классу. По ней можно проследить уровень успеваемости и усвоения учебного материала в течение последних 8 лет. Благодаря этим данным за короткий промежуток времени выдается результат по динамике учебного процесса в различных разрезах. Данные могут быть использованы руководителями для составления характеристик класса, изучения причин полученных результатов, ознакомления родителей, формулировки целей и задач на учебный год. Итоговые данные по школе используются администрацией для того, чтобы выявить тенденции сложившейся ситуации и сделать соответствующий прогноз на будущее.

Аналогичным образом, с помощью богатого инструментария приложений Microsoft Office, решаются и другие вопросы – написание программ по модификации расписания, учету пропущенных и замещенных уроков, обработке данных по оплате труда, а также создание тестовых комплексов для внутришкольного контроля.

Информационные технологии дают огромные преимущества и учащимся, и учителям. Все, что создается с использованием средств информационно-коммуникационных технологий, можно охарактеризовать тремя словами: эстетично, быстро, качественно. И самое главное – это возможность оперативного доступа к информации, возможность редактирования, получения твердой копии и передачи ее по локальной сети или Интернет-каналам.

Наибольших успехов сотрудникам школы удаётся добиваться благодаря применению электронных таблиц Microsoft Excel, на базе которых создано немало интересных решений, автоматизирующих отдельные участки учебно-воспитательной работы и административно-хозяйственной деятельности.

Таким образом, эффективное использование информационного пространства способствует повышению качества профессиональной и общеобразовательной подготовки за счет внедрения новых технологий в образовательный процесс; способствует повышению творческой активности педагогов и учащихся; формированию информационной культуры (приобщение к информативно-коммуникационным возможностям современных технологий) руководящих, педагогических работников, обучающихся и их родителей.


2
Сведения  из теории статистических решений

2.1Определение основных статистических характеристик средствами Мастера функций

В результате наблюдений или эксперимента получаются наборы данных, называемые выборками. Для проведения их анализа данные подвергаются статистической обработке. Первое, что всегда делается при обработке данных, это вычисление элементарных статистических характеристик выборок (как минимум: среднего, среднеквадратичного отклонения, ошибки среднего) по каждому параметру и по каждой группе. Полезно также вычислить эти характеристики для объединения родственных групп и суммарно по всем данным.Использование специальных функций

В Мастере функций Excel имеется ряд специальных функций, предназначенных для вычисления выборочных характеристик. Прежде всего, это функции, характеризующие центр распределения.

Функция СРЗНАЧ вычисляет среднее арифметическое из нескольких массивов (аргументов) чисел.

Функция СРГАРМ позволяет получить среднее  гармоническое множества данных. Среднее гармоническое – это величина, обратная к среднему арифметическому обратных величин. Например:

СРГАРМ(10;14;5;6;10;12;13) равняется 8,317.

Функция СРГЕОМ вычисляет среднее геометрическое значений массиваположительных чисел.

Функцию СРГЕОМ можно использовать для  вычисления средних показателей динамического ряда. Например:

СРГЕОМ(10;14;5;6;10;12;13) рав няется 9,414.

Функция МЕДИАНА позволяет получать медиану заданной выборки. Медиана – это элемент выборки, число элементов выборки со значениями

больше которого и меньше которого равно. Например:

МЕДИАНА(10;14;5;6;10;12;13) равняется 10.

Функция МОДА вычисляет наиболее часто встречающееся значение в выборке. Например:

МОДА(10;14;5;6;10;12;13) равняется 10.

К специальным функциям, вычисляющим выборочные характеристики, характеризующие рассеяние вариант, относятся ДИСП, СТАНДОТКЛОН, ПЕРСЕНТИЛЬ.

Функция ДИСП позволяет оценить дисперсию по выборочным данным.Например:

ДИСП(10;14;5;6;10;12;13) равняется 11,667.

Функция СТАНДОТКЛОН вычисляет стандартное отклонение. Например:

СТАНДОТКЛОН (10;14;5;6;10;12;13) равняется 3,416.

Функция ПЕРСЕНТИЛЬ позволяет получить квантили заданной выборки. Например, если ячейки А1:А7 содержат числа 10, 14, 5, 6, 10, 12 и 13, ток вантилью со значением 0,1 является ПЕРСЕНТИЛЬ(А1:А7;0,1), равная 5,6.

Форму эмпирического распределения позволяют оценить специальныефункции ЭКСЦЕСС и СКОС.

Функция ЭКСЦЕСС вычисляет оценку эксцесса по выборочным данным. Например: ЭКСЦЕСС(10;14;5;6;10;12;13) равняется -1,169.

Функция СКОС позволяет оценить асимметрию выборочного распреде-ления. Например:СКОС(10;14;5;6;10;12;13) равняется -0,527.

2.2 Использование инструментов Пакета анализа для статистической

обработки данных

В пакете Excel помимо Мастера функций имеется набор более мощных инструментов для работы с несколькими выборками и углубленного анализа данных,называемый Пакет анализа, который может быть использован для решения задач статистической обработки выборочных данных.

Для установки Пакета анализа в Excel выполните следующее:в меню Сервис выберите команду Надстройки;в появившемся списке установите флажок Пакет анализа.

Ввод данных. Исследуемые данные следует представить в виде таблицы, где столбцами являются соответствующие показатели. При создании таблицы Excel информация вводится в отдельные ячейки. Совокупность ячеек, содержащих анализируемые данные, называется входным диапазоном.

Последовательность обработки данных. Для использования статистического пакета анализа данных необходимо:выполнить команду Сервис – Анализ данных;выбрать необходимую строку в появившемся списке Инструменты анализа;ввести входной и выходной диапазоны и выбрать необходимые параметры.

Нахождение основных выборочных характеристик

Для определения характеристик выборки используется процедура Описательная статистика. Процедура позволяет получить статистический отчет, содержащий информацию о центральной тенденции и изменчивости входных данных. Для ыполнения процедуры необходимо:выполнить команду Сервис – Анализ данных;в появившемся списке Инструменты анализа выбрать строку Описательная статистика и нажать кнопку ОК (рис. 3.5);

Рис. 3.5. Окно выбора метода обработки данных и окно

Описательной статистики в появившемся диалоговом окне указать входной диапазон, то есть ввести ссылку на ячейки, содержащие анализируемые данные; указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа; в разделе Группировка переключатель установить в положение по столбцам; установить флажок в поле Итоговая статистика; нажать кнопку ОК.

В результате анализа в указанном выходном диапазоне для каждого столбца данных выводятся следующие статистические характеристики: среднее, стандартная ошибка (среднего), медиана, мода, стандартное отклонение, дисперсия выборки, эксцесс, асимметричность, интервал, минимум, максимум, сумма, счет, наибольшее, наименьшее, уровень надежности.

Пример 7. Рассматривается зарплата основных групп работников гостиницы:

администрации, обслуживающего персонала и работников ресторана. Были получены следующие данные:


Администрация

Персонал

Ресторан

4500

2100

3200

4000  

2100

3000

3700  

2000

2500

3000

2000

2000

2500

2000

1900

1900

1800

1800

1800

Необходимо определить основные статистические характеристики в группах данных.

Решение

1. Для использования инструментов анализа исследуемые данные следует представить в виде таблицы, где столбцами являются соответствующие показатели. Значения зарплат сотрудников администрации введите в диапазон А1:А5, обслуживающего персонала – в диапазон В1:В8 и т. д. В результате получится таблица, представленная на рис. 3.6.

Рис. 3.6. Таблица из примера 7

2. Далее необходимо провести элементарную статистическую обработку. Для этого выполните команду Сервис – Анализ данных. Затем в появившемся списке Инструменты анализа выберите строку Описательная статистика.

3. В появившемся диалоговом окне (рис. 3.7) в рабочем поле Входной интервал укажите входной диапазон – А1:С8. Активировав переключателем рабочее поле Выходной интервал, укажите выходной диапазон – ячейку А9. В разделе Группировка переключатель установите в положение по столбцам. Установите флажок в поле Итоговая статистика и нажмите кнопку ОК.

Рис. 3.7. Пример заполнения диалогового окна Описательная статистика

В результате анализа (рис. 3.8) в указанном выходном диапазоне для каждого столбца данных получим соответствующие результаты

Рис. 3.8. Результаты работы инструмента Описательная статистика

Все полученные характеристики были рассмотрены ранее в разделе «Выборочные характеристики», за исключением последних четырех:

  •  минимум – значение минимального элемента выборки;
  •  максимум – значение максимального элемента выборки;
  •  сумма – сумма значений всех элементов выборки;
  •  счет – количество элементов в выборке.

Среди этих характеристик наиболее важными являются показатели Среднее, Стандартная ошибка (среднего) и Стандартное отклонение.

2.3 Принятие статистических решений

Статистическая гипотеза – это предположение о виде или отдельных параметрах распределения вероятностей, которое подлежит проверке на имеющихся данных.

Проверка статистических гипотез – это процесс формирования решения о возможности принять или отвергнуть утверждение (гипотезу), основанный на информации, полученной из анализа выборки. Методы проверки гипотез называются критериями.

В большинстве случаев рассматривают так называемую нулевую гипотезу(нуль-гипотезу Н0), состоящую в том, что все события произошли случайно, естественным образом. Альтернативная гипотеза (Н1) состоит в том, что события случайным образом произойти не могли, и имело место воздействие некого фактора.

Обычно нулевая гипотеза формулируется таким образом, чтобы на основании эксперимента или наблюдений ее можно было отвергнуть с заранее заданной вероятностью ошибки α. Эта заранее заданная вероятность ошибки называется уровнем значимости.

Уровень значимости – максимальное значение вероятности появления события, при котором событие считается практически невозможным. В статистике наибольшее распространение получил уровень значимости, равный α = 0,05. Поэтому, если вероятность, с которой интересующее событие может произойти случайным образом р < 0,05, то принято считать это событие маловероятным, и если оно все же произошло, то это не было случайным. В наиболее ответственных случаях, когда требуется особая уверенность в достоверности полученных результатов, надежности выводов, уровень значимости принимают равным α = 0,01 или даже α = 0,001.

Величину Р, равную 1 – α, называют доверительной вероятностью (уровнем надежности), то есть вероятностью, признанной достаточной для того, чтобы уверенно судить о принятом статистическом решении. Соответственно, в качестве доверительных вероятностей выбирают значения 0,95, 0,99 или 0,999.

Интервал, в котором с заданной доверительной вероятностью Р = 1 – α находится оцениваемый параметр, называется доверительным интервалом. В соответствии с доверительными вероятностями на практике используются 95-, 99-,99,9-процентные доверительные интервалы. Граничные точки доверительного интервала называют доверительными пределами (рис. 3.9).

Выбор того или иного уровня значимости, выше которого результаты отвергаются как статистически не подтвержденные, в общем случае является произвольным. Окончательное решение зависит от исследователя, традиций и накопленногопрактического опыта в данной области исследований.

Анализ одной выборки

Анализ однородности выборки. Одним из важных вопросов, возникающих при анализе выборки, является вопрос: относится та или иная варианта к данной статистической совокупности? Решение вопроса не представляет сложности, если распределение в этой совокупности является нормальным. Для этогодостаточно использовать правило трех сигм. Согласно этому правилу в пределах М ± 3σ на ходится 99,7 % всех вариант. Поэтому если варианта попадает в этот интервал, то она считается принадлежащей к данной совокупности. Если не попадает, то она может быть отброшена. Хотя этот метод и предполагает нормальность исходного распределения, на практике он успешно работает и может быть использован в большинстве других случаев.

При числе элементов в выборке n < 30 способ более точного определения границ доверительного интервала по формуле [Mtn,ps; M + tn,ps] (3.1) будет показан ниже в примере 8. В формуле (3.1) М – среднее значение, s – стандартное отклонение, tn,p – табличное значение распределения Стьюдента с числом степеней свободы n и доверительной вероятностью р.

Построение доверительных интервалов для среднего. Еще одной важной задачей, возникающей при анализе одной выборки, является сравнение выборочного среднего арифметического со средним значением генеральной совокупности. Эта задача решается с помощью статистических критериев. При этом выясняется, значимо ли отличие выборочного среднего значения от среднего значения генеральной совокупности, из которой предположительно взята выборка, или наблюдаемое различие является случайным.

Действительно, средние значения, получаемые по выборочным данным, обычно не совпадают с генеральным средним (математическим ожиданием). В связи с этим возникает вопрос: можно ли по результатам выборочной оценки судить о свойствах всей генеральной совокупности?

Поскольку каждую оценку, полученную в отдельной выборке, можно рассматривать как случайную величину, то при увеличении числа выборок распределение отдельных оценок будет принимать характер нормального распределения. Это значит, что в случае средних арифметических значения выборочных средних относительно генерального среднего распределяются по нормальному закону. То есть так го арифметического выборки.

Отсюда, в частности, следует, что 68,3 % всех выборочных средних находятся в пределах Δ = М ± m, где Δ – предельная ошибка выборки, М — среднее выборочное, m – стандартное отклонение среднего значения. Иными словами, имеется вероятность 0,683, что выборочное среднее отличается от генерального не более, чем на ± m. Здесь 0,683 – доверительная вероятность, 1 – 0,683 = 0,317 – уровень значимости α, Δ = М ± m – 68 % доверительный интервал.

Для принятой в большинстве исследований доверительной вероятности 0,95 доверительный интервал для средних при достаточно большом числе наблюдений (n > 30) примерно равен ± 2m (см. рис. 3.9). При доверительной вероятности 0,99 доверительный интервал составит примерно ± 3m. Для более точного определения границ доверительного интервала можно воспользоваться формулой

где М - среднее значение;

s - стандартное отклонение;

- табличное значение распределения Стьюдента с числом степеней свободы

n - и доверительной вероятностью р;

n - количество элементов в выборке.

В MS Excel для более точного вычисления границ доверительного интервала и при числе элементов в выборке n < 30 можно воспользоваться функцией ДОВЕРИТ или процедурой Описательная статистика.

Функция ДОВЕРИТ(альфа; станд_откл; размер) определяет полуширину доверительного интервала и содержит следующие параметры:

альфа – уровень значимости, используемый для вычисления доверительной вероятности. Доверительная вероятность равняется 100*(1 – альфа) процентам,или, другими словами, альфа, равное 0,05, означает 95-процентный уровень доверительной вероятности;

станд_откл – стандартное отклонение генеральной совокупности для интервала данных, предполагается известным;

размер – это размер выборки.

Пример 8. Найти границы 95-процентного доверительного интервала для среднего значения, если у 25 телефонных аккумуляторов среднее время разряда в режиме ожи дания составило 140 часов, а стандартное отклонение – 2,5 часа.

Решение

1. Откройте новую рабочую таблицу. Установите табличный курсор в ячейку А1.

2. Для определения границ доверительного интервала необходимо на панели

инструментов Стандартная нажать кнопку Вставка функции (fx). В появившемся диалоговом окне Мастера  функций выберите категорию Статистические и функцию ДОВЕРИТ, после чего нажмите кнопку ОК.

3. В рабочие поля появившегося диалогового окна функции ДОВЕРИТ с клавиатуры введите условия задачи: Альфа – 0,05; Станд_откл – 2,5; Размер – 25 (рис. 3.10). Нажмите кнопку ОК.

Рис. 3.10. Пример заполнения диалогового окна ДОВЕРИТ

4. В ячейке А1 появится полуширина 95-прцентного доверительного интервала для среднего значения выборки – 0,979981. Другими словами, с 95-процентным уровнем надежности можно утверждать, что средняя продолжительность разряда аккумулятора составляет 140 ± 0,979981 часа или от 139,02 до 140,98 часа.

Пример 9. Пусть имеется выборка, содержащая числовые значения: 13, 15, 17,19, 22, 25, 19. Необходимо определить границы 95-процентного доверительного интерва ла для среднего значения и для нахождения «выскакивающей» варианты.

Решение

1. В диапазон А1:А7 введите исходный ряд чисел.

2. Далее вызовите процедуру Описательная статистика. Для этого выполните команду Сервис – Анализ данных. Затем в появившемся списке Инструменты анализа выберите строку Описательная статистика.

3. В появившемся диалоговом окне в рабочем поле Входной интервал укажите входной диапазон – А1:А7. Переключателем активизируйте Выходной интервал и укажите выходной диапазон – ячейку В1. В разделе Группировка переключатель установите в положение по столбцам. Установите флажок Уровень надежности и справа от него задайте (%) – 95. Затем нажмите кнопку ОК.

4. В результате анализа в указанном выходном диапазоне для доверительной

вероятности 0,95 получаем значения доверительного интервала (рис. 3.11).

Рис. 3.11. Исходная выборка (А1:А7) и результат вычислений (СЗ) для примера 9

Уровень надежности – это половина доверительного интервала для генерального среднего арифметического. Из полученного результата следует, что с вероятностью 0,95 среднее арифметическое для генеральной совокупности находится в интервале 18,571 ± 3,77. Здесь 18,571 – выборочное среднее М для рассматриваемого примера, которое находится обычно процедурой Описательная статистика одновременно с доверительным интервалом.

5. Для нахождения доверительных границ для «выскакивающей» варианты необходимо полученный выше доверительный интервал умножить на n (в примере – 7 , то есть 3,77· 7 = 9,975). В Excel это можно выполнить следующим образом: ввести, например, в ячейку С4 формулу =С3*Корень(7). В результате получим в ячейке С4 значение доверительного интервала – 9,975.

Таким образом, варианта, попадающая в интервал 18,571 ± 9,975, считается принадлежащей данной совокупности с вероятностью 0,95. Выходящая за эти границы может быть отброшена с уровнем значимости α = 0,05.

Проверка соответствия теоретическому распределению. Следующей задачей, возникающей при анализе одной выборки, является оценка меры соответствия (расхождения) полученных эмпирических данных и каких-либо теоретических распределений. Это связано с тем, что в большинстве случаев при решении реальных задач закон распределения и его параметры неизвестны. В то же время применяемые статистические методы в качестве предпосылок часто требуют определенного закона распределения.

Наиболее часто проверяется предположение о нормальном распределении генеральной совокупности, поскольку большинство статистических процедур ориентировано на выборки, полученные из нормально распределенной генеральной совокупности.

Для оценки соответствия имеющихся экспериментальных данных нормальному закону распределения обычно используют графический метод, выборочные параметры формы распределения и критерии согласия.

Графический метод позволяет давать ориентировочную оценку расхождения или совпадений распределений.

При большом числе наблюдений (n > 100) неплохие результаты дает вычисление выборочных параметров формы распределения: эксцесса и асимметрии. Принято говорить, что предположение о нормальности распределения не противоречит имеющимся данным, если асимметрия близка к нулю, то есть лежит в диапазоне от -0,2 до 0,2, а эксцесс – от 2 до 4.

Наиболее убедительные результаты дает использование критериев согласия.Критериями согласия называют статистические критерии, предназначенные для проверки согласия опытных данных и теоретической модели. Здесь нулевая гипотеза Н0 представляет собой утверждение о том, что распределение генеральной совокупности, из которой получена выборка, не отличается от нормального. Среди критериев согласия большое распространение получил непараметрический критерий χ2 (хи-квадрат). Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитанными по формулам нормального распределения.

Отметим, что сколько-нибудь уверенно о нормальности закона распределения можно судить, если имеется не менее 50 результатов наблюдений. В случаях меньшего числа данных можно говорить только о том, что данные не противоречат нормальному закону, и в этом случае обычно используют графические методы оценки соответствия. При большем числе наблюдений целесообразно совместное использование графических и статистических (например, тест хи-квадрат или аналогичные) методов оценки, естественно дополняющих друг друга.

Использование критерия согласия хи-квадрат.

Для применения критерия желательно, чтобы объем выборки n был > 40, выборочные данные были сгруппированы в интервальный ряд с числом интервалов не менее 7, а в каждом интервале находилось не менее 5 наблюдений (частот).

Отметим, что сравниваться должны именно абсолютные частоты, а не относительные. При этом, как и любой другой статистический критерий, критерий хиквадрат не доказывает справедливость нулевой гипотезы (соответствие эмпирического распределения нормальному), а лишь может позволить ее отвергнуть с определенной вероятностью (уровнем значимости).

В MS Excel критерий хи-квадрат реализован в функции ХИ2ТЕСТ. Функция ХИ2ТЕСТ вычисляет вероятность совпадения наблюдаемых (фактических) значений и теоретических (гипотетических) значений. Если вычисленная вероятность ниже уровня значимости (0,05), то нулевая гипотеза отвергается и утверждается, что наблюдаемые значения не соответствуют нормальному закону распределения.

Если вычисленная вероятность близка к 1, то можно говорить о высокой степени соответствия экспериментальных данных нормальному закону распределения.

Функция имеет следующий синтаксис:

ХИ2ТЕСТ (фактический_интервал; ожидаемый_ интервал)

Здесь:

фактический_интервал – это интервал данных, которые содержат наблюдения, подлежащие сравнению с ожидаемыми значениями;

ожидаемый_интервал – это интервал данных, который содержит теоретические (ожидаемые) значения для соответствующих наблюдаемых.

Пример 10. Проверить соответствие выборочных данных (64, 57, 63, 62, 58, 61,63, 60, 60, 61, 65, 62, 62, 60, 64, 61, 59, 59, 63, 61, 62, 58, 58, 63, 61, 59, 62, 60, 60, 58,61, 60, 63, 63, 58, 60, 59, 60, 59, 61, 62, 62, 63, 57, 61, 58, 60, 64, 60, 59, 61, 64, 62, 59,65) нормальному закону распределения.

Решение

1. Заполним следующую таблицу:

 

2. Найдем теоретические частости нормального распределения. Для этого предварительно необходимо найти среднее значение и стандартное отклонение выборки.

В ячейке I13 с помощью функции СРЗНАЧ найдем среднее значение для данных из диапазона А2:Е12 (60,855). В ячейке J13 с помощью функции СТАНДOТКЛOН найдем стандартное отклонение для этих же данных (2,05). В ячейки К1 и К2 введем название столбца – Теоретические частости. Затем с помощью функции НОРМРАСП найдем теоретические частости. Установим курсор в ячейку К4, вызовем указанную функцию и заполним ее рабочие поля: х – G4; Среднее – $I$13;

Стандартное_откл – $J$13; Интегральный – 0. Получим в ячейке К4 0,033. Далее протягиванием скопируем содержимое ячейки К4 в диапазон ячеек К5:К12. Затем в ячейки L1 и L2 введем название нового столбца – Теоретические частоты.Установим курсор в ячейку L4 и введем формулу =$Н$13*К4. Далее протягиванием скопируем содержимое ячейки L4 в диапазон ячеек L5:L12. Результаты вычислений представлены на рис. 3.13.

Рис. 3.13. Результаты вычисления теоретических частостей и частот из примера 10

3. С помощью функции ХИ2ТЕСТ определим соответствие данных нормальному закону распределения. Для этого установим курсор  в свободную ячейку L13 и введем функцию ХИ2ТЕСТ. В качестве фактического интервала зададим диапазон Н4:Н12, а ожидаемого интервала – диапазон L4:L12 (рис. 3.14). В ячейке L13появится значение вероятности того, что выборочные данные соответствуют нормальному закону распределения – 0,9842.

 

Рис. 3.14. Пример заполнения рабочих полей функции ХИ2ТЕСТ

4. Поскольку полученная вероятность соответствия экспериментальных данных р = 0,98 много больше, чем уровень значимости α = 0,05, то можно утверждать, что нулевая гипотеза не может быть отвергнута и, следовательно, данные не противоречат нормальному закону распределения. Более того, поскольку полученная вероятность р = 0,98 близка к 1, можно говорить о высокой степени вероятности того, что экспериментальные данные соответствуют нормальному закону.

Анализ двух выборок

Выявление достоверности различий

Следующей задачей статистического анализа, решаемой после определения основных выборочных характеристик и анализа одной выборки, является совместный анализ нескольких выборок. Важнейшим вопросом, возникающим при анализе двух выборок, является вопрос о наличии различий между этими выборками. Обычно для этого проводят проверку статистических гипотез о принадлежности обеих выборок одной генеральной совокупности или о равенстве генеральных средних. В рассмотренном ранее примере 6 такие различия выявляются путем сравнения данных реализации турфирмой путевок за периоды до и после начала активной рекламной кампании. Если сопоставить средние значения числа реализованных за месяц путевок до (125,6) и после (145,7) начала рекламной кампании, видно, что они различаются. Можно ли по этим данным сделать вывод об эффективности рекламной кампании?

Для решения задач такого типа используются так называемые критерии различия. Для проверки одной и той же гипотезы могут быть использованы разные статистические критерии. Правильный выбор критерия определяется как спецификой данных и проверяемых гипотез, так и уровнем статистической подготовки исследователя. Статистические критерии различия подразделяются на параметрические и непараметрические критерии. Параметрические критерии служат для проверки гипотез о параметрах определенных распределений генеральной совокупности (чаще всего нормального распределения). Непараметрические критерии для проверки гипотез не используют предположений о законе распределения генеральной совокупности и не требуют знания параметров распределения.

Параметрические критерии. Параметрические критерии служат для проверки гипотез о положении и рассеивании. Из параметрических критериев наибольшей популярностью при проверке гипотез о равенстве генеральных средних (математических ожиданий) пользуется t-критерий Стьюдента (t-критерий различия). Он наиболее часто используется для проверки следующей гипотезы: «Средние двух выборок относятся к одной и той же совокупности». Критерий позволяет найти вероятность того, что оба средних относятся к одной и той же совокупности. Если эта вероятность р ниже уровня значимости (р < 0,05), то принято считать, что выборки относятся к двум разным совокупностям.

При использовании t-критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух не зависимых, несвязанных выборок (так называемый двухвыборочный t-критерий).В этом случае есть контрольная группа и опытная группа, состоящие, например, из разных пациентов, количество которых в группах может быть различно.

Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными. Например, измеряется содержание лейкоцитов у здоровых животных, а затем у тех же самых животных после облучения определенной дозой излучения.

В обоих случаях в принципе должно выполняться требование нормальности распределения исследуемого признака в каждой из сравниваемых групп и равенства дисперсий в сравниваемых совокупностях. Однако на практике по большому счету корректное применение t-критерия Стьюдента для двух групп часто бывает за труднительно, поскольку достоверно проверить эти условия удается далеко не всегда.

Для оценки достоверности отличий по критерию Стьюдента принимается нулевая гипотеза, что средние выборок равны между собой. Затем вычисляется значение вероятности того, что изучаемые события (например, количества реализованных путевок в обеих выборках) произошли случайным образом.

В MS Excel для оценки достоверности отличий по критерию Стьюдента используются специальная функция ТТЕСТ и процедуры Пакета анализа. Эти перечисленные инструменты вычисляют вероятность, соответствующую критерию Стьюдента, и используются, чтобы определить, насколько вероятно, что две выборки взяты из генеральных совокупностей, которые имеют одно и то же среднее.

Функция ТТЕСТ имеет следующий синтаксис:

ТТЕСТ(массив1; массив2; хвосты; тип)

Здесь:

  •  массив1 – это первое множество данных;
  •  массив2 – это второе множество данных;

хвосты – число хвостов распределения. Обычно число хвостов равно 2; тип – это вид исполняемого t-теста. Возможны 3 варианта выбора:

1 – парный тест,

2 – двухвыборочный тест с равными дисперсиями,

3 – двухвыборочный тест с неравными дисперсиями.

Пример 11. Выявить, достоверны ли отличия при сравнении данных реализации турфирмой путевок за периоды до и после начала активной рекламной кампании (см. пример 6).

Решение

1. Введите данные так, как показано в следующей таблице.

2.Для выявления достоверности отличий установим курсор в свободную ячейку (например, А11). Вызовем Мастер функций, выберем категорию Статистические и функцию ТТЕСТ. В появившемся диалоговом окне функции ТТЕСТ введем исходные данные: в поле Массив1 введем диапазон А2:А8; в поле Массив2 -диапазон данных исследуемой группы В2:В8. В поле Хвосты всегда вводится с клавиатуры цифра 2 (без кавычек), а в поле Тип с клавиатуры введем цифру 3. Нажмем кнопку ОК. В ячейке A11 появится значение вероятности – 0,006295.

3.Поскольку величина вероятности случайного появления анализируемых выборок (0,006295) меньше уровня значимости (α = 0,05), то нулевая гипотеза отвергается. Следовательно, различия между выборками не случайные и средние выборок считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента можно сделать вывод о большей эффективности реализации путевок после начала рекламной кампании (р < 0,05).

Как указывалось выше, при использовании t-критерия выделяют два основных случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть две различные выборки, количество элементов в которых может быть также различно. При заполнении диалогового окна ТТЕСТ при этом указывается Тип, равный 3.

Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными (при заполнении диалогового окна ТТЕСТ указывается Тип, равный 1). Например, сравнивается реализация путевок двумя фирмами в соответствующие месяцы.

В качестве упражнения рассмотрим пример.

Пример 12. Сравнивается количество наличных денег у двух групп студентов(в тыс. рублей):

30

10

30

20

40

30

50

40

60

50

Необходимо определить достоверность различия между группами при двух вариантах постановки задачи:

группы состоят из различных студентов (тип 3);

группы состоят из одних и тех же студентов, но первая – до посещения буфета, а вторая – после (тип 1).

Решение

В ячейки С1:С5 введите количество денег у студентов первой группы. В ячейки D1:D5 введите количество денег у студентов второй группы.

1. Установим курсор в свободную ячейку (например, С6). Вызовем Мастер функций, выберем категорию Статистические и функцию ТТЕСТ. В появившемся диалоговом окне функции ТТЕСТ введем исходные данные. Указателем мыши введем диапазон данных первой группы в поле Массив1 (С1:С5). В поле Массив2 введем диапазон данных второй группы (D1:D5). В поле Хвосты всегда вводится цифра 2 (без кавычек), а в поле Тип введем цифру 3. Нажмем кнопку ОК. В ячейке С6 появится значение вероятности – 0,228053.

Поскольку величина вероятности случайного появления анализируемых выборок (0,228053) больше уровня значимости (α = 0,05), то нулевая гипотеза не может быть отвергнута (принимается). Следовательно, различия между выборками могут быть случайными и средние выборок не считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента нельзя сделать вывод о достоверности отличий двух групп студентов по количеству карманных денег, имеющихся у них (р > 0,05).

2. Установим курсор в свободную ячейку (например, D6). Вызовем Мастер функций, выберем категорию Статистические и функцию ТТЕСТ. В появившемся диалоговом окне функции ТТЕСТ введем исходные данные. Указателем мыши введем диапазон данных первой группы в поле Массив1 (С1:С5). В поле Массив2 введем диапазон данных второй группы (D1:D5). В поле Хвосты всегда вводится цифра 2 (без кавычек), а в поле Тип введем цифру 1. Нажмем кнопку ОК. В ячейке D6 появится значение вероятности – 0,003883.

Поскольку величина вероятности случайного появления анализируемых выборок (0,003883) меньше уровня значимости (α = 0,05), то нулевая гипотеза отвергается. Следовательно, различия между выборками не могут быть случайными и средние выборок считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента можно сделать вывод о том, что в двух группах студентов выявлены достоверные отличия по количеству карманных денег (р < 0,05), что явилось результатом посещения буфета.

Таким образом, ясно, что применение различных типов критерия Стьюдента может приводить к различным результатам на основании одних и тех же исходных данных. Можно предложить следующий приблизительный способ выбора типа критерия: если не ясно, какой тип критерия выбирать, выбирается тип 3; если очевидно, что выборки зависимы, связаны (например, это одни и те же студенты), то следует выбирать тип 1.

Критерий Фишера. Критерий Фишера используют для проверки гипотезы о принадлежности двух дисперсий одной генеральной совокупности и, следовательно, их равенстве. При этом предполагается, что данные независимы и распределены по нормальному закону. Гипотеза о равенстве дисперсий принимается, если отношение большей дисперсии к меньшей меньше критического значения распределения Фишера:

где Fкрит зависит от уровня значимости и числа степеней свободы для дисперсий в числителе и знаменателе.

В MS Excel для расчета уровня вероятности выполнения гипотезы о равенстве дисперсий могут быть использованы функция ФТЕСТ(массив1; массив2) и процедура Пакета анализа Двухвыборочный F-тест для дисперсий.

Непараметрические критерии. Непараметрические критерии используются в тех случаях, когда закон распределения данных отличается от нормального или неизвестен. Из большого числа непараметрических критериев рассмотрим критерий хи-квадрат.

Критерий согласия χ2. Бывают ситуации, когда необходимо сравнить две относительные или выраженные в процентах величины (доли). Примером может служить случай проверки успешности трудоустройства молодых специалистов, когда известен процент трудоустроившихся выпускников двух институтов. Для проверки достоверности различий здесь критерий Стьюдента применить не удастся. В таких задачах обычно используют критерий χ2 (хи-квадрат). Критерий хи-квадрат относится к непараметрическим критериям.

Здесь, как и в случае с критерием Стьюдента, принимается нулевая гипотеза о том, что выборки принадлежат к одной генеральной совокупности. Кроме того, определяется ожидаемое значение результата. Обычно это среднее значение между выборками рассматриваемого показателя. Затем оценивается вероятность того,что ожидаемые значения и наблюдаемые принадлежат к одной генеральной совокупности.

В MS Excel критерий хи-квадрат реализован в функции ХИ2ТЕСТ. Функция ХИ2ТЕСТ вычисляет вероятность совпадения наблюдаемых (фактических)значений и теоретических (гипотетических) значений. Если вычисленная вероятность ниже уровня значимости (0,05), то нулевая гипотеза отвергается и утверждается, что наблюдаемые значения не соответству теоретическим (ожидаемым) значениям.

Пример 13. Пусть после окончания двух институтов экономического профиля трудоустроилось по специальности из первого института 90 человек, а из второго – 60 (обе группы молодых специалистов включали по 100 человек).

Решение

1. Принимается нулевая гипотеза, что выборки принадлежат к одной генеральной совокупности.

2. Определяется ожидаемое значение результата (среднее значение между выборками): (60 + 90) / 2 = 75, то есть мы ожидали, что разницы между группами нет и в обоих случаях должно было трудоустроиться по 75 человек.

3. Затем вычисляется значение вероятности того, что изучаемые события (трудоустройство в обеих выборках) произошли случайным образом. Для этого введем данные в рабочую таблицу: 60 – в ячейку Е1, 90 – в F1, 75 – в E2, F2. Установим курсор в свободную ячейку (например, Е3). Вызовем Мастер функций, выберем категорию Статистические и функцию ХИ2ТЕСТ. В появившемся диалоговом окне функции введем исходные данные. Указателем мыши введем в поле Фактический интервал диапазон данных наблюдавшегося количества трудоустроившихся (E1:F1). В поле Ожидаемый интервал введем диапазон данных предполагаемого количества трудоустроившихся (E2:F2). Нажмем кнопку ОК. В ячейке Е3появится значение вероятности – 0,014306.

Поскольку величина вероятности случайного появления анализируемых выборок (0,0143) меньше уровня значимости (α = 0,05), то нулевая гипотеза отвергается. Следовательно, различия между выборками не могут быть случайными и выборки считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия хи-квадрат можно сделать вывод о том, что в двух группах выпускников выявлены достоверные отличия по успешности трудоустройства (р < 0,05), что, по-видимому, явилось результатом более высокой репутации выпускников первого института.

Использование инструмента «Пакет анализа» для выявления различий между выборками

Для анализа двух выборок с помощью t-теста Стьюдента могут быть использованы следующие процедуры: Парный двухвыборочный t-тест для средних; Двух выборочный t-тест с одинаковыми дисперсиями и Двух выборочный t-тест с различными дисперсиями. Как указывалось в пункте «Анализ двух выборок», в общем случае необходимо воспользоваться процедурой Двух выборочный t-тест с различными дисперсиями, так как процедуры Парный двух выборочный t-тест с одинаковыми дисперсиями относятся к частным, специальным случаям.

Для выполнения процедуры анализа необходимо:выполнить команду Сервис – Анализ данных; в появившемся списке Инструменты анализа выбрать строку Двухвыборочный t-тест с различными дисперсиями, щелкнуть по кнопке ОК;в появившемся диалоговом окне указать Интервал переменной 1, то есть ввести ссылку на первый диапазон анализируемых данных, содержащий один столбец данных;указать Интервал переменной 2, то есть ввести ссылку на второй диапазон анализируемых данных, содержащий один столбец данных; указать Выходной диапазон; нажать кнопку ОК.

Результаты анализа. В выходной диапазон будут выведены: средняя, дисперсия и число наблюдений для каждой переменной, гипотетическая разность средних, df (число степеней свободы), значение t-статистики, Р(Т <= t) одностороннее, t критическое одностороннее, Р(Т <= t) двухстороннее, t  критическое двухстороннее.

Интерпретация результатов. Если величина вероятности случайного появления анализируемых выборок (Р(Т <= t) двухстороннее) меньше уровня значимости (α = 0,05), принято считать, что различия между выборками не случайные, то есть различия достоверные.

Пример 14. Рассматривается заработная плата обслуживающего персонала и работников ресторана гостиницы (из примера 7).

Персонал

Ресторан

2100

3200

2100

3000

2000

2500

2000

2000

2000

1900

1900

1800

1800

1800

Можно ли по этим данным сделать вывод о большей зарплате работников ресторана?

Решение

Для решения задач такого типа используются так называемые критерии различия, в частности, t-критерий Стьюдента.

1. Введите данные: для персонала – в диапазон А1:А8; для работников ресторана – в диапазон В1:В6.

2. Выбор процедуры осуществляется из трех вариантов t-теста. Поскольку данные не имеют попарного соответствия, число их различно и говорить о равенстве дисперсий затруднительно, выберите процедуру Двухвыборочный t-тест с различными дисперсиями.

Для реализации процедуры в пункте меню Сервис выберите строку Анализ данных и далее укажите курсором мыши на строку Двухвыборочный t-тест с различными дисперсиями.

3. В появившемся диалоговом окне задайте Интервал переменной 1, указывая диапазон А1:А8.

4. Аналогично укажите Интервал переменной 2, то есть введите ссылку на диапазон второго столбца В1:В6.

5. Далее укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной диапазон и введите в качестве выходного диапазона ссылку на ячейку С1. Щелкните по кнопке ОК.

Результаты анализа. В выходном диапазоне С1:Е13 появятся результаты процедуры Двухвыборочный t-тест с различными дисперсиями (рис. 3.15).

Рис. 3.15. Исходные данные (А1:В8) и результаты анализа (С1:Е13)

Интерпретация результатов. Средние значения заработной платы (1962 руб.для персонала и 2400 руб. для работников ресторана) довольно сильно отличаются. Тем не менее нулевая гипотеза о том, что разницы между группами нет (то есть средние выборок равны между собой), отвергнута быть не может. Это следует из того, что вероятность реализации нулевой гипотезы достаточно велика (р = 0,1389, что больше чем уровень значимости 0,05, то есть р > 0,05) и величина вероятности случайного появления анализируемых выборок (Р(Т <= t) двухстороннее) больше уровня значимости (α = 0,05). А это позволяет говорить, что различия между выборками могут быть случайными, то есть различия недостоверные.

Таким образом, из полученных результатов исследования вытекает, что на основании приведенных данных нельзя сделать вывод о достоверно большей зарплате работников ресторана.


3.
Использование Microsoft Office Excel в компьютерной обработке данных

3.1 Основные понятия режимов компьютерной обработки данных

ЭВМ – электронно-вычислительная машина.

Информационные системы - В широком смысле информационная система есть совокупность технического, программного и организационного обеспечения, В узком смысле информационной системой называют только подмножество компонентов ИС в широком смысле, включающее базы данных, СУБД и специализированные прикладные программы.

ПЭВМ - Персональный компьютер персональная ЭВМ — компьютер, предназначенный для личного использования, цена, размеры и возможности которого удовлетворяют запросам большого количества людей.

СОД – Система обработки данных.

Обработка данных - процесс выполнения последовательности операций над данными. Обработка данных может осуществляться в интерактивном и фоновом режимах.

ВЦ – вычислительный центр.

ВС – Вычислительная система

СХД – система хранения данных.

ГВС, Глобальная вычислительная сеть - компьютерная сеть, охватывающая большие территории и включающая в себя десятки и сотни тысяч компьютеров.

Существуют различные режимы компьютерной обработки данных, зависящие в первую очередь от ЭВС, от режимных возможностей технических средств, требований к быстроте обработки сообщений.

Пакетный режим - Пакетный режим может пригодиться и при разработке особенно длинных запросов, а именно - многострочных команд или больших последовательностей команд, он позволяет эффективно использовать имеющиеся ресурсы. Пакетная обработка данных - организация выполнения нескольких программ в определенной последовательности с помощью команд операционной системы. Пакетная обработка организуется с помощью пакетных файлов, т.е. пользователь, собирая информацию, формирует её в пакеты в соответствии с признаками и задачами. После сбора информации происходит ёё обработка и ввод. Этот режим используется, как правило, при централизованном способе обработки информации.

Интерактивный режим – Интерактивность понятие, которое раскрывает характер и степень взаимодействия между объектами. Используется в областях: теория информации, информатика и программирование, системы телекоммуникаций, социология, промышленный дизайн и других. Это принцип организации системы, при котором цель достигается информационным обменом элементов этой системы. При использовании интерактивный режим у пользователя появляется возможность воздействовать на процесс обработки данных.

Диалоговый режим- способ взаимодействия пользователя или оператора с ЭВМ, при котором происходит непосредственный и двухсторонний обмен информацией, командами или инструкциями между человеком и ЭВМ. Диалоговый режим подразумевает такую скорость обработки данных, которая не сказывается на технологии действий пользователя. Различают активные и пассивные диалоговые режимы. Этот режим требует определенного уровня технической оснащенности пользователя, т.е. наличие терминала или ПЭВМ, связанных с центральной вычислительной системой каналами связи.

Диалоговый режим

Активный

Пассивный

Активный диалог - режим взаимодействия пользователя и программной системы, который характеризуется равноправием его участников. Обычно для организации активного диалога используются директивные (командные) языки, или языки, близкие к естественным.

Пассивный диалог - режим взаимодействия пользователя и программной системы, инициатива ведения которого принадлежит программной системе. При этом программная система ведет за собой пользователя, требуя от него в точках ветвления вычислительного процесса дополнительную информацию, необходимую для принятия заложенных в алгоритм решений. В пассивном диалоге программная система обеспечивает пользователя информационными сообщениями и подсказками, облегчающими использование диалоговой системы. Запросы к пользователю строятся обычно либо в виде меню, либо в виде шаблонов.

Режим разделения времени - предполагает способность системы выделять свои ресурсы группе пользователей поочередно. Вычислительная система настолько быстро обслуживает каждого пользователя, что создается впечатление одновременной работы нескольких пользователей. Такая возможность достигается за счет соответствующего программного обеспечения.

Режим реального масштаба времени - Реальное время - режим работы вычислительной системы, при котором время отклика на событие не превышает предопределенной величины. Обработка данных в реальном масштабе времени это обработка данных, протекающая с такой же скоростью что и моделируемые события. Как правило, этот режим используется при децентрализованной и распределенной обработке данных.

Регламентный режим - характеризуется определенностью во времени отдельных задач пользователя. К примеру, получение результатных сводок по окончании месяца, расчет ведомостей начисления зарплаты к определенным датам и т.д. Сроки решения устанавливаются заранее по регламенту в противоположность к произвольным запросам.

Режим телеобработки - Телеобработка (удаленная обработка) – режим обработки данных при взаимодействии пользователей с СОД через линии связи. Телеобработка рассматривается в качестве самостоятельного режима обработки данных по следующим причинам. Во-первых, удаленность пользователей от СОД и наличие между ними специфического средства передачи данных – линии связи – порождает необходимость в специальных действиях пользователей при организации доступа к системе и завершении сеанса работы. Во-вторых, наличие линий связи налагает ограничения на форму и время обмена данными между пользователями и СОД. Эти ограничения приводят к необходимости специальных способов организации данных и доступа к ним, что в свою очередь отражается на структуре прикладных программ, используемых в режиме телеобработки.

Режим телеобработки характеризуется, прежде всего, спецификой доступа пользователя к системе и системы к данным, передаваемым через удаленные терминалы, т. е. связан в первую очередь с организацией обработки данных внутри СОД. При этом пользователи могут работать в режимах пакетном, диалоговом или «запрос–ответ». Каждый из этих режимов характеризуется специфичным способом взаимодействия пользователей с системой и соответствующим временем ответа.

Однопрограммный и многопрограммный режимы - Однопрограммный режим. Из подготовленных заданий пользователей составляется пакет заданий. Процессор обслуживает программы пользователей строго в порядке их следования в пакете. Процесс выполнения очередной программы не прерывается до полного ее завершения. Только после этого процессор как ресурс отдается в монопольное владение следующей очередной программе.

Однопрограммные режимы работы: а - режим непосредственного доступа; б- режим косвенного доступа

Режим непосредственного доступа- пользователь получает ЭВМ в полное распоряжение: он сам готовит ЭВМ к работе, загружает задания, инициирует их, наблюдает за ходом решения и выводом результатов. По окончании работ одного пользователя все ресурсы ЭВМ передаются в распоряжение другого

Режим косвенного доступа- пользователь не имеет прямого контакта с ЭВМ. Режим косвенного доступа имеет существенный недостаток. Он не позволяет полностью исключить случаи простоя процессора или непроизводительного его использования. Всякий раз, когда очередная программа, вызванная в процессор, предварительно не обеспечена данными, процессор вынужден простаивать. При этом резко снижается эффективность использования ЭВМ.

Многопрограммный режим- позволяет одновременно обслуживать несколько программ пользователей. Виды многопрограммной работы: классическое мультипрограммирование, режим разделения времени, режим реального времени и целый ряд производных от них. Режим классического мультипрограммирования, или пакетной обработки, применительно к однопроцессорным ЭВМ является основой для построения всех других видов многопрограммной работы. Режим имеет целью обеспечить минимальное время обработки пакета заданий и максимально загрузить процессор.

Многопрограммный режим пакетной обработки

Однопрограммный и многопрограммный режимы характеризуют возможность системы работать одновременно по одной или нескольким программам.

Способы обработки данных делятся на централизованный, децентрализованный, распределительный и интегрированный способы

1. Централизованный - обрабатывает данные в одном месте, используя мощный компьютер и сложное программное обеспечение, установленное только на нем. Терминалы пользователей и автоматизированные устройства ввода первичных документов посылают данные на центральную ЭВМ для обработки, которая, если необходимо, предоставляет на терминалы обработанные данные.Преимуществами такого подхода являются меньшие затраты, лучший контроль за данными и программами (поскольку они находятся в одном месте), большая безопасность. Среди недостатков - большая сложность эксплуатации, высокие затраты на коммуникации (при большой удаленности терминалов).

2. Децентрализованный - системы, в которых данные хранятся и обрабатываются независимо в разных местах. При этом на каждом компьютере хранится какое-то подмножество всех данных компании, а часть данных находится в нескольких местах.

3. Распределительный – способ, при котором все подразделения компании, находящиеся в разных местах, соединены в единую сеть. Каждое из них имеет средства и возможности самостоятельно обрабатывать свои данные, поэтому пользуется преимуществами децентрализованной обработки. В то же время локальные компьютеры из разных мест могут посылать данные на центральную ЭВМ для подведения итогов и пользоваться общими данными компании, находящимися на ней, поэтому распределенная обработка дает и преимущества централизованной системы. В результате получается система, ориентированная как на нужды пользователей, так и на нужды руководства компании.

Преимущества распределенной обработки:

Поскольку пользователи контролируют каждую локальную систему, они имеют возможность подогнать ее под свои нужды и тем самым улучшить качество производимой информации.

Распределенная обработка данных позволяет быстрее и точнее вводить и корректировать данные, быстрее получать ответы на запросы.

Уменьшаются затраты на коммуникации, т.к. обработка производится локально.

Поскольку данные и другие ресурсы находятся в разных местах и частично дублируются, компьютеры как бы страхуют друг друга, уменьшая вероятность катастрофических потерь.

Каждая локальная система может рассматриваться как модуль общей системы, который может быть добавлен, модифицирован или удален из системы без необходимости изменять другие модули.

Недостатки распределительной обработки:

Распределенные системы более дороги, чем централизованные.

Намного усложняются задачи обслуживания оборудования, программного обеспечения, поддержания данных в необходимом состоянии.

Поскольку данные принадлежат разным подразделениям, неизбежно их дублирование со всеми вытекающими последствиями от использования такой информации, поэтому возникает необходимость специальных процедур по согласованию содержимого общих частей баз данных.

Поскольку неизбежно распределение полномочий и зон ответственности в такой системе, намного усложняется процесс документирования и контроля.

Разбросанность частей системы в пространстве и наличие коммуникаций снижают возможности обеспечения безопасности.

Уменьшается информационная насыщенность каждой отдельной локальной системы, поскольку вся информация, которая присуща централизованным системам, не может быть продублирована на всех компьютерах.

4. Интегрированный - способ обработки информации. Он предусматривает создание информационной модели управляемого объекта, то есть создание распределенной базы данных. Такой способ обеспечивает максимальное удобство для пользователя.

Системы хранения данных (СХД) обеспечивают эффективное хранение и оперативный доступ к информации. Благодаря достижениям в современной технологии, хранение больших объёмов информации стало довольно лёгкой задачей. Существует множество различных типов электронных устройств, используемых для хранения данных. Самые обычные способы хранения данных, используемые пользователями: - хранение на магнитных и оптических носителях; - на сменном носителе или, как говорят, флэш-памяти.

Самые популярные из магнитных устройств, хранения данных: 

- дискеты; 

- жёсткие диски; 

- zip-накопитель; 

- цифровые аудиокассеты. Эти устройства имеют читающую / пишущую головку, для записи и дальнейшего чтения информации.

Система хранения данных содержит следующие подсистемы и компоненты: непосредственно устройства хранения (дисковые массивы, ленточные библиотеки), инфраструктуру доступа к устройствам хранения, подсистему резервного копирования и архивирования данных.

В случае отдельного ПК под системой хранения данных можно понимать внутренний жесткий диск или систему дисков (RAID массив). Если же речь заходит о системах хранения данных разного уровня предприятий, то традиционно можно выделить три технологии организации хранения данных:

  •  Direct Attached Storage (DAS);
  •  Network Attach Storage (NAS);
  •  Storage Area Network (SAN)

Устройства DAS (Direct Attached Storage) – решение, когда устройство для хранения данных подключено непосредственно к серверу, или к рабочей станции, как правило, через интерфейс по протоколу SAS.

Основные преимущества и недостатки создания хранилищ данных на основе сети DAS:

Плюсы:

  •  Достаточно низкая стоимость. По сути эта СХД представляет собой дисковую корзину с жесткими дисками, вынесенную за пределы сервера.
  •  Простота развертывания и администрирования.
  •  Высокая скорость обмена между дисковым массивом и сервером.

Минусы:

  •  Низкая надежность. При выходе из строя сервера, к которому подключено данное хранилище, данные перестают быть доступными.
  •  Низкая степень консолидации ресурсов – вся ёмкость доступна одному или двум серверам, что снижает гибкость распределения данных между серверами. В реультате необходимо закупать либо больше внутренних жестких дисков, либо ставить дополнительные дисковые полки для других серверных систем
  •  Низкая утилизация ресурсов.

Устройства NAS (Network Attached Storage) – отдельно стоящая интегрированная дисковая система, посути, NAS-cервер, со своей специализированной ОС и набором полезных функций быстрого запуска системы и обеспечения доступа к файлам. Система подключается к обычной компьютерной сети (ЛВС), и являющается быстрым решением проблемы нехватки свободного дискового пространства, доступного для пользователей данной сети.

Основные преимущества и недостатки создания хранилищ данных на основе сети N AS :

Плюсы:

  •  Дешевизна и доступность его ресурсов не только для отдельных серверов, но и для любых компьютеров организации.
  •  Простота коллективного использования ресурсов.
  •  Простота развертывания и администрирования
  •  Универсальность для клиентов (один сервер может обслуживать клиентов MS, Novell, Mac, Unix)

Минусы:

  •  Доступ к информации через протоколы “сетевых файловых систем” зачастую медленнее, чем как к локальному диску.
  •  Большинство недорогих NAS-серверов не позволяют обеспечить скоростной и гибкий метод доступа к данным на уровне блоков, присущих SAN системам, а не на уровне файлов.

Storage Area Network (SAN) –это специальная выделенная сеть, объединяющая устройства хранения данных с серверами приложений, обычно строится на основе протокола Fibre Channel или протокола iSCSI.

Основные преимущества и недостатки создания хранилищ данных на основе сети SAN:

Плюсы:

  •  Высокая надёжность доступа к данным, находящимся на внешних системах хранения. Независимость топологии SAN от используемых СХД и серверов.
  •  Централизованное хранение данных (надёжность, безопасность).
  •  Удобное централизованное управление коммутацией и данными.
  •  Перенос интенсивного трафика ввода-вывода в отдельную сеть, разгружая LAN.
  •  Высокое быстродействие и низкая латентность.
  •  Масштабируемость и гибкость логической структуры SAN
  •  Возможность организации резервных, удаленных СХД и удаленной системы бэкапа и восстановления данных.
  •  Возможность строить отказоустойчивые кластерные решения без дополнительных затрат на базе имеющейся SAN.

Минусы:

  •  Более высокая стоимость
  •  Сложность в настройке FC-систем
  •  Необходимость сертификации специалистов по FC-сетям (iSCSI является более простым протоколом)
  •  Более жесткие требования к совместимости и валидации компонентов.
  •  Появление в силу дороговизны DAS-«островов» в сетях на базе FC-протокола, когда на предприятиях появляются одиночные серверы с внутренним дисковым пространством, NAS-серверы или DAS-системы в силу нехватки бюджета.

Обработка информации в современной информатике выполняется компьютером и часто включает хранение данных с использованием внешней памяти. Быстрый рост объемов информационных ресурсов требует принципиально новых подходов к хранению и обработке данных. Обработка информации выполняет определенные цели и задачи.

Типичными целями обработки данных является собрать всю доступную информацию, представленную в данных различной природы; представить существенную информацию в виде, наиболее удобном для восприятия пользователя. Эти цели, в свою очередь, приводят к постановке задач обработки данных

. После завершения любого научного исследования, фундаментального или экспериментального, производится статистический анализ полученных данных. Чтобы статистический анализ был успешно проведен и позволил решить поставленные задачи, исследование должно быть грамотно спланировано. Следовательно, без понимания основ статистики невозможно планирование и обработка результатов научного эксперимента. Тем не менее, медицинское образование не дает не только знания статистики, но даже основ высшей математики. Поэтому очень часто можно столкнуться с мнением, что вопросами статобработки в биомедицинских исследованиях должен заниматься только специалист по статистике, а врачу-исследователю следует сосредоточиться на медицинских вопросах своей научной работы. Подобное разделение труда, подразумевающее помощь в анализе данных, вполне оправдано. Однако понимание принципов статистики необходимо хотя бы для того, чтобы избежать некорректной постановки задачи перед специалистом, общение с которым до начала исследования является в такой же степени важным, как и на этапе обработки данных.

Прежде чем говорить об основах статистического анализа, следует прояснить смысл термина «статистика». Существует множество определений, но наиболее полным и лаконичным является, на наш взгляд, определение статистики как «науки о сборе, представлении и анализе данных». В свою очередь, использование статистики в приложении к живому миру называют «биометрией» или «биостатистикой».

Следует заметить, что очень часто статистику сводят только к обработке экспериментальных данных, не обращая внимания на этап их получения. Однако статистические знания необходимы уже во время планирования эксперимента, чтобы полученные в ходе него показатели могли дать исследователю достоверную информацию. Поэтому, можно сказать, что статистический анализ результатов эксперимента начинается еще до начала исследования.

Уже на этапе разработки плана исследователь должен четко представлять себе, какого типа переменные будут в его работе. Все переменные можно разделить на два класса: качественные и количественные. То, какой диапазон может принимать переменная, зависит от шкалы измерений. Можно выделить четыре основных шкалы:

1. номинальную.

2. ординальную;

3.интервальную;

4. рациональную (шкалу отношений).

В номинальной шкале (шкале «названий») присутствуют лишь условные обозначения для описания некоторых классов объектов, например, «пол» или «профессия пациента». Номинальная шкала подразумевает, что переменная будет принимать значения, количественные взаимоотношения между которыми определить невозможно. Так, невозможно установить математические отношения между мужским и женским полом. Условные числовые обозначения (женщины - 0, мужчины - 1, либо наоборот) даются абсолютно произвольно и предназначены только для компьютерной обработки. Номинальная шкала является качественной в чистом виде, отдельные категории в этой шкале выражают частотами (количество или доля наблюдений, проценты).

Ординальная (порядковая) шкала предусматривает, что отдельные категории в ней могут выстраиваться по возрастанию или убыванию. В медицинской статистике классическим примером порядковой шкалы является градация степеней тяжести заболевания. В данном случае мы можем выстроить тяжесть по возрастанию, но все еще не имеем возможности задать количественные взаимоотношения, т. е. дистанция между значениями, измеренными в ординальной шкале, неизвестна или не имеет значения. Установить порядок следования значений переменной «степень тяжести» легко, но при этом невозможно определить, во сколько раз тяжелое состояние отличается от состояния средней тяжести.

Ординальная шкала относится к полуколичественным типам данных, и ее градации можно описывать как частотами (как в качественной шкале), так и мерами центральных значений, на чем мы остановимся ниже.

Интервальная и рациональная шкалы относятся к чисто количественным типам данных. В интервальной шкале мы уже можем определить, насколько одно значение переменной отличается от другого. Так, повышение температуры тела на 1 градус Цельсия всегда означает увеличение выделяемой теплоты на фиксированное количество единиц. Однако в интервальной шкале есть и положительные  и отрицательные величины (нет абсолютного нуля). В связи с этим невозможно сказать, что 20 градусов Цельсия - это в два раза теплее, чем 10. Мы можем лишь констатировать, что 20 градусов настолько же теплее 10, как 30 - теплее 20.

Рациональная шкала (шкала отношений) имеет одну точку отсчета и только положительные значения. В медицине большинство рациональных шкал - это концентрации. Например, уровень глюкозы 10 ммоль/л - это в два раза большая концентрация по сравнению с 5 ммоль/л. Для температуры рациональной шкалой является шкала Кельвина, где есть абсолютный ноль (отсутствие тепла).

Следует добавить, что любая количественная переменная может быть непрерывной, как в случае измерения температуры тела (это непрерывная интервальная шкала), или же дискретной, если мы считаем количество клеток крови или потомство лабораторных животных (это дискретная рациональная шкала).

Указанные различия имеют решающее значение для выбора методов статистического анализа результатов эксперимента. Так, для номинальных данных  применим критерий «хи-квадрат», а известный тест Стьюдента требует, чтобы переменная (интервальная либо рациональная) была непрерывной.

После того как будет решен вопрос о типе переменной, следует заняться формированием выборки. Выборка - это небольшая группа объектов определенного класса (в медицине - популяция). Для получения абсолютно точных данных нужно исследовать все объекты данного класса, однако, из практических (зачастую - финансовых) соображений изучают только часть популяции, которая и называется выборкой. В дальнейшем, статистический анализ позволяет исследователю распространить полученные закономерности на всю популяцию с определенной степенью точности. Фактически, вся биомедицинская статистика направлена на получение наиболее точных результатов из наименее возможного количества наблюдений, ведь при исследованиях на людях важен и этический момент. Мы не можем позволить себе подвергать риску большее количество пациентов, чем это необходимо.

Создание выборки регламентируется рядом обязательных требований, нарушение которых может привести к ошибочным выводам из результатов исследования. Во-первых, важен объем выборки. От объема выборки зависит точность оценки исследуемых параметров. Здесь следует обратить внимание на слово «точность». Чем больше размеры исследуемых групп, тем более точные (но не обязательно правильные) результаты получает ученый. Для того же, чтобы результаты выборочных исследований можно было переносить на всю популяцию в целом, выборка должна быть репрезентативной. Репрезентативность выборки предполагает, что в ней отражены все существенные свойства популяции. Другими словами, в исследуемых группах лица разного пола, возраста, профессий, социального статуса и пр. встречаются с той же частотой, что и во всей популяции.

Однако перед тем как начать выбор исследуемой группы, следует определиться с необходимостью изучения конкретной популяции. Примером популяции могут быть все пациенты с определенной нозологией или люди трудоспособного возраста и т. д. Так, результаты, полученные для популяции молодых людей призывного возраста, вряд ли удастся экстраполировать на женщин в постмено паузе. Набор характеристик, которые будет иметь изучаемая группа, определяет «обобщаемость» данных исследования.

Формировать выборки можно различными путями. Самый простой из них - выбор с помощью генератора случайных чисел необходимого количества объектов из популяции или выборочной рамки (sampling frame). Такой способ называется «простой случайной выборкой». Если случайным образом выбрать начальную точку в выборочной рамке, а затем взять каждый второй, пятый или десятый объекты (в зависимости от того каких размеров группы требуются в исследовании), то получится интервальная выборка. Интервальная выборка не является случайной, так как никогда не исключается вероятность периодических повторений данных в рамках выборочной рамки.

Возможен вариант создания так называемой «стратифицированной выборки», которая предполагает, что популяция состоит из нескольких различных групп и эту структуру следует воспроизвести в экспериментальной группе. Например, если в популяции соотношение мужчин и женщин 30:70, тогда в стратифицированной выборке их соотношение должно быть таким же. При данном подходе критически важно не балансировать выборку избыточно, то есть избежать однородности ее характеристик, в противном случае исследователь может упустить шанс найти различия или связи в данных.

Кроме описанных способов формирования групп есть еще кластерная и квотная выборки. Первая   используется в случае, когда получение полной информации о выборочной рамке затруднено из-за ее размеров. Тогда выборка формируется из нескольких групп, входящих в популяцию. Вторая - квотная - аналогична стратифицированной выборке, но здесь распределение объектов не соответствует таковому в популяции.

Возвращаясь к объему выборки, следует сказать, что он тесно связан с вероятностью статистических ошибок первого и второго рода. Статистические ошибки могут быть обусловлены тем, что в исследовании изучается не вся популяция, а ее часть. Ошибка первого рода - это ошибочное отклонение нулевой гипотезы. В свою очередь, нулевая гипотеза - это предположение о том, что все изучаемые группы взяты из одной генеральной совокупности, а значит, различия либо связи между ними случайны. Если провести аналогию с диагностическими тестами, то ошибка первого рода представляет собой ложноположительный результат.

Ошибка второго рода - это неверное отклонение альтернативной гипотезы, смысл которой заключается в том, что различия либо связи между группами обусловлены не случайным совпадением, а влиянием изучаемых факторов. И снова аналогия с диагностикой: ошибка второго рода - это ложноотрицательный результат. С этой ошибкой связано понятие мощности, которое говорит о том, насколько определенный статистический метод эффективен в данных условиях, о его чувствительности. Мощность вычисляется по формуле: 1-β, где β - это вероятность ошибки второго рода. Данный показатель зависит преимущественно от объема выборки. Чем больше размеры групп, тем меньше вероятность ошибки второго рода и выше мощность статистических критериев. Зависимость эта как минимум квадратичная, то есть уменьшение объема выборка в два раза приведет к падению мощности минимум в четыре раза. Минимально допустимой мощностью считают 80%, а максимально допустимый уровень ошибки первого рода принимают 5%. Однако всегда следует помнить, что эти границы заданы произвольно и могут изменяться в зависимости от характера и целей исследования. Как правило, научным сообществом признается произвольное изменение мощности, однако в подавляющем большинстве случаев уровень ошибки первого рода не может превышать 5%.

Все сказанное выше имеет непосредственное отношение к этапу планирования исследования. Тем не менее, многие исследователи ошибочно относятся к статистической обработке данных только как к неким манипуляциям, выполняемым после завершения основной части работы. Зачастую после окончания никак не спланированного эксперимента, появляется непреодолимое желание заказать анализ статистических данных на стороне. Но из «кучи мусора» даже специалисту по статистике будет очень сложно выудить ожидаемый исследователем результат. Поэтому при недостаточных знаниях биостатистики необходимо обращаться за помощью в статистическом анализе еще до начала эксперимента.

Обращаясь к самой процедуре анализа, следует указать на два основных типа статистических техник: описательные и доказательные (аналитические). Описательные техники включают в себя методы позволяющие представить данные в компактном и легком для восприятия виде. Сюда можно отнести таблицы, графики, частоты (абсолютные и относительные), меры центральной тенденции (средние, медиана, мода) и меры разброса данных (дисперсия, стандартное отклонение, межквартильный интервал и пр.).  Другими словами, описательные методы дают характеристику изучаемым выборкам.

Наиболее популярный (хотя и зачастую ошибочный) способ описания имеющихся количественных данных заключается в определении следующих показателей:

  •  количество наблюдений в выборке или ее объем;
  •  средняя величина(среднее арифметическое);
  •  стандартное отклонение- показатель того, насколько широко изменяются значения переменных.

Важно помнить, что среднее арифметическое и стандартное отклонение - это меры центральной тенденции и разброса в достаточно небольшом числе выборок. В таких выборках значения у большинства объектов с равной вероятностью отклонены от среднего, а их распределение образует симметричный «колокол» (гауссиану или кривую Гаусса-Лапласа). Такое распределение еще называют «нормальным», но в практике медицинского эксперимента оно встречается лишь в 30% случаев. Если же значения переменной распределены несимметрично относительно центра, то группы лучше описывать с помощью медианы и квантилей (процентилей, квартилей, децилей).

Завершив описание групп, необходимо ответить на вопрос об их взаимоотношениях и о возможности обобщить результаты исследования на всю популяцию. Для этого используются доказательные методы биостатистики. Именно о них в первую очередь вспоминают исследователи, когда идет речь о статистической обработке данных. Обычно этот этап работы называют «тестированием статистических гипотез».

Задачи тестирования гипотез можно разделить на две большие группы. Первая группа отвечает на вопрос, имеются ли различия между группами по уровню некоторого показателя, например, различия в уровне печеночных трансаминаз у пациентов с гепатитом и здоровых людей. Вторая группа позволяет доказать наличие связи между двумя или более показателями, например, функции печени и иммунной системы.

В практическом плане задачи из первой группы можно разделить на два подтипа:

  •  сравнение показателя только в двух группах(здоровые и больные, мужчины и женщины);
  •  сравнение трех и более групп(изучение разных доз препарата).

Необходимо учитывать, что статистические методы существенно отличаются для качественных и количественных данных.

В ситуации, когда изучаемая переменная - качественная и сравниваются только две группы, можно использовать критерий «хи-квадрат». Это достаточно мощный и широко известный критерий, однако, он оказывается недостаточно эффективным в случае, если количество наблюдений мало. Для решения данной проблемы существуют несколько методов, такие как поправка Йейтса на непрерывность и точный метод Фишера.

Если изучаемая переменная является количественной, то можно использовать один из двух видов статистических критериев. Критерии первого вида основаны на конкретном типе распределения генеральной совокупности и оперируют параметрами этой совокупности. Такие критерии называют «параметрическими», и они, как правило, базируются на предположении о нормальности распределения значений. Непараметрические критерии не базируются на предположении о типе распределения генеральной совокупности и не используют ее параметры. Иногда такие критерии называют «свободными от распределения» (distribution-free tests). В определенной степени это ошибочно, поскольку любой непараметрический критерий предусматривает, что распределения во всех сравниваемых группах будут одинаковыми, иначе могут быть получены ложноположительные результаты.

Существует два параметрических критерия применяемых к данным, извлеченным из нормально распределенной совокупности: t-тест Стьюдента для сравнения двух групп и F-тест Фишера, позволяющий проверить равенство дисперсий (он же - дисперсионный анализ). Непараметрических же критериев значительно больше. Разные критерии отличаются друг от друга по допущениям, на которых они основаны, по сложности вычислений, по статистической мощности и т. д. Однако наиболее приемлемыми в большинстве случаев считаются критерий Вилкоксона (для связанных групп) и критерий Манна-Уитни, также известный как критерий Вилкоксона для независимых выборок. Эти тесты удобны тем, что не требуют предположения о характере распределения данных. Но если окажется, что выборки взяты из нормально распределенной генеральной совокупности, то их статистическая мощность будет несущественно отличаться от таковой для теста Стьюдента.

Полное описание статистических методов можно найти в специальной литературе, однако, ключевым моментом является то, что каждый статистический тест требует набора правил (допущений) и условий для своего использования, и механический перебор нескольких методов для поиска «нужного» результата абсолютно неприемлем с научной точки зрения. В этом смысле статистические тесты близки к лекарственным препаратам - у каждого есть показания и противопоказания, побочные эффекты и вероятность неэффективности. И столь же опасным является бесконтрольное применение статистических тестов, ведь на них базируются гипотезы и выводы.

Для более полного понимания вопроса точности статистического анализа необходимо определить и разобрать понятие «доверительной вероятности». Доверительная вероятность - это величина, принятая в качестве границы между вероятными и маловероятными событиями. Традиционно, она обозначается буквой «p». Для многих исследователей единственной целью выполнения статистического анализа является расчет заветного значения p, которое словно проставляет запятые в известной фразе «казнить нельзя помиловать». Максимально допустимой доверительной вероятностью считается величина 0,05. Следует помнить, что доверительная вероятность - это не вероятность некоторого события, а вопрос доверия. Выставляя перед началом анализа доверительную вероятность, мы тем самым определяем степень доверия к результатам наших исследований. А, как известно, чрезмерная доверчивость и излишняя подозрительность одинаково негативно сказываются на результатах любой работы.

Уровень доверительной вероятности показывает, какую максимальную вероятность возникновения ошибки первого рода исследователь считает допустимой. Уменьшение уровня доверительной вероятности, иначе говоря, ужесточение условий тестирования гипотез, увеличивает вероятность ошибок второго рода. Следовательно, выбор уровня доверительной вероятности должен осуществляться с учетом возможного ущерба от возникновения ошибок первого и второго рода. Например, принятые в биомедицинской статистике жесткие рамки, определяющие долю ложноположительных результатов не более 5% - это суровая необходимость, ведь на основании результатов медицинских исследований внедряется либо отклоняется новое лечение, а это вопрос жизни многих тысяч людей.

Необходимо иметь в виду, что сама по себе величина p малоинформативна для врача, поскольку говорит только о вероятности ошибочного отклонения нулевой гипотезы. Этот показатель ничего не говорит, например, о размере терапевтического эффекта при применении изучаемого препарата в генеральной совокупности. Поэтому есть мнение, что вместо уровня доверительной вероятности лучше было бы оценивать результаты исследования по величине доверительного интервала. Доверительный интервал - это диапазон значений, в котором с определенной вероятностью заключено истинное популяционное значение (для среднего, медианы или частоты). На практике удобнее иметь оба эти значения, что позволяет с большей уверенностью судить о применимости полученных результатов к популяции в целом.

В заключение следует сказать несколько слов об инструментах, которыми пользуется специалист по статистике, либо исследователь, самостоятельно проводящий анализ данных. Давно ушли в прошлое ручные вычисления. Существующие на сегодняшний день статистические компьютерные программы позволяют проводить статистический анализ, не имея серьезной математической подготовки. Такие мощные системы как SPSS, SAS, R и др. дают возможность исследователю использовать сложные и мощные статистические методы. Однако далеко не всегда это является благом. Не зная о степени применимости используемых статистических тестов к конкретным данным эксперимента, исследователь может провести расчеты и даже получить некоторые числа на выходе, но результат будет весьма сомнительным. Поэтому, обязательным условием для проведения статистической обработки результатов эксперимента должно быть хорошее знание математических основ статистики.

3.2 Статистические функции Microsoft Excel

В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.

Графические изображения используются, прежде всего, для наглядного представления статистических данных, благодаря ним существенно облегчается их восприятие и понимание. Существенна их роль и тогда, когда речь идет о контроле полноты и достоверности исходного статистического материала, используемого для обработки и анализа.

Статистические данные приводятся в виде длинных и сложных статистических таблиц,  поэтому бывает весьма трудно обнаружить в них имеющиеся неточности и ошибки.

В процессе анализа данных, как правило, присутствуют следующие основные этапы:

1. Ввод данных

Введенные данные обычно отражаются в форме электронной таблицы или матрицы данных, где столбцы представляют различные переменные (например, рост, вес), а строки - измерение значений этих переменных, произведенные в различных условиях, в различное время, у различных объектов и т.п.

2. Преобразование данных

Данные в электронной таблице можно просмотреть и скорректировать методами ручного редактирования или же полуавтоматического преобразования к виду, адекватному выбранному методу анализа. Здесь может быть использован широкий набор алгебраических, матричных, структурных преобразований, а также комбинирование этих операций в требуемой последовательности.

3. Визуализация данных

На данные обязательно следует просто посмотреть, чтобы составить общее (в том числе и интуитивное) представление о характере их изменения, специфических особенностях и закономерностях, что очень важно при выборе стратегии и тактики дальнейшего анализа. Для этого можно использовать как исходное числовое представление, так и различные формы графического изображения.

4. Статистический анализ

Собственно выбор метода, анализ данных и интерпретация результатов.

5. Представление результатов

Для наглядности производимых выводов полученные результаты желательно представлять в виде адекватных, убедительных и эффектных графиков.

Для успешного применения процедур анализа необходимы начальные знания в области статистических и инженерных расчетов, для которых эти инструменты были разработаны

В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и дисперсионного анализа.

При машинной обработке исходной информации на ЭВМ, оснащенных пакетами стандартных программ ведения анализов, вычисление параметров применяемых математических функций является быстро выполняемой счетной операцией.

Возможность использования формул и функций является одним из важнейших свойств программы обработки  электронных  таблиц. Это,  в  частности,  позволяет проводить статистический анализ числовых значений в таблице.

Текст формулы,  которая вводится в ячейку таблицы, должен начинаться со знака равенства (=), чтобы программа Excel могла отличить  формулу  от  текста.  После знака равенства в ячейку записывается математическое выражение,  содержащее  аргументы, арифметические операции и функции.

В качества аргументов в формуле обычно используются числа и адреса ячеек.  Для обозначения арифметических операций могут использоваться следующие символы: + (сложение); - (вычитание); * (умножение); / (деление).            

Формула может  содержать  ссылки   на   ячейки,   которые расположены на другом рабочем листе или даже в таблице другого файла.  Однажды введенная формула может  быть  в  любое  время модифицирована.    Встроенный    Менеджер    формул   помогает пользователю найти ошибку или неправильную  ссылку  в  большой таблице.

Кроме этого,  программа  Excel  позволяет   работать   со сложными   формулами,   содержащими  несколько  операций.  Для наглядности можно включить текстовый  режим,  тогда  программа Excel будет выводить в ячейку не результат вычисления формулы, а собственно формулу.

Программа Excel интерпретирует вводимые данные  либо  как текст  (выравнивается  по  левому  краю),  либо  как  числовое значение (выравнивается по правому краю).  Для  ввода  формулы необходимо  ввести  алгебраическое выражение,  которому должен предшествовать знак равенства (=).

Ввод формул можно существенно упростить, используя маленький трюк.  После ввода знака  равенства  следует  просто щелкнуть мышью по первой ячейке, затем ввести операцию деления и щелкнуть по второй ячейке.

3.3 Описание программы Microsoft Office Excel  для статистической базы учета и анализа деятельности школы

Программа Microsoft Office Excel позволяет вводить базовые данные об учебном заведении, создавать банки данных по кадровому составу и контингенту учащихся, обрабатывать информацию для получения выходных документов, вести электронные варианты книг приказов. Несомненно, на первых порах, требуется много времени для создания банков данных, но при работе в многопользовательском режиме временные затраты существенно уменьшаются. При наличии соответствующих модулей система может быть использована в работе директора, секретаря, завучей, учителей-предметников и классных руководителей, школьного бухгалтера, библиотекаря, медперсонала.

В электронной таблице информация отражает общую картину по всей школе. Очевидно, что при каждом изменении внутри класса, достаточно только добавить или удалить строку в файле, содержащем список учеников, автоматически произойдут соответствующие изменения во всех сводных таблицах. На итоговой таблице мы получим точную информацию на сегодняшний день.

Перечень возможных вариантов использования стандартной программы Microsoft Excel XP для решения традиционных задач управленческой деятельности администрации школы.

1. Составление плана работы школы

2. Анализ урока

3. Анализ результатов УВП за учебный период, учебный год.

4. Составление табеля учета рабочего времени педагогов, руководителей кружков, работы учителей с больными учащимися индивидуально на дому.

Табель учета работы преподавателей с учащимися, обучающимися индивидуально на дому.

Табель учета пропущенных уроков педагогическими работниками за учебный год по месяцам. Подсчет числа рабочих дней в месяце, дней к оплате в аванс, дней к оплате за месяц, число дней пропущенных по болезни проводится автоматически программой Excel. • Табель учета рабочего времени учителей (аванс, табель к концу месяца, табель Excel за месяц с указанием всей выработанной учителем нагрузки, ГПД, работы руководителей кружков, приказы на замену замещенных уроков и т.д.)

5. Составление расписания учебных занятий.

На рисунке указано не только расписание уроков, но и отмечены условными знаками фамилии педагогов, уровень сложности по каждому предмету (в баллах), ведется автоматический подсчет количества уроков в день. Таблица с расписанием уроков напрямую связана с графиками распределения уровня трудности по каждому классу в течение учебной недели (выстраиваются согласно расчетов сводной таблицы). Программа позволяет автоматизировать выполнение значительной части работы, освобождает от переписывания, позволяет оперативно анализировать расписание относительно соблюдения санитарно-гигиенических норм, представлять результаты анализа в графической форме, производить масштабирование выходного документа, корректировать расписание, выполнять работу на высоком графическом уровне.

6. Документы по комплектованию и тарификации образовательного учреждения:

• учебный план,

• классы-комплекты,

• распределение учебной нагрузки среди педагогов (документ связан с документами «Учебный план», «Комплектование педагогов», «Тарификация педагогов»),

• тетради комплектования и тарификации,

Подготовка данного пакета документов всегда занимает много времени и связана в основном с переписыванием. Листы, на которых приходится работать очень большие, и не удобны в работе и хранении. Много времени занимает подсчет и сверка часов, здесь это делает машина. Обсчитывать такую тарификацию бухгалтер обсчитывает на машине, вводя формулы. В течение года при изменении тарификации можно использовать функцию копирования, устраняя работу по переписыванию и выполняя работу быстрее.

7. Составление статистических таблиц и аналитических справок по инспекционно-контрольной деятельности заместителя директора - справка по проверке классных журналов, справка по проверке тетрадей, анализ результатов государственной итоговой аттестации за несколько лет, статистические отчеты.

Очевидно, что, используя эти и другие операции стандартной программы (Excel), можно хранить и обрабатывать информацию по контингенту сотрудников

(Приложение 1

Приложение 2

Приложение 3

Приложение 8

по учебной и внеурочной деятельности учащихся

Приложение 6

 

Приложение 5

 

Технология работы с электронными таблицами, создаваемыми в среде табличного процессора MS Excel, сегодня столь же популярна, как и технология создания текстовых документов. Электронная таблица позволяет производить расчеты по формулам, представлять данные в виде диаграмм, структурировать данные, делать выборку из больших таблиц, создавать консолидированные таблицы и др. Использование возможностей современных информационных технологий позволяет автоматизировать процесс обработки результатов рубежных, тематических, итоговых проверочных работ

Приложение 9

 

Приложение 12

 

 

Отслеживать их динамику, представлять результаты в наглядном виде, используя возможности мастера диаграмм

Это, в свою очередь, создает условия для своевременной корректировки содержания и методики обучения, целенаправленного достижения образовательного стандарта.

Организация работы с использованием информационных технологий позволяет повысить культуру труда, качество и оформление выходного информационного продукта, интенсифицировать труд заместителя директора. Ускорение обработки информации становится возможным вследствие создания базы данных, хранения, корректировки и оперативного извлечение информации. Значительно повышается культура оформления работ, появляется возможность представления документации в текстовом и в графическом вариантах, в необходимом для работы масштабе. Сокращается объём выполнения однообразной работы, основанной на переписывании информации и внесении незначительных изменений через автоматизацию процессов обновления информации, создание и использование шаблонов.


ЗАКЛЮЧЕНИЕ

В современном обществе к статистическим методам проявляется повышенный интерес как к  одному из важнейших аналитических инструментариев в сфере поддержки процессов принятия решений. Статистикой пользуются все- от политиков, желающих предсказать исход выборов, до предпринимателей, стремящихся оптимизировать прибыль при тех или иных вложениях капитала. Большим шагом вперёд к развитию статистической науки послужило применение экономико-математических методов и использование компьютерной техники в анализе социально-экономических явлений.

Программа обработки электронных таблиц  MS Excel- мощная и достаточно простая в использовании программа, предназначенная для решения широкого круга планово-экономических, учетно-статистических, научно-технических и других задач, в которых  числовая, текстовая или графическая информация с некоторой регулярной, повторяющейся структурой представлена в табличном виде.

Программа MS Excel предоставляет богатые возможности создания и изменения таблиц, которые могут содержать числа, тексты, даты, денежные единицы, графику, а также математические и иные формулы для выполнения  вычислений.

Предусмотрены средства представления числовых данных в виде диаграммы, создания, сортировки и фильтрации списков, статического анализа данных и решения оптимизационных задач.

В данной работе я постараюсь показать, какие возможности для обработки статистических данных имеет программа MS Excel.

Разработка нескольких видов таблиц программы MS Excel в заданной предметной области – это была основная цель моей дипломной работы.

Достижение цели подтверждается наличием разработанных программ, а также описанных и смоделированных таблиц программы MS Excel для статистической базы учета и анализа деятельности школы.

Также во введении были сформулированы задачи, давшие общее направление исследованию. В рамках решения поставленных задач, выполнено следующее:

Проанализирована предметная область, а именно понятие и особенности использования программы MS Excel в профессиональной деятельности школьного администрирования. Проведенный анализ позволил сделать определенные выводы, подробно описанные в первой и во второй главах дипломной работы. Резюмируя, считаю целесообразным повторить тот факт, что данная программа позволит освободить заместителя директора от монотонной работы по механическому подсчитыванию, а так же предупредит возможность возникновения арифметических ошибок. Кроме того, большие объемы статистической информации станут для управленца действительно материалом для анализа и основой для принятия правильного управленческого решения.

Проанализированы и обобщены требования, предъявляемые к программе MS Excel. В результате проведенного анализа сформулирован ряд требований, которые я постарался максимально учесть при дальнейшей работе по созданию различных видов таблиц программы MS Excel.

Изучены общие принципы моделирования информационных систем. Работа по решению этой задачи, по сути, велась мною на протяжении всего периода обучения по специальности «Информационные системы», однако, для создания реальных работоспособных таблиц мне потребовались дополнительные знания по данному вопросу.

Результатом исследований, проведенных в рамках выполнения дипломной работы стали разработанные различных видов таблиц программы MS Excel.

В дальнейшем планирую развивать выбранную тему и создать единую систему работы аналитической деятельности администрации и учителей на новом, более высоком, уровне. Это позволит сформировать единое информационное пространство школы в электронном виде.


СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

  1.  Бернс Дж., Берроуз Э. ,Секреты Excel 97. – М.:Веста, 1999.
  2.  Фигурнов В. Э. ,IBM PC для пользователя. – М.:ИНФРА, 1998.
  3.  А. Гончаров «Microsoft Excel 7.0 в примерах» - С.-П.:Питер, 1996
  4.  Пробитюк А., Excel 7.0 для Windows 95 в бюро. – К.:BHV, 1996
  5.  Лаврёнов С.М.,Excel: сборник примеров и задач-М: финансы и статистика,2000.-336с.
  6.  Макарова Н.В.,Трофимец В.Я., Статистика в Excel:учеб. пособие.-М.:финансы и статистика,2003.-386с.
  7.  Сидоров М.Г., Обработка данных в Excel //информатика и образование.-2000.-№6.-с. 25-36.
  8.  Гутовская Г.В., Использование Excel для решения финансово-экономических задач//информатика и образование.-2003.-№3.-с. 15-21.
  9.  Ивинская Н.Л., решение прикладных задач в Excel//информатика и образование.-2003.-№6.-с.62-64.
  10.   Кирей Е.А., Базовый курс Excel для учащихся профильных экономических классов//информатика и образование.-2004.-№5.-с.39-41.
  11.  Городецкий А.Я. Статистический анализ и синтез фотонных систем. СПб.: Изд-во СПбГТУ, 1996.
  12.  Городецкий А.Я., Заборовский В.С. Информатика. Фрактальные процессы в компьютерных сетях. СПб.: Изд-во СПбГТУ, 2ooo.
  13.  Пугачев В.С., Казаков И.Е., Евланов Л.Г. Основы статистической теории автоматических систем. М.: Машиностроение, 1974.
  14.  Свешников А.А. Прикладные методы теории случайных функций. М.: Наука, 1969.
  15.  Большаков И.А., Ракошиц В.С. Прикладная теория случайных потоков.
  16.  М.: Сов.радио, 1978.
  17.  Гнеденко Б.Ф., Колмогоров А.Н. Предельные распределения для сумм независимых случайных величин. М.: Гостехиздат, 1949.

PAGE   \* MERGEFORMAT 6



 

Другие похожие работы, которые могут вас заинтересовать.
13099. Проектирование автоматизированной информационной системы учета и процесса реализации объектов недвижимости риэлтерского агентства «Азбука Жилья» 1.67 MB
  Необходимо осуществить разработку проекта информационной системы для риэлтерского агентства, предназначенной для хранения сведения о клиентах и недвижимости. Для этого важно произвести анализ бизнес процесса, произвести инфологическое моделирование предметной области и реализовать проект информационной системы используя СУБД Ассеss.
17472. Разработка автоматизированной информационной системы «Штатное расписание» 278.42 KB
  Работа сотрудника отдела кадров организации связана с необходимостью обработки и учета больших объемов информации. Учет этой информации «вручную» зачастую приводит к ошибкам и задержкам. В связи с этим встает вопрос о необходимости автоматизации работы.
19045. Разработка автоматизированной информационной системы отеля туристической фирмы 6.19 MB
  Актуальность проекта построена на разработке и внедрении автоматизированной системы работы с клиентами отеля туристической фирмы что предопределит успешную реализацию качественного туристского продукта потребителю и явится одним из главных источников функционирования туристического предприятия. С помощью данной системы появится...
3687. Разработка автоматизированной информационной системы по учету сетевого и компьютерного оборудования и внешнего приложения к ней 1.05 MB
  Исходные данные для практической реализации автоматизированной информационной системы (АИС) берутся из различных информационных источников (Интернет-ресурсы, печатные издания, периодика и др.). Курсовая работа оформляется в соответствии с требованиями, изложенными в Положение о курсовых работах в Камчатском государственном университете имени Витуса Беринга.
11708. Разработка информационной системы учета товаров для магазина «Аистенок» 726.86 KB
  Результаты выполнения торговых операций записываются в надлежащих журналах. Автоматизация данных процессов позволит сохранить информацию в базе, в которую вводится данная информация с помощью удобного интерфейса программы.
1309. Проектирование информационной системы учета движения материалов на складе 707.07 KB
  В автоматизированных ИС часть функций управления и обработки данных выполняется компьютерами а часть человеком. Компьютер не только облегчает учет сокращая время требующееся на оформление документов и обобщение накопленных данных для анализа хода торговой деятельности необходимого для управления ею...
13142. Создание готовой информационной системы учета движения материалов на складе 647.09 KB
  В автоматизированных ИС часть функций управления и обработки данных выполняется компьютерами а часть человеком. Компьютер не только облегчает учет сокращая время требующееся на оформление документов и обобщение накопленных данных для анализа хода торговой деятельности необходимого для управления ею.
13186. Проектирование информационной системы учета научных публикаций в среде Adobe Dreamweaver 2.29 MB
  Автоматизация для любых организаций производится при помощи проектирования и последующего создания и развертывания единой корпоративной информационной системы – системы обработки информации также включающей в себя и соответствующие организационные ресурсы человеческие технические финансовые и т. Такая ситуация получила название лоскутной автоматизации и является довольно типичной для многих предприятий. Так как информационные системы предназначены для сбора хранения и обработки информации в основе любой из них лежит среда хранения и...
1551. Разработка информационной системы учета использования орг. техники в БД для УМВД России по Выборгскому району г. Санкт-Петербурга 2.57 MB
  В качестве программной среды разработки была выбрана бесплатная среда Eclipse PHP Edition, так как это очень удобный инструмент для разработок программных продуктов в качестве веб-приложений любого уровня сложности, высокая производительность, надежность, удобный интерфейс делают данную среду разработки эффективной.
4811. Оценивание уровня информационной компетентности учащихся основной школы 113.71 KB
  Выявить содержание понятия «Информационная компетентность» и способы ее проявления; проанализировать существующие подходы к оцениванию уровня информационной компетентности; определить уровни проявления информационной компетентности учащихся основной школы и критерии их оценивания; составить систему заданий для оценки уровня проявления информационной компетентности учащихся основной школы...
© "REFLEADER" http://refleader.ru/
Все права на сайт и размещенные работы
защищены законом об авторском праве.