Из нашей статьи вы узнаете:
Отчётность организации — это систематизированные данные о финансовом положении и результатах деятельности компании на определённый момент времени. Анализ форм бухгалтерской отчётности устанавливает прибыльность, платёжеспособность, динамику расчётов с контрагентами. Позволяет оценить успешность управления организацией.
Анализ бухгалтерской формы отчётов необходим бухгалтерам, контролирующим финансовую деятельность, директору для поиска перспектив развития бизнеса. Важен акционерам и собственникам компании, контрагентам, инвесторам, арбитражным управляющим и сотрудникам налоговой службы. Основываясь на данных аналитики, можно не только установить текущее положение, но и минимизировать риски, выбрать наиболее оптимальные пути развития.
- С чего начать анализ отчётности
- Задачи анализа отчётности
- Основные методы аналитики бухотчётности
- Вертикальная (сравнительная) аналитика
- Коэффициентная аналитика
- Коэффициенты финансовой аналитики
- Коэффициенты рентабельности
- Коэффициенты задолженности
- Коэффициенты операционной эффективности
- Коэффициенты движения денег
- Как быстро провести анализ отчётности
- Кто обязан сдавать статотчетность
- Перечень форм федерального статистического наблюдения
- Статистическая отчетность в 2022 году
- Отмена сдачи бухотчетности в статистику с 2020 года
- Статистические формы отчетности 2022
- Как правильно заполнить и куда предоставлять отчетность
- Ответственность за несдачу статотчетности
- Что такое статистика?
- Статистика в машинном обучении
- Зачем вам осваивать статистику?
- Статистика помогает ответить на вопросы, подобные этим
- Статистика и проекты по машинному обучению
- Первоначальное исследование данных
- Очистка данных
- Тонкая настройка модели
- Важные понятия статистики
- Практические советы по обучению
- Рекомендуемые статьи
- Черный ящик статистического анализа
- О чем нам, собственно, говорит p-value?
- А теперь несколько примеров про p-value
- Давайте разберем все ответы по порядку
- Онлайн-курс по основам статистики
- Полезные материалы
- Использование статистических методов для анализа временных рядов
С чего начать анализ отчётности
Основными источниками данных для составления финансовой отчётности служат бухгалтерский баланс (форма 1) и отчёт о прибылях и убытках (форма 2). Их могут дополнить отчёты о движении денежных средств и об изменении капитала. Поэтому к первичному анализу организации стоит отнести составление бухгалтерской отчётности как основы всей аналитики.
На втором этапе определяют задачи — цели проведения аналитических мероприятий. Выбираются методы получения нужных сведений. Рассчитывают коэффициенты финансовой устойчивости предприятия.
Работа с документацией также учитывает адресата — аудиторию, для которой формируются данные. Исходя из этого аналитику бухгалтерской формы отчётов делят на внешнюю и внутреннюю. Внешняя основывается на типовых методах расчёта с минимальным количеством исходных данных, ограниченных квартальным или годовым балансом. Причины, определяющие уровень финансового состояния, не раскрываются.
При внутреннем финанализе используют не только бухотчётность, но и данные управленческого учёта. Большее внимание уделяется определению факторов, влияющих на состояние компании. Данные рассматривают не в целом по предприятию, а отдельно по видам деятельности, продукции, подразделениям.
Задачи анализа отчётности
Оценка экономического состояния организации.
Выявление резервов и неэффективно используемых активов
Определение убыточных направлений деятельности
Оценка вероятности банкротства
Оценка действующей дивидендной политики
Обоснование текущей инвестиционной политики
Разработка мероприятий, улучшающих финансовое состояние организации
Главная цель внутреннего анализа форм бухотчётности — найти резервы, улучшающие платёжеспособность компании, своевременно определить и устранить ошибки планирования. Основная цель внешнего анализа — доказать рентабельность и положительную динамику развития контрагентам и инвесторам.
Важно при проведении аналитики за разные периоды деятельности предприятия использовать одну методику расчёта. Необходимо проводить комплексное исследование всех процессов, регулярно подводить итоги и корректировать работу организации исходя из полученных данных.
Основные методы аналитики бухотчётности
При этом методе сравнивают показатели нескольких периодов — поквартальные или годовые. Оценивают рост, падение и темпы изменений. Аналитические показатели определяют в рублях (иной валюте для иностранных инвесторов) и в процентах.
Для расчёта берётся бухбаланс, отчёты о финрезультатах, о движении денежных средств и изменении капитала.
Вертикальная (сравнительная) аналитика
В расчёте учитывают один отчётный период. Определяется удельный вес показателей: за 100% принимают итоговые цифры, статьи отражают сведения в процентах. Метод позволяет определить соотношение активов и обязательств, выявить средневзвешенную стоимость капитала.
Коэффициентная аналитика
Метод направлен на изучение направлений деятельности компании исходя из бухгалтерских форм отчётности. Показатели анализируемой организации сравнивают со значениями предприятий отрасли. Коэффициенты дают объективную оценку деятельности, позволяют определить причины негативных результатов.
Рассчитывают и сопоставляют коэффициенты ликвидности, рентабельности, платёжеспособности, задолженности, оборачиваемости активов. Существует несколько десятков коэффициентов. Организация применяет лишь те, что помогут установить текущее положение и выявить пути его стабилизации.
Коэффициенты финансовой аналитики
Под ликвидностью понимают возможность быстро выполнить текущие обязательства. В расчёт берутся средства, которые можно легко конвертировать в валюту. Высокий уровень — это стабильная работа компании, низкий свидетельствует о кризисе, когда затруднено выполнение текущих операций.
Существует 3 коэффициента ликвидности: быстрый, текущий и коэффициент денежных средств. Для расчёта активы делят на обязательства.
Коэффициент текущей ликвидности = Оборотные активы / Обязательства
Если при расчёте получено значение 1.0 и более — положение компании стабильно, она легко может покрыть текущие обязательства. Если значение меньше 1.0, это свидетельствует о финансовых проблемах.
Вместо оборотных активов, в формуле можно использовать краткосрочные денежные эквиваленты (дебиторская задолженность, акции, вложения), в этом случае будет вычислен показатель быстрой ликвидности. Если взять ценные бумаги и деньги (наличные и на счетах), то будет определён коэффициент денежных средств. Информацию для анализа берут из форм бухгалтерской отчётности.
Коэффициенты рентабельности
Показателей несколько, все они определяют маржу — разницу между выручкой и затратами. Они дают подробное представление о том, насколько хорошо используются ресурсы. Позволяют выявить резервы для увеличения доходности. Особое значение имеет долгосрочная рентабельность. Она показывает степень «живучести» организации. Например, коэффициент рентабельности продаж можно рассчитать по такой формуле:
Рост показателя по сравнению с предыдущими периодами свидетельствует о том, что компания грамотно управляет расходами, увеличивая прибыль. При сравнении со средним показателем отрасли можно выявить фин. стабильность и эффективность работы организации. Снижение коэффициента относительно прошлых данных и среднего показателя по отрасли свидетельствует о фин. уязвимости.
Коэффициенты задолженности
Это отношение долговых обязательств к активам организации. При расчёте учитывают краткосрочную и долгосрочную задолженность. Коэффициент позволяет выявить общую долговую нагрузку, уровень финансового риска. При анализе бух. отчётов в первую очередь рассчитываются два показателя:
Чем ниже показатель, тем стабильнее организация.
Чем ниже результат расчёта, тем меньше кредитное плечо и более надёжна позиция компании.
Коэффициенты операционной эффективности
Эти показатели необходимы для оценки эффективности управления, использования активов, генерации продаж, роста акционерной стоимости. Результаты сравнивают с предыдущими периодами, основанными на бух. формах отчётности. Рассматривают динамику, сопоставляют с данными конкурирующих организаций. Чем выше показатели, тем лучше работает анализируемая компания.
Среди коэффициентов операционной эффективности:
Эти коэффициенты объединяет оценка результата. Чем выше показатель, тем лучше для компании.
С этим показателем ситуация противоположная: чем результат ниже среднеотраслевого или данных за предыдущие периоды, тем лучше. Сокращение операционного цикла — признак повышения деловой активности в результате ускорения производственных процессов и оборачиваемости дебиторской задолженности.
Коэффициенты движения денег
Это индикаторы потоков финансов, свидетельствующие об устойчивости компании. Если деятельность ведётся по нескольким направлениям, то расчёт проводят по каждому из них. Можно использовать прямой и косвенный метод.
Первый подразумевает группировку дебетовых и кредитовых оборотов по сферам деятельности. Второй подразумевает корректировку чистой прибыли на сумму хоз. операций, не относящихся к денежным данным. Данные для анализа берут из форм бухгалтерских отчётов. Необходимо провести калибровку по счетам (строкам).
Покрытие процентов за кредит = (поток средств от осн. деятельности + проценты + уплаченные налоги) / проценты
Покрытие дивидендных выплат = (поток средств деятельности компании — долгосрочные обязательства) / дивиденды
Показатель финансовых поступлений = поступления от инвестиционной деятельности / (поступления от инвестиционной деятельности + поступления от фин. деятельности)
Результаты интерпретируют следующим образом:
Если показатель покрытия процентов за кредит и покрытие дивидендных выплат ниже «1», компания нуждается в привлечении капитала, собственных средств недостаточно. Чем выше значение показателя фин. поступлений, тем выше возможности развития бизнеса без привлечения средств извне.
Как быстро провести анализ отчётности
Лучший способ проведения анализа форм финансовой отчетности — использование программы бухгалтерского учета. В автоматическом режиме можно в считанные минуты сформировать любые данные для предоставления сторонним лицам и специалистам компании. Сервис 1С-Отчетность позволят грамотно вести текущую документацию, составлять и анализировать любые отчеты.
Используя данные бухотчётности и сформированной на их основе аналитики, можно оценить экономическое состояние организации, вероятность банкротства, проанализировать кредитоспособность компании и другие данные. Оперативное получение необходимых сведений позволяет принимать верные управленческие решения.
Организации и ИП в согласии с действующим законодательством должны предоставлять в
Федеральную службу государственной статистики разнообразную отчетность. Ее перечень варьируется и включает
типовые формы статистической отчетности с ежемесячным, ежеквартальным и ежегодным периодом
предоставления.
В данной статье мы представим основные формы действующей статистической отчетности,
сдавать которые должны большинство организаций. Рассмотрим сроки и периодичность предоставления статформ,
порядок их заполнения и направления, а также уточним, какие из бланков будут обновлены с начала 2022
года.
Кто обязан сдавать статотчетность
№ 282-ФЗ обязывает заполнять и сдавать статотчетность:
- юридических лиц, включая государственные и муниципальные органы и отечественные филиалы зарубежных
организаций; - индивидуальных предпринимателей;
- представителей малого бизнеса.
Последние сдают отчеты в упрощенном варианте (в согласии с № 209-ФЗ).
Перечень форм федерального статистического наблюдения
Включает большое количество документов, которые следует использовать при заполнении форм
статистической отчетности организациям. Не все из них нужны для конкретной компании.
Все формы статотчетности утверждаются и вводятся в действие приказами Росстата. Они
имеют наименование, аббревиатуру с номером и код по ОКУД.
Узнать, какие формы должна предоставлять ваша организация, можно на сайте Росстата.
Чтобы получить свой список бланков для заполнения, необходимо ввести один из реквизитов на выбор: ОКПО, ИНН
или ОГРН (ОГРИП).
Ознакомиться с альбомом форм федерального статистического наблюдения вы можете по ссылке. Официальный
портал Росстата позволяет сортировать бланки по направлениям деятельности или найти нужную форму при вводе
ее названия в поисковую строку.
Статистическая отчетность в 2022 году
В этом разделе мы приведем основные формы статической отчетности, сдавать которые должны
практически все организации. Для удобства разделим их в соответствии с периодичностью предоставления и
отдельным пунктом вынесем отчетность малых предприятий.
Ежеквартальная статистическая отчетность
Статистическая отчетность для малых предприятий
Отмена сдачи бухотчетности в статистику с 2020 года
Одним из важных нововведений последнего времени стала отмена по обязательному
предоставлению экземпляра ежегодной бухгалтерской отчетности в Росстат. Сейчас компании должны передать
годовые финансовые документы только в ИФНС. Далее ведомство вносит предоставленные сведения в единый
информационный ресурс (ГИРБО), из которого Росстат может брать нужную для себя информацию.
Обновления в правилах предоставления финансовых отчетов за год значительно облегчили
административную нагрузку на бизнес. А формы статистической отчетности, ранее входящие в бухгалтерскую
отчетность, теперь можно направлять в территориальные органы Росстата отдельно.
Статистические формы отчетности 2022
Отчетность в начале 2022 года организации будут направлять в Федеральную
службу статистики за предшествующий 2021 год. Уточним, какие формы претерпят изменения с 1 января следующего
года:
Как правильно заполнить и куда предоставлять отчетность
Заполненные отчеты следует предоставлять в территориальные отделения Федеральной службы
госстатистики. Выбор органа осуществляется по месту фактического размещения организации.
Если у компании есть несколько обособленных подразделений или филиалов, то каждое из них
самостоятельно заполняет отчетность и направляет ее в тот орган, к которому она относится по
территориальному признаку. Центральная компания должна заполнять свои формы без учета данных от ОП.
Направлять формы в ведомство следует в электронной форме. Сделать это можно через
кабинет на сайте Росстата, но удобнее воспользоваться специализированными сервисами.
Например, продукт 1С-Отчетность включает программу по заполнению форм
статистической отчетности. Сервис самостоятельно напомнит пользователю о сроках сдачи статистической или
финансовой отчетности, предоставит актуальную форму для заполнения и проверит составленный отчет по
контрольным соотношениям. Чтобы быстро перенести данные в бланк, можно подгрузить в программу любые
отчеты и базы данных. А после заполнения в один клик подписать документ электронной подписью и направить
в контролирующий орган.
При заполнении различных видов статформ всегда требуется оформить «шапку» бланка. В нем
прописывают полное наименование юридического лица в том виде, в каком оно указывается в учредительных
документах компании. Далее в скобках можно указать сокращенное название. Если бланк заполняет филиал, то ему
следует указать название как подразделения, так и основной компании.
Ответственность за несдачу статотчетности
Если юрлицо или ИП не предоставили вовремя статистические отчеты или в направленных
документах были выявлены недостоверные сведения, то закон позволяет привлечь виновного к административной
ответственности. Она наступает в рамках статьи 13.19 Кодекса об административных правонарушениях.
Штраф для юридических лиц составляет 20–70 тысяч рублей. Наказание для должностных лиц –
от 10 до 20 тысяч рублей.
При повторном нарушении назначаются увеличенные штрафные санкции: от 100 до 150 тысяч
рублей для организаций и от 30 до 50 тысяч рублей для должностных лиц.
Время на прочтение
В преддверии старта нового потока курса «Machine Learning Pro + Deep Learning» представляем вашему вниманию пост, который смело можно класть в закладки, — гид по статистике для амбициозных практиков машинного обучения. От ответа на вопрос, что такое статистика, до весьма подробных списков понятий, которые нужно усвоить, чтобы овладеть используемой в работе с проектами ML статистикой. Кроме того, в посте вы найдёте рекомендации литературы.
В современном сверхсвязанном мире данные генерируются и потребляются невиданными ранее темпами. И, как бы нам ни нравилась эта «сверхпроводимость данных», она провоцирует злоупотребления. Дата-сайентисты должны быть обучены использованию статистических методов не только для интерпретации цифр, но и для выявления таких злоупотреблений и защиты людей от введения в заблуждение. Немногие специалисты по статистике имеют формальную подготовку. Хороших книг и курсов, которые обучают статистическим методам с точки зрения науки о данных, немного. В этом посте я пролью свет на следующие вопросы:
- Что такое статистика?
- Статистика в отношении к машинному обучению.
- Зачем вам нужно осваивать статистику.
- Какому учебному плану следовать, чтобы освоить эти темы.
- Как изучать статистику, чтобы стать практиком, а не просто человеком, который правильно сдаёт тесты.
- Практические советы и обучающие ресурсы.
Что такое статистика?
- Описательная статистика. Предлагает методы резюмирования данных путем преобразования необработанных наблюдений в значимую информацию, которую легко интерпретировать и распространять.
- Логическая статистика. Предлагает методы изучения экспериментов, выполненных на маленьких образцах данных, и умозаключения для всей популяции (всего домена).
Сегодня статистика и машинное обучение — две тесно связанные между собой области. Статистика дает важные предпосылки для прикладного машинного обучения: она помогает выбирать, оценивать и интерпретировать модели прогнозирования.
Статистика в машинном обучении
Конечно, имеются некоторые факторы, затрудняющие обучение статистике. Я говорю о математических уравнениях, греческой нотации и тщательно выверенных понятиях, затрудняющих развитие интереса к предмету. Можно решить эти проблемы с помощью простых и ясных объяснений, учебных пособий с соответствующим темпом и практических занятий — решения проблем с помощью прикладных методов статистики. От исследовательского анализа данных до разработки экспериментов для проверки гипотез статистика играет ключевую роль в решении проблем во всех основных отраслях и областях.
Тот, кто хочет развить глубокое понимание машинного обучения, должен узнать, как статистические методы формируют основу алгоритмов регрессии и классификации, как статистика позволяет учиться на основе данных и как она помогает извлекать смысл из немаркированных данных.
Зачем вам осваивать статистику?
описательная статистикалогическую статистику
Статистика помогает ответить на вопросы, подобные этим
- Какие из признаков наиболее важны?
- Как проектировать эксперимент, чтобы разработать стратегию продукта?
- Какие показатели производительности мы должны измерять?
- Какой самый распространенный и ожидаемый результат?
- Как отличить шум от достоверных данных?
Это важные и общие вопросы, на которые ежедневно приходится отвечать работающим с данными командами. Ответы на эти вопросы помогают эффективно принимать решения. Статистические методы помогают нам не только настраивать проекты прогнозного моделирования, но и интерпретировать результаты.
Статистика и проекты по машинному обучению
экспериментальный анализ данных (EDA) и добыча данных (Data Mining)
Первоначальное исследование данных
Отчасти знание домена помогает овладеть определённым типом переменных. Тем не менее как эксперты, так и новички в этой области извлекают пользу из реальной работы с реальными наблюдениями в домене. Важные связанные с этим понятия в статистике сводятся к изучению описательной статистики и визуализации данных.
Очистка данных
Проектирование экспериментов — это подраздел статистики, который управляет процессом выбора и оценки модели. Он требует хорошего понимания проверки статистических гипотез и оценочной статистики.
Тонкая настройка модели
- Определение вопроса, на который можно ответить статистически, чтобы принимать эффективные решения.
- Вычисление и интерпретация общих статистических данных и использование стандартных методов визуализации данных для передачи результатов.
- Понимание того, как математическая статистика применяется в конкретной области, такие понятия, как центральная предельная теорема и закон больших чисел.
- Умение делать выводы из оценок местоположения и изменчивости (ANOVA).
Определение связи между целевыми и независимыми переменными.
- Разработка экспериментов по проверке статистических гипотез, A/B тестирование и т. д.
- Вычисление и интерпретация метрик производительности, таких как р-значение, альфа, ошибки первого и второго рода и т. д.
Важные понятия статистики
- Приступая к освоению статистики, нужно понимать типы данных (данные в прямоугольной системе координат и другие данные), оценивать местоположение и вариабельность распределения данных, бинарные и категориальные данные, корреляцию, отношение между различными типами переменных.
- Статистические распределения — случайные числа, закон больших чисел, центральная предельная теорема, стандартная погрешность и т. д.
- Выборка и распределение данных — случайная выборка, смещение выборки, смещение выбора, распределение выборки, бутстрэп, доверительный интервал, нормальное распределение, t-распределение, биномиальное распределение, распределение «хи квадрат», F-распределение, распределение Пуассона и экспоненциальное распределение.
- Непараметрические статистические методы — ранжирование данных, критерии нормальности, нормализация данных, ранговая корреляция, критерии знаковых рангов, критерий независимости.
Практические советы по обучению
Если вам нравится сфера машинного обучения или же вы хотите расширить свои знания в этой области, то приходите к нам учиться, а специальный промокод HABR добавит 10 % к скидке на баннере.
Рекомендуемые статьи
Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?
Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!
Конечно, статистика применяется далеко за пределами научных лабораторий: в рекламе, маркетинге, бизнесе, медицине, образовании и т.д. Но, что самое интересное, базовые знания анализа данных крайне полезны и в повседневной жизни. Например, думаю, все вы знакомы с понятием среднего арифметического. Среднее значение очень часто используется в СМИ при обсуждении различных социально-экономических показателей — доходов, уровня безработицы и т.д. В 2005 году британские СМИ писали о том, что средний уровень дохода населения не только не возрос, но снизился на 0,2 % по сравнению с предыдущим годом. Мелькали заголовки «Доходы населения снизились впервые с 1990 года». Некоторые политики даже использовали этот факт, критикуя действующее правительство. Однако, важно понимать, что среднее арифметическое — хороший показатель, когда наш признак имеет симметричное распределение (богатых столько же, сколько бедных). Реальное же распределение доходов имеет скорее следующий вид:
Распределение имеет явно выраженную асимметрию: очень состоятельных людей заметно меньше, чем представителей среднего класса. Это приводит к тому, что в данном случае банкротство одного из миллионеров может значительно повлиять на этот показатель. Гораздо информативнее использовать значение медианы для описания таких данных. Медиана — это значение зарплаты, которое находится в самой середине распределения доходов (50% всех наблюдений меньше медианы, 50% — больше). И, как ни удивительно, медиана дохода в 2005 году в Великобритании, в отличие от среднего значения, продолжила свой рост. Таким образом, если вы знаете о различных типах распределения и различных мерах центральной тенденции (среднее и медиана), то вас не так просто ввести в заблуждение в таких случаях, как описаны в примере.
Черный ящик статистического анализа
Как мы уже выяснили, чем бы вы ни планировали заниматься, вероятность столкнуться с курсом «математическая статистика в вашей области» постепенно приближается к единице. Однако, часто занятия по введению в статистику не вызывают восторга у студентов нетехнических факультетов. Через несколько занятий выясняется, что такие базовые понятия, как, например, корреляция представляют собой нечто следующее:
- Жмем сюда
- Снимаем/ставим галочки тут
Статистический анализ начинает напоминать черный ящик: на вход подаются данные, на выход — таблица основных результатов и значение p-уровня значимости (p-value), который и расставит все точки над i.
О чем нам, собственно, говорит p-value?
Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кровавым компьютерным играм и агрессивностью в реальной жизни. Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — фанаты стрелялок, вторая группа — не играющие в компьютерные игры). В качестве показателя агрессивности выступает, например, число драк со сверстниками. В нашем воображаемом исследовании оказалось, что группа школьников-игроманов действительно заметно чаще конфликтует с товарищами. Но как нам выяснить, насколько статистически достоверны полученные различия? Может быть, мы получили наблюдаемую разницу совершенно случайно? Для ответа на эти вопросы и используется значение p-уровня значимости (p-value) — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет. Иными словами, это вероятность получить такие или еще более сильные различия между нашими группами, при условии, что, на самом деле, компьютерные игры никак не влияют на агрессивность. Звучит не так уж и сложно. Однако, именно этот статистический показатель очень часто интерпретируется неправильно.
А теперь несколько примеров про p-value
Итак, мы сравнили две группы школьников между собой по уровню агрессивности при помощи стандартного t-теста (или непараметрического критерия Хи — квадрат более уместного в данной ситуации) и получили, что заветный p-уровень значимости меньше 0.05 (например 0.04). Но о чем в действительности говорит нам полученное значение p-уровня значимости? Итак, если p-value — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет, то какое, на ваш взгляд, верноеутверждение:
- Если бы мы получили p-уровень значимости больше, чем 0.05, это означало бы, что агрессивность и компьютерные игры никак не связаны между собой.
- Все утверждения неверны.
Если вы выбрали пятый вариант, то абсолютно правы! Но, как показывают многочисленные исследования, даже люди со значительным опытом в анализе данных часто некорректно интерпретируют значение p-value (например, можно посмотреть эту интересную статью).
Давайте разберем все ответы по порядку
- Первое утверждение — пример ошибки корреляции: факт значимой взаимосвязи двух переменных ничего не говорит нам о причинах и следствиях. Может быть, это более агрессивные люди предпочитают проводить время за компьютерными играми, а вовсе не компьютерные игры делают людей агрессивнее.
- Это уже более интересное утверждение. Все дело в том, что мы изначально принимаем за данное, что никаких различий на самом деле нет. И, держа это в уме как факт, рассчитываем значение p-value. Поэтому правильная интерпретация: «Если предположить, что агрессивность и компьютерные игры никак не связаны, то вероятность получить такие или еще более выраженные различия составила 0.04».
- А что делать, если мы получили незначимые различия? Значит ли это, что никакой связи между исследуемыми переменными нет? Нет, это означает лишь то, что различия, может быть, и есть, но наши результаты не позволили их обнаружить.
- Это напрямую связано с самим определением p-value. 0.04 — это вероятность получить такие или еще более экстремальные различия. Оценить вероятность получить именно такие различия, как в нашем эксперименте, в принципе невозможно!
Вот такие подводные камни могут скрываться в интерпретации такого показателя, как p-value. Поэтому очень важно понимать механизмы, заложенные в основании методов анализа и расчета основных статистических показателей.
Онлайн-курс по основам статистики
Сейчас я пишу диссертацию на факультете психологии СПбГУ и преподаю статистику биологам в Институте биоинформатики. Основываясь на курсе читаемых лекций и собственного исследовательского опыта, возникла идея создать онлайн-курс по введению в статистику на русском языке для всех желающих, необязательно биоинформатиков или биологов.
Существует много хороших онлайн-курсов по анализу данных и статистике (например, такой, такой, или такой), но практически все они на английском языке. Надеюсь, что курс будет полезен для тех, кто только знакомится с основами статистики. В нем я стараюсь в максимально доступной форме разобрать основные идеи и методы анализа данных, уделяя особое внимание самой идее статистической проверки гипотез и интерпретации получаемых результатов. В качестве примеров будут задачи из различных областей: от биоинформатики до социологии. Курс бесплатный и все его материалы останутся открытыми после окончания, начинается 15 февраля.
Полезные материалы
Если вы знаете какие-либо полезные курсы или материалы по введению в статистику — делитесь в комментариях!
Использование статистических методов для анализа временных рядов
Очень часто в нашей работе встречается такое понятие как «временной ряд». Это определение было придумано очень давно. Тогда, когда люди только стали записывать данные о чем-то двумя значениями: явлением и временем. Наиболее классическим описанием временного ряда является запись температуры на протяжении года или нескольких лет.
Но сам ряд — это лишь набор информации, который не несет ничего нужного. При этом, если построить график этого ряда, используя, к примеру, для оси Y значения времени, а для оси X — показания, которые были нами изначально записаны или форматизированы в цифровом виде, то мы сможем найти некоторые последовательности.
В случае графика температур — день теплее, чем ночь, а зима холоднее лета. И чем больше данных мы сможем проанализировать подобным образом, выделяя какие-то закономерности, тем с большей точностью мы сможем предугадать — что нас ждет в будущем.
Таким же образом думали люди в прошлом, разделяя процесс работы с временными графиками на три этапа: сбор данных, анализ временного ряда, предсказание следующих значений.
Но для чего может использоваться временной ряд в аудите? Для всего!
Операции клиента на протяжении квартала – временной ряд. Расход топлива служебного автомобиля – временной ряд. Даже чтение этой статьи – тоже временной ряд! (мы можем записать — сколько слов в минуту вы читаете, с указанием порядкового времени минуты)
Поэтому, анализ временных рядов мы с вами проводим достаточно часто. И, к сожалению, очень часто можем ошибаться.
Основным методом работы с любым простым временным рядом – это построение графика и его визуальная оценка.
Возьмем простой пример: рассмотрим покупки подарков к праздничному мероприятию для десяти коллег.
Здесь все более-менее понятно:
в начале декабря было осуществлено всего несколько покупок для некоторых коллег. Ближе к празднику – остальным.
А если коллег и знакомых не десять, а 200? И закупаться нужно не за 10 дней, а в течение целого месяца?
К сожалению, быстро оценить по какой схеме покупаются подарки не получится. Но давайте проанализируем несколько фактов:
- Самым близким коллегам и знакомым мы готовим дорогие подарки;
- Сразу найти нужный подарок не всегда удается и процесс покупки подарков растягивается на месяц.
Получается, что есть какая-то последовательность, например — период времени закупки подарков для определенных групп коллег.
Наличие таких одинаковых периодов говорит о том, что ряд — стационарен. То есть существует какая-то часть, которая всегда повторяется. Но как понять, есть ли этот период?
Для этого используется целая группа тестов:
- Тест Дики — Фуллера,
- Тест Филипса — Перрона,
- Тест Шмидта — Филлипса,
- Тест Квятковского — Филлипса — Шмидта — Шина,
- Тест DF — GLS,
В этом примере мы будем использовать тест Дики — Фуллера, который реализован в модуле statsmodels на языке python. Для этого нам надо будет всего лишь выбрать нужные модули (statsmodels и pandas), загрузить данные, и вывести результат. Ниже представлен пример скрипта:
При этом сами данные выглядят следующим образом:
Основная идея теста заключается в подтверждении или отклонении двух гипотез:
- Нулевая гипотеза (H0): предполагает, что временной ряд имеет единичный корень, то есть он нестационарный (покупаем подарки в случайном порядке).
- Альтернативная гипотеза (H1): предполагает, что временной ряд не имеет единичного корня, то есть он является стационарным. Если эта гипотеза верна, то у нас есть список покупок подарков на определенный временной период, в котором количество подарков для близких коллег и знакомых будет неизменно.
Для подтверждения или опровержения этих гипотез используются p -values значения.
p -values — это наименьшее значение уровня значимости (то есть вероятности отказа от справедливой гипотезы).
В случае если p –values больше значения 5%, то мы отвергаем нулевую гипотезу, и, следовательно, ряд является стационарным, имеет определенную периодичность, которую возможно выявить.
Существуют различные реализации этого теста, однако, приведенная в данном примере – является самой простой.
Исходя из того, что ряд является стационарным, мы можем сделать вывод, что покупку и близким коллегам и остальным знакомым мы начинаем одновременно и делаем это определенными заходами.
Используя такой простой пример, мы можем определить наличие закономерностей в работе проверяемых нами объектов.