Классификатор | Российский научный фонд
01-101
Математическая логика и основания математики
01-103
Теория чисел
01-104
Геометрия
01-105
01-106
Алгебраическая геометрия
01-107
Группы Ли и теория представлений
01-108
Комплексный анализ
01-109
Вещественный и функциональный анализ
01-110
Теория вероятностей и математическая статистика
01-111
01-112
Обыкновенные дифференциальные уравнения и теория динамических систем
01-113
Математическая физика
Дискретная математика и математическая кибернетика
01-201
Искусственный интеллект и принятие решений
01-202
01-203
Теория оптимизации и исследование операций
01-204
Математические проблемы теории управления
Математические модели в науках о живом
01-206
Вычислительная математика
01-207
Программные модели и системы
Нейроинформатика
01-209
Теория игр
01-210
Проблемно-ориентированные алгоритмы
Математическое моделирование социальных и экономических процессов
01-212
Квантовые методы обработки информации
01-213
Обработка и анализ изображений и сигналов
Параллельные алгоритмы
01-215
Анализ и моделирование компьютерных процессов
01-216
01-217
Математическое моделирование физических сред
01-218
Математическое моделирование физических явлений
Математическое моделирование в науках о Земле и проблемах окружающей среды
01-220
Математическое моделирование технических систем
01-301
Теория упругости, сопряженные модели
01-302
Контактное взаимодействие
01-303
Пластичность, воздействие физических полей и химически активных сред
01-304
01-305
Разрушение деформируемых тел, кинетика и динамика
01-306
Механика гетерогенных и функциональных материалов, многомасштабность структуры и текстуры
01-307
Динамика идеальной жидкости
01-308
Динамика вязкой жидкости
01-309
Турбулентность и гидродинамическая устойчивость
01-310
Газовая динамика
01-311
Гидромеханика многофазных сред
01-312
Физико-химическая гидродинамика
01-313
Биомеханика
01-314
Теоретическая механика
01-315
Теория колебаний и устойчивость движения
01-316
Методы математического моделирования, оценивания и управления механическими и биомеханическими системами
01-317
Регулярная и хаотическая динамика механических систем
01-318
Движение тел в космическом пространстве, жидких и газовых средах
01-319
Механика машин и роботов
01-401
Системы цифровой передачи данных и вычислительные сети
01-402
Технологии прикладных распределенных разработок
01-403
Распределенные вычисления и GRID-технологии. Сверхмасштабируемые программные комплексы и алгоритмы. Испытание и оценка надежности.
01-404
Облачные вычисления
01-405
Математическое обеспечение для грид-технологий и облачных вычислений
01-406
Технология защиты ресурсов распределенных информационно-вычислительных систем
01-407
Математическое обеспечение безопасности вычислительных и инфокоммуникационных технологий
01-408
Методология стандартизации информационных, вычислительных и коммуникационных ресурсов
01-409
Правовые и экономические аспекты создания и использования информационных ресурсов
01-410
Высокопроизводительные компьютерные системы и распределенная обработка данных
01-411
Системное программирование высокопроизводительных компьютерных систем
01-412
Суперкомпьютерное моделирование: инструментальные средства, прикладное программное обеспечение и сервисы
01-413
Визуализация и обработка сверхбольших массивов данных
01-414
Программное обеспечение для вычислительных и инфокоммуникационных систем и сетей
01-415
Параллельное программирование: модели, языки, технологии
01-416
Инструментарий параллельного моделирования
01-417
Архитектура и топология вычислительных и инфокоммуникационных систем и сетей
01-418
Оптимизация мультиархитектурных иерархических систем и параллельное мультипрограммирование
01-419
Безопасность, структурная надежность и живучесть вычислительных и инфокоммуникационных систем и сетей
01-420
Контроль и диагностика вычислительных и инфокоммуникационных систем и сетей
01-501
Теоретические основы Е-технологий и программных комплексов
01-502
Теоретические основы электронных социальных систем, сетей и услуг
01-503
Теоретические основы электронных образовательных систем, сетей и услуг
01-504
Теоретические основы электронной поддержки рынка медицинских услуг
01-505
Системы компьютерной поддержки научных исследований
01-506
Компьютеризированное научное приборостроение
01-507
Автоматические и автоматизированные системы проектирования, моделирования и сопровождения
01-508
Системный анализ
01-509
Извлечение знаний, базы данных и базы знаний
01-510
Системы семантического моделирования
01-511
Системы визуализации и виртуального окружения
01-512
Информационные технологии интеллектуальной поддержки принятия решений
01-513
Технологии и системы, основанные на знаниях
01-514
Технологии приобретения, представления, обработки и интеграции знаний
01-515
Технологии управления знаниями
01-516
Проблемно-ориентированные системы, основанные на знаниях
01-517
Средства создания и поддержки проблемно-ориентированных систем, основанных на знаниях, и экспертных систем
01-518
Системы текстового поиска, обработки и анализа естественного языка
01-519
Интеллектуальные динамические системы и технологии управления
01-520
Интеллектуальные технологии для робототехнических и мехатронных систем
01-521
Интеллектуальные Интернет-технологии
01-601
Теория управления
01-701
Проблемно-ориентированные системы
01-702
Системы и технологии создания и поддержки проблемно-ориентированных систем
01-703
Фундаментальные проблемы наполнения электронных библиотек и коллекций
01-704
Средства создания и поддержки электронных библиотек и электронных изданий
01-705
Сервисно-ориентированные системы
01-706
Мобильные системы и сенсорные сети
01-707
Фундаментальные проблемы организации электронного документооборота
01-708
Геоинформационные системы
01-709
Мультимедийные информационные системы
01-710
Проблемно-ориентированные базы данных
01-711
Системы семантического моделирования
01-712
Принципы построения электронных социальных систем, сетей и оказания услуг
01-713
Правовые и методологические вопросы, связанные с использованием Интернет
01-714
Встроенные интеллектуальные системы
01-715
Системы текстового поиска
01-716
Системы и технологии математического моделирования для естественных наук
01-717
Алгоритмическое и программное обеспечение для электроэнергетики
01-718
Алгоритмическое и программное обеспечение для атомной промышленности
01-719
Алгоритмическое и программное обеспечение для космоса
01-720
Алгоритмическое и программное обеспечение для здравоохранения и биологии
01-721
Системы и технологии математического моделирования социальных и экономических процессов
01-722
Алгоритмическое и программное обеспечение для бизнес-приложений, анализа социальных и экономических процессов
01-723
Специализированные программные модели и системы
01-724
Инфокоммуникационные и вычислительные технологии для оптики, фотоники и лазерных технологий
01-725
Инфокоммуникационные и вычислительные технологии для online распознавания изображений
01-726
Системы и технологии интеллектуального анализа данных и распознавания образов
01-727
Специализированные системы обработки и анализа изображений и сигналов
Конкурсы РФФИ 2017 г.
Конкурсы РФФИ фундаментальных научных исследований 2017 года
1. РФФИ объявляет о проведении конкурса 2017 года проектов фундаментальных научных исследований (Конкурс).
Код Конкурса — «а».
Настоящее Объявление и документы, на которые содержатся ссылки в настоящем Объявлении, определяют условия Конкурса.
Задача Конкурса – поддержка научных проектов, в которых осуществляется экспериментальная или теоретическая деятельность, направленная на получение новых знаний о природе, человеке и обществе, выполняемых учеными, способными самостоятельно определить направления и методы проведения исследований.
1. Общие положения
1.1. На Конкурс могут быть представлены проекты фундаментальных научных исследований (далее – Проекты), выполняемые физическими лицами, по следующим направлениям:
(01) математика, механика и информатика;
(02) физика и астрономия;
(03) химия и науки о материалах;
(04) биология и медицинские науки;
(05) науки о Земле;
(06) естественнонаучные методы исследований в гуманитарных науках;
(07) инфокоммуникационные технологии и вычислительные системы;
(08) фундаментальные основы инженерных наук.
Срок выполнения Проекта, представляемого на Конкурс — 1, 2 или 3 года.
Подробная информация
2. РФФИ и Национальный научный фонд Исламской Республики Иран (ННФИ) в соответствии с Соглашением о сотрудничестве между РФФИ и ННФИ от 27 августа 2015 года объявляют Конкурс 2017 года проектов фундаментальных научных исследований (Конкурс).
Код Конкурса – «Иран_а».
Настоящее Объявление и документы, на которые содержатся ссылки в настоящем Объявлении, определяют условия Конкурса.
Задача Конкурса – развитие международного сотрудничества в области фундаментальных научных исследований, финансовая поддержка проектов фундаментальных научных исследований, осуществляемых совместно учеными из России и Ирана.
1. Общие положения
1.1. На Конкурс могут быть представлены научные проекты по областям знания, включенным вКлассификатор РФФИ, по следующим направлениям:
1. Математика
2. Химия
3. Науки о материалах
4. Нейронауки
5. Физика атомного ядра
6. Науки о Земле, включая исследования Каспийского моря и Антарктики
7. Науки о жизни
8. Гуманитарные и социальные науки
9. Фундаментальные основы инженерных наук
10. Космические исследования
11. Вычислительные исследования, программное обеспечение и информационное взаимодействие
12. Мега-сайенс
Срок выполнения Проекта, представляемого на Конкурс – 1, 2, или 3 года.
Физические лица – российские участники и иранские участники, согласовывают между собой содержание исследований и название Проекта и подают Проект на Конкурс — российские участники Конкурса в Фонд, иранские – в ННФИ.
Подробная информация
Конкурс проектов организации российских и международных научных мероприятий 2017 года — Новости
РФФИ и Администрация Алтайского края объявляют о проведении регионального конкурса проектов организации российских и международных научных мероприятий 2017 года.
На конкурс могут быть представлены проекты организации российских и международных научных мероприятий – конференций, семинаров и т.д., проводимых на территории Российской Федерации по областям знания, включенным в классификатор РФФИ, по тематикам, заявленным субъектами РФ в качестве актуальных.
Код конкурса — «р_г».
На конкурс (наряду с другими) могут быть представлены:
- проекты организации отчетных конференций по итогам завершенных и продолжающихся проектов фундаментальных научных исследований (инициативных проектов), проводимых в организациях, расположенных на территории Субъекта РФ;
- проекты организации и проведения отдельных секций российских и международных конференций и семинаров (отражается в названии проекта).
Информация о мероприятии должна быть размещена в сети Интернет. Обязательно должны быть представлены сведения о программном и организационном комитетах, о научной программе, сроках проведения, размере организационного взноса. Указание сайта мероприятия, содержащего всю необходимую информацию и функционирующего на момент подачи заявки на участие проекта в конкурсе, является обязательным условием. Информация, указанная на сайте мероприятия, должна соответствовать информации, приведенной в проекте.
На момент подачи заявки на участие проекта в конкурсе прием докладов должен быть завершен, научная программа мероприятия должна быть сформирована.
Заявки на участие проектов в конкурсах оформляются в информационной системе фонда (КИАС РФФИ) и затем представляются в печатной форме.
Оформление заявок на участие проектов в конкурсе в КИАС РФФИ проходит с 10 января 2017 года до 23 часов 59 минут московского времени 23 января 2017 года.
Итоги конкурсов будут подведены в марте – апреле 2017 года.
С более подробной информацией о конкурсе можно ознакомиться на сайте РФФИ. Консультацию, помощь в оформлении и отправке заявки можно получить в отделе сопровождения НИОКТР, тел. 291-250, каб. 704 «М».
Теология включена в классификатор Российского фонда фундаментальных исследований (РФФИ) : Богослов.RU
Теология включена в классификатор Российского фонда фундаментальных исследований (РФФИ)
Вниманию молодых теологов – исследователей, преподавателей, сотрудников и аспирантов духовных школ Русской Православной Церкви, вузов традиционных религий, входящих в Межрелигиозный совет России, научно-педагогических работников, докторантов, аспирантов и соискателей кафедр теологии
Благодаря решению Совета по взаимодействию с религиозными организациями при Президенте Российской Федерации и нашей совместной работе принято важное для богословов решение: теология включена в классификатор Российского фонда фундаментальных исследований (РФФИ).
Публикуем постановление о включении теологии в тематический классификатор РФФИ (раздел 11-108 Философия религии и религиоведение. Теология), принятое Бюро Совета РФФИ.
К участию в конкурсе допускаются индивидуальные исследователи, прошедшие регистрацию в системе «Системе поддержки пользователей КИАС РФФИ». Аффилиация с учебным заведением, в котором работает исследователь, возможна при наличии корпоративного профиля образовательной организации в системе.
Для регистрации корпоративного профиля необходимо авторизоваться в системе и сообщить в Службу поддержки данные о своей организации. Более полную информацию можно найти на сайте КИАС РФФИ (https://support.rfbr.ru/?p=faq) в разделе «Часто задаваемые вопросы».
Информация об условиях участия в конкурсе, правилах подачи и оформления заявок становится доступна после объявления соответствующего конкурса. Общая информация о принципах работы Фонда, а также примеры объявленных конкурсов доступны на сайте.
Объявление ежегодного общего конкурса («А») на 2021 год (по неофициальным данным) задерживается до августа месяца 2020 г. в связи с уточнением объемов финансирования из федерального бюджета. Это время целесообразно использовать для регистрации в Системе и подготовки проектов.
НОТА
Ульяновский ГАУ
03.02.2021 Вниманию абитуриентов!
С 1 февраля 2021 года в ФГБОУ ВО Ульяновский ГАУ начался прием документов поступающих на очно-заочную и заочную внебюджетную формы обучения по программам высшего образования – программам бакалавриата, программам специалитета, программам магистратуры, на 2021-2022 учебный год.
27.05.2021 Вниманию выпускников вузов!
ФГБОУ ВО Ульяновский ГАУ осуществляет прием документов на обучение по программам высшего образования – программам подготовки научно-педагогических кадров в аспирантуре на 2021-2022 учебный год на очную и заочную бюджетную и внебюджетную формы обучения.
01.06.2021 Ректорат УлГАУ всегда на связи!
13.06.2021 Пять шагов к поступлению
12.08.2021 Всероссийская перепись населения
Уважаемые студенты, аспиранты и сотрудники университета! С 15 октября по 14 ноября 2021 года пройдет Всероссийская перепись населения. Участие в переписи впервые можно будет принять через интернет, с помощью портала «Госуслуги»
23.10.2021 Как студенту зарабатывать в сфере туризма?
По приглашению Агентства по туризму Ульяновской области студенты направления подготовки «Экономика» Ульяновского аграрного университета имени П.А. Столыпина приняли участие в Первом международном студенческом конгрессе «Туризм будущего – будущее туризма».
22.10.2021 Каждый факультет интересен по-своему!
14 и 20 октября в рамках Дней открытых дверей для учащихся профильных средних профессиональных образовательных учреждений нашего региона Ульяновский аграрный университет имени П. А. Столыпина посетили студенты Карсунского технологического техникума.
22.10.2021 Конкурс видеороликов антикоррупционной тематики
Прокуратурой Ульяновской области организован конкурс видеороликов антикоррупционной тематики. Он приурочен к очередной годовщине подписания Конвенции Организации Объединенных Наций против коррупции, принятой Генеральной ассамблеей ООН 1 ноября 2003 года, а также к Международному Дню борьбы с коррупцией – 9 декабря.
22.10.2021 Национальный конкурс инновационных проектов молодых ученых «UL- INNOVO-2022»
Уважаемые студенты!
Приглашаем вас принять участие в Национальном конкурсе инновационных проектов молодых ученых «UL- INNOVO-2022».
22.10.2021 Выиграли «Рожденные побеждать»!
21 октября в Ульяновском ГАУ прошло веселое и интересное мероприятие для иностранных студентов университета – конкурсно-игровая программа «Поймай момент», организовали которую активисты Ассоциации иностранных студентов вуза.
22.10.2021 Стипендия Губернатора Ульяновской области «Имени Александра Александровича Любищева»
Приглашаем принять участие в конкурсе на право получения стипендии Губернатора Ульяновской области «Имени Александра Александровича Любищева».
22.10.2021 Море эмоций и активный отдых
21 октября сотрудниками кафедры эксплуатации мобильных машин и социально-гуманитарных дисциплин Антоном и Алексеем Хохловыми, Ильмасом Салахутдиновым и Сергеем Петряковым в Технологическом институте — филиале УлГАУ им. П.А. Столыпина был организован волейбольный матч.
22.10.2021 Студентам предложили «Тарелку здорового питания»
В Ульяновской области реализуется профилактический проект «Здоровый выбор», основная цель которого – формирование мотивации к здоровому образу жизни среди студентов высших учебных заведений.
21.10.2021 Онлайн-встреча студентов с сотрудником полиции
20 октября состоялась онлайн-встреча студентов университета и учащихся колледжа агротехнологий и бизнеса Ульяновского ГАУ со старшим оперуполномоченным по экономической безопасности и противодействию коррупции МО МВД «Чердаклинский» майором полиции Ринатом Бахитовым.
21.10.2021 Будущие агрономы – о современных технологиях работы с информацией
14 октября на кафедре информатики Ульяновского ГАУ состоялся конкурс докладов и презентаций на тему «Цифровое общество и современные технологии работы с информацией» среди студентов 1 курса направления подготовки «Агрономия» факультета агротехнологий, земельных ресурсов и пищевых производств.
В классификатор Российского фонда фундаментальных исследований включена теология
В классификатор Российского фонда фундаментальных исследований включена теология | Радонеж.Ру Перейти к основному содержанию31.07.2020 18:53:02
МОСКВА
Благодаря решению Совета по взаимодействию с религиозными организациями при Президенте Российской Федерации и совместной работе НОТА принято важное для богословов решение: теология включена в классификатор Российского фонда фундаментальных исследований (РФФИ), сообщает Седмица.ru.
Постановление о включении теологии в тематический классификатор РФФИ (раздел 11-108 Философия религии и религиоведение. Теология) принято Бюро Совета РФФИ.
К участию в конкурсе допускаются индивидуальные исследователи, прошедшие регистрацию в системе «Системе поддержки пользователей КИАС РФФИ». Аффилиация с учебным заведением, в котором работает исследователь, возможна при наличии корпоративного профиля образовательной организации в системе.
Для регистрации корпоративного профиля необходимо авторизоваться в системе и сообщить в Службу поддержки данные о своей организации. Более полную информацию можно найти на сайте КИАС РФФИ (https://support.rfbr.ru/?p=faq) в разделе «Часто задаваемые вопросы».
Информация об условиях участия в конкурсе, правилах подачи и оформления заявок становится доступна после объявления соответствующего конкурса. Общая информация о принципах работы Фонда, а также примеры объявленных конкурсов доступны на сайте.
Объявление ежегодного общего конкурса («А») на 2021 год (по неофициальным данным) задерживается до августа месяца 2020 г. в связи с уточнением объемов финансирования из федерального бюджета. Это время целесообразно использовать для регистрации в Системе и подготовки проектов.
Версия для печати
Электронное периодическое издание «Радонеж.ру» Свидетельство о регистрации от 12.02.2009 Эл № ФС 77-35297 выдано Федеральной службой по надзору в сфере связи и массовых коммуникаций. Копирование материалов сайта возможно только с указанием адреса источника 2016 © «Радонеж.ру» Адрес: 115326, г. Москва, ул. Пятницкая, д. 25 Тел.: (495) 772 79 61, тел./факс: (495) 959 44 45 E-mail: [email protected]Дорогие братья и сестры, радио и газета «Радонеж» существуют исключительно благодаря вашей поддержке! Помощь
Объявлены совместные (региональные) конкурсы РФФИ и Краевого фонда науки « Федеральный исследовательский центр
Российский фонд фундаментальных исследований (РФФИ) и Правительство Красноярского края объявляют о проведении конкурса проектов организации российских и международных научных мероприятий и конкурса проектов фундаментальных научных исследований 2016 года. Организационно-техническое сопровождение конкурсов осуществляет Краевой фонд науки.
На Конкурс проектов организации российских и международных научных мероприятий 2016 года могут быть представлены проекты организации российских и международных научных мероприятий – конференций, семинаров и т.д., проводимых на территории Российской Федерации по областям знания, включенным в Классификатор РФФИ.
Срок реализации мероприятия: до 30 ноября 2016 года.
На Конкурс проектов фундаментальных научных исследований 2016 года могут быть представлены проекты фундаментальных научных исследований по областям знания, включенным в Классификатор РФФИ.
Срок реализации проектов: до 30 ноября 2016 года для проектов со сроком реализации 1 год, до 30 ноября 2017 года для проектов со сроком реализации 2 года.
Проекты, представляемые на Конкурс проектов фундаментальных научных исследований, должны быть направлены на решение (должны способствовать решению) проблем, актуальных для Красноярского края:
- математическое моделирование систем и фундаментальных процессов;
- новые материалы и химические технологии для применения в Красноярском крае;
- фундаментальные исследования в области энергоэффективности и энергобезопасности в условиях Красноярского края;
- механика деформирования и разрушения материалов, сред, изделий, конструкций, сооружений в экстремальных условиях региона;
- инновационные технологии в металлургии и машиностроении;
- информационно-телекоммуникационные и космические технологии, применяемые в региональной экономике;
- биомедицинские технологии, биотехнологические и биоинженерные основы моделирования и восстановления структуры и функций клеток, тканей и органов;
- геномные и постгеномные исследования и технологии в персонифицированной медицине;
- агротехнологии, биотехнологии и глубокая переработка природного органического сырья в условиях Красноярского края;
- фундаментальные исследования в области экологии и рационального природопользования в Красноярском крае;
- фундаментальные исследования в области разведки, добычи, процессов переработки полезных ископаемых в Красноярском крае.
Заявки по конкурсам (в электронной форме) принимаются в информационной системе РФФИ (КИАС РФФИ) до 23 часов 59 минут по московскому времени 16.06.2016 года.
Печатные экземпляры заявки по конкурсам (два экземпляра), оформленные в соответствии с требованиями РФФИ, сопроводительное письмо с описью всех прилагаемых документов, должны быть представлены в Краевой фонд науки в срок до 23 июня 2016 года 17 часов 30 минут по адресу: г. Красноярск, пр. Мира, 18, стр. 3, кабинет 4.2 и 4.3.
С более подробной информацией о конкурсах можно ознакомиться на официальном сайте Краевого фонда науки http://www.sf-kras.ru/konkursy/
Радиочастотная идентификация отпечатков пальцев для LoRa с использованием спектрограммы и CNN
Введение
Приложения Интернета вещей (IoT) процветают с появлением множества интересных приложений, таких как подключенное здравоохранение, умные города и интеллектуальные отрасли [1] . По оценкам Statista, к 2025 году количество устройств IoT будет 75,44 миллиарда. Аутентификация устройства имеет решающее значение для защиты приложений IoT, позволяющих законным пользователям получать доступ к сети и предотвращать злоумышленников [2] .Эта задача становится все более сложной в связи с быстрым ростом недорогих устройств Интернета вещей. Обычные схемы аутентификации основаны на программных адресах, таких как адреса Интернет-протокола (IP) и / или управления доступом к среде (MAC), которые могут быть подделаны или подделаны [3] . Как только учетные данные безопасности получены злоумышленниками, они могут маскироваться под законные пользователи могут получить доступ к личным данным или совершить фатальные атаки на сети IoT.
Радиочастотная идентификация по отпечатку пальца (RFFI) — многообещающая схема аутентификации, которая может идентифицировать беспроводные устройства по их передаваемым передачам [2, 4, 5] .Отпечатки радиочастот (RFF) возникают из-за недостатков оборудования, возникающих в процессе производства, которые присущи аналоговым интерфейсным компонентам. Эти недостатки незначительно отклоняются от своих номинальных характеристик, следовательно, не влияют на нормальные функции связи; но мы можем разработать расширенные алгоритмы для извлечения их в качестве идентификатора устройства. Подобно биометрическому отпечатку пальца, RFF уникален, и его трудно подделать без огромных усилий.
РФФИ состоит из двух этапов — обучения и классификации.На этапе обучения аутентификатор соберет достаточное количество беспроводных пакетов от тестируемых устройств (DUT), а затем извлечет из полученных пакетов характеристики для обучения классификатора. В предыдущей работе были рассмотрены различные функции, включая спектр Гильберта [6] , смещение несущей частоты (CFO) [7, 8, 9, 10, 11] , синфазное и квадратурное (IQ) смещение [12] , спектр [13] , частотно-временная статистика [14] , фазовая ошибка [12] , нелинейность усилителя мощности [15] и т. Д.На этапе классификации аутентификатор извлекает из полученных пакетов признаки того же типа, передает их обученному классификатору и делает вывод об идентичности устройства.
По сравнению с традиционными схемами безопасности на основе криптографии [3] , одним из основных преимуществ RFFI является то, что он не накладывает никаких дополнительных вычислительных затрат и энергопотребления на устройства, которые должны быть аутентифицированы [2, 16] . Это особенно желательно для многих приложений IoT, поскольку большинство конечных узлов дешевы с ограниченными вычислительными и энергетическими ресурсами.Например, RFFI можно использовать в сетях дальнего действия (LoRa), чтобы уменьшить серьезное ограничение заряда батареи устройств LoRa.
RFFI можно рассматривать как проблему классификации нескольких классов, поэтому можно использовать самые последние разработки в области глубокого обучения
[17, 18, 19, 20, 21, 22, 23, 24, 25, 26] . Ручное извлечение созданных вручную функций требует всесторонних знаний о принятых коммуникационных технологиях и протоколах. Кроме того, сложно точно оценить каждую отдельную функцию, поскольку недостатки оборудования взаимосвязаны [27] .Алгоритмы глубокого обучения могут автоматически извлекать особенности из полученных сигналов и могут извлекать более различимые и высокоуровневые отпечатки [18] . Системы RFFI на основе глубокого обучения построены с использованием новейшей сверточной нейронной сети (CNN) [17, 18, 19, 20, 21, 22, 23, 24, 25]или рекуррентной нейронной сети (RNN), такой как long short -термная память (LSTM)
[26] . Большинство из них часто используют выборки IQ в качестве сетевого входа [17, 18, 19, 20, 21] , что может быть не лучшим решением, поскольку характеристики сигнала не являются явными во временной области.Производительность системы может быть улучшена путем преобразования выборок IQ и получения более различимых представлений сигналов, таких как биспектр [22, 23] , фигура дифференциального созвездия [24] , спектр Гильберта-Хуанга [25] , сигнал ошибки [17]и т. Д. На этапе классификации функция softmax часто используется в нейронных сетях для возврата списка вероятностей относительно классов, указывающего на достоверность прогнозов.В некоторых случаях классификатор не уверен в своем прогнозе, т. Е. Оценка достоверности низкая, а вероятности нескольких классов довольно близки. Однако работы по использованию этой достоверной информации для калибровки неопределенных прогнозов не ведется.
В качестве схемы аутентификации устройства RFFI должен оставаться стабильным [2] . Robyns et al. [28] указал, что точность их системы со временем падает, и сделал вывод, что это было вызвано дрейфом частоты генератора.Однако авторы не представили углубленного анализа или методов смягчения последствий. Эндрюс и др. [29] экспериментально исследовал влияние изменения температуры на различные аналоговые компоненты, например генератора, усилителя мощности, фазовой автоподстройки частоты, смесителя и т. д. и пришел к выводу, что генератор особенно чувствителен к колебаниям температуры. Хотя CFO успешно использовался для идентификации WiFi-устройств [10, 11] , было также замечено, что недорогие устройства ZigBee имеют серьезные отклонения в CFO даже в течение 15 минут [30, 18] .Всестороннее исследование изменения CFO на недорогих устройствах IoT и его влияния на RFFI все еще отсутствует.
В этой статье мы используем LoRa в качестве примера для исследования вышеуказанных проблем. LoRa — это стандарт физического уровня, разработанный Cycleo и запатентованный Semtech в 2014 г. [31] , который широко используется для приложений Интернета вещей большого радиуса действия. LoRaWAN, протокол более высокого уровня для LoRa, основан на криптографических схемах регистрации устройств, а именно на беспроводной активации (OTAA) и Активация посредством персонализации (ABP) [32] , которые могут быть взломаны злоумышленниками.Таким образом, появляющаяся технология RFFI является многообещающей для аутентификации устройств LoRa. Насколько известно авторам, есть три статьи по LoRa RFFI [28, 26, 33] . LoRa использует модуляцию с расширенным спектром частот (CSS), которая демонстрирует частотно-временные характеристики, которые могут быть явно показаны на спектрограмме. Однако ни один из них не учел уникальные методы модуляции LoRa, которые могут не обеспечить оптимальной производительности. Кроме того, устройства LoRa дешевы и обычно производятся с дешевыми компонентами, включая генераторы.Влияние изменения финансового директора на LoRa RFFI никогда не исследовалось.
В данной статье разрабатывается система RFFI на основе CNN для классификации устройств LoRa. Мы стремимся ответить на три вопроса: (1) Можем ли мы использовать представление сигнала, уникальное для модуляции LoRa, и повысить точность классификации? (2) Как изменение финансового директора влияет на стабильность RFFI и можем ли мы его смягчить? (3) Можем ли мы использовать вероятности вывода softmax для дальнейшего улучшения RFFI на основе глубокого обучения? Чтобы ответить на эти вопросы, мы провели углубленное исследование и обширные эксперименты, в которых участвовали 20 устройств LoRa в качестве тестируемых устройств и программно-определяемая радиоплатформа (SDR) Universal Software Radio Peripheral (USRP) N210 в качестве аутентификатора.Наши взносы перечислены ниже.
Мы экспериментально сравниваем три представления сигналов для сигналов LoRa, а именно выборки IQ, результаты быстрого преобразования Фурье (БПФ) и спектрограмму. Было обнаружено, что спектрограмма может достигать максимальной точности 96,44
%, в то время как выборки IQ и БПФ могут достигать 83,36% и 87,36% соответственно. В дополнение к этому, время обучения модели на основе спектрограммы (20 минут) намного короче, чем у модели на основе IQ / FFT (один час), что указывает на то, что стоимость обучения может быть значительно снижена.Мы экспериментально демонстрируем, что CFO работает нестабильно и снижает производительность системы. Мы создали индивидуальную настройку, соединив LoRa DUT и USRP с аттенюатором для устранения канальных эффектов. Финансовый директор меняется в короткие сроки, но остается относительно стабильным в долгосрочной перспективе. Компенсация CFO оказалась эффективной для смягчения снижения производительности, что может повысить точность классификации с 75,59% до 96,44% для схемы на основе спектрограммы CNN.
Мы разрабатываем гибридный классификатор на основе вывода softmax и финансового директора для дальнейшего повышения точности классификации.CNN может быть неуверенным, если некоторые устройства имеют очень похожие аппаратные характеристики и их выходная вероятность softmax будет близкой. Поскольку финансовый директор имеет долгосрочную стабильность, мы калибруем вывод CNN в соответствии с предполагаемым финансовым директором. Разработанный гибридный классификатор может значительно улучшить производительность системы, а именно с 83,36% до 92,01% в лучшем случае для RFFI на основе IQ.
Остальная часть статьи организована следующим образом. Раздел II кратко знакомит с предысторией модуляции LoRa и спектрограммы.Затем мы представляем операции приемника LoRa в Разделе III. Детали проекта системы RFFI и архитектуры CNN представлены в Разделе IV и Разделе V, соответственно. В Разделе VI мы экспериментально демонстрируем смещение CFO и его влияние на стабильность RFFI, а в Разделе VII производительность предлагаемых систем RFFI тщательно оценивается в реальной беспроводной среде. Работа завершается в Разделе VIII.
IV Система РФФИ
Архитектура предлагаемой системы РФФИ представлена на рис.2. В этом разделе подробно описывается каждый шаг.
Рис. 2: Схема RFFI на основе CNN. Компенсация финансового директора принимается.IV-A Синхронизация и компенсация финансового директора
Синхронизация обнаруживает поступление сигнала и определяет местонахождение пакета, полагаясь на повторяющиеся преамбулы, что является стандартным процессом в системе связи. Заинтересованные читатели, пожалуйста, обратитесь к работе [36] для получения более подробной информации.
Оценка и компенсацияCFO также являются стандартными процедурами в системах беспроводной связи.Однако в некоторых предыдущих исследованиях эти шаги не выполнялись, поскольку в них напрямую использовались необработанные образцы IQ. Некоторые работы также использовали CFO как одну из функций RFF [7, 8, 9, 10, 11] . Однако исследования также показали, что CFO может вызвать снижение производительности [28] . Влияние CFO на RFFI для недорогих устройств IoT экспериментально не исследовано.
Мы приняли алгоритмы оценки и компенсации финансового директора, представленные в разделе III-B. Во время обучения создается база данных CFO, которая содержит предполагаемый CFO каждого DUT.Эта база данных финансового директора будет использоваться для гибридного классификатора, который будет представлен в Разделе IV-E.
IV-B Нормализация
СистемыRFFI не должны различать устройства по разнице мощности, поскольку мощность сигнала зависит от расстояния. Нормализация — стандартный процесс в РФФИ. Нормализованный сигнал s [n] можно представить как
с [n] = r ′ ′ [n] xrms, | (17) |
, где xrms — это среднеквадратическое значение амплитуды r ′ ′ [n].
Представление сигнала IV-C
Представление сигнала использует алгоритмы обработки сигнала для выявления основных характеристик сигнала, которые может лучше изучить классификатор. В этом документе используется только преамбула, чтобы предотвратить знания, специфичные для протоколов и данных, в модели глубокого обучения.
Образцы Iv-C1 IQ
отсчетов IQ представляют сигналы временной области, которые захватываются непосредственно из цепочки приемника. Некоторая предыдущая работа была нацелена на разработку систем RFFI, не зависящих от протокола, без учета схем физической модуляции, поэтому они используют выборки IQ в качестве системных входов [17, 18, 19, 20, 21] .
IV-C2 Результаты БПФ
FFT преобразует сигнал временной области в частотную. Особенности, которые не очевидны во временной области, можно легко наблюдать в частотной области. Коэффициенты БПФ легко доступны в системах WiFi OFDM
[21] .IV-C3 Спектрограмма
Спектрограмма может быть лучшим представлением сигнала для сигналов LoRa, поскольку она преобразует выборки IQ во временной области в характеристики частотно-временной области, которые не только предоставляют информацию в частотной области, но также показывают, как она изменяется во времени.Было обнаружено, что логарифмическое сжатие величин эффективно для повышения производительности и является стандартной стратегией при предварительной обработке спектрограмм [37] , которые также используются в этой статье.
Сверточная нейронная сеть IV-D
CNN привлекла множество исследовательских интересов как в академических кругах, так и в промышленности благодаря своим превосходным характеристикам в распознавании изображений и компьютерном зрении. Он может автоматически находить закономерности в данных, что устраняет необходимость в ручном извлечении признаков.CNN обычно состоит из сверточных слоев, полностью связанных слоев, а также из нескольких слоев объединения, которые сокращают количество параметров для предотвращения переобучения. Сверточный и объединяющий слои действуют как средство извлечения признаков, которое напрямую извлекает признаки из входных данных. Затем извлеченные высокоуровневые объекты передаются в полносвязные слои для классификации.
В задачах классификации функция softmax обычно используется на последнем уровне CNN для отображения ее выходных данных в список вероятностей S = (S1, S2 ,…, SK) по всем прогнозируемым классам. Sk — это прогнозируемая вероятность k-го класса, которая математически может быть выражена как
Sk = σ (z) k = ezk∑Kj = 1ezjfork | = 1,2, …, К, | (18) |
, где K — количество классов, а z = (z1, z2, …, zK) — это выход слоя до активации softmax. Наиболее распространенный способ сделать прогноз — выбрать класс с наибольшей вероятностью в качестве окончательной прогнозируемой метки.
Архитектура CNN, используемая в этой статье, будет разработана в Разделе V.
Гибридный классификатор IV-E
CNN не может точно различать устройства, аппаратные характеристики которых очень похожи, особенно если они от одного производителя. Тогда вероятности выхода этих классов близки друг к другу, например, S1 = 0,51 и S2 = 0,49. В этом случае простой выбор устройства с наибольшей вероятностью может привести к ошибочной классификации.
Как мы продемонстрируем позже в разделе VI и на рис.6, средние значения CFO в разные дни оставались относительно стабильными. Следовательно, это вдохновляет нас использовать предполагаемый финансовый директор для калибровки прогнозов CNN.
Мы предлагаем гибридный классификатор для исключения ненадежных прогнозов, полученных классификатором CNN, который описан в алгоритме 1. Сначала мы создаем справочную базу данных CFO для всех K устройств на этапе обучения, а именно {Δˆfk}. Затем для каждого DUT на этапе классификации мы оценим его CFO, {ΔˆfDUT}, и сравним его с базой данных CFO.Операцию можно сформулировать как проверку гипотезы
∣∣ΔˆfDUT − Δˆfk∣∣h2≷H0λ, | (19) |
, где λ — предопределенный порог, основанный на диапазоне изменений CFO. Гипотеза h2 означает, что пакет невозможно отправить с k-го устройства из-за большой разницы между ΔˆfDUT и эталонным Δˆfk. Когда это происходит, вероятность k-го класса Sk устанавливается равной нулю. Напротив, гипотеза H0 означает, что прогноз CNN верен, поэтому Sk сохраняет исходное значение.После такой калибровки устройство с наибольшей вероятностью в S выбирается в качестве окончательной прогнозируемой метки.
1: S, выход softmax, который обозначает вероятность каждого устройства;
2: ΔˆfDUT, расчетный финансовый директор DUT;
3: Δˆfk, эталонный CFO k-го устройства, хранящийся в базе данных;
4: λ, порог финансового директора.
5: l, В конце концов предсказанный лейбл.
6: от k = 1 до K сделать
7: если ∣∣ΔˆfDUT − Δˆfk∣∣> λ, то
8: Sk = 0
9: еще
10: Sk = Sk
11: конец, если
12: конец для
13: Выберите устройство с наибольшей вероятностью в S в качестве прогнозируемой метки.
Гибридный классификатор алгоритма 1Vi экспериментальные результаты дрейфа финансового директора
РЧ-отпечатки пальцев должны быть неизменными во времени в присутствии изменений окружающей среды, поскольку они представляют личность пользователя. В этом разделе мы экспериментально продемонстрировали, что CFO устройств LoRa смещается со временем, а компенсация CFO является важной процедурой для смягчения деградации производительности.
Vi-a Экспериментальная установка
Мы использовали десять устройств LoRa двух моделей, а именно пять mbed-экранов SX1272MB2xAS и пять mbed-экранов SX126xMB2xAS, как указано в таблице I и показано на рис.(а) а. Все устройства LoRa были настроены с SF = 7, полосой пропускания B = 125 кГц и несущей частотой fc = 868,1 МГц. Приемник представлял собой USRP N210 SDR и был сконфигурирован с несущей частотой fc = 868,1 МГц и частотой дискретизации 1 мс / с. Мы использовали пакет поддержки Communications Toolbox для USRP Radio от Matlab для управления USRP и доступа к образцам IQ из него. Чтобы устранить канальные эффекты и сосредоточиться на вариациях CFO, мы создали индивидуальную настройку, соединив LoRa DUT и приемник USRP N210 с помощью аттенюатора 40 дБ, как показано на рис.(б) б.
ТАБЛИЦА I: LoRa DUT.(а) | (б) |
Сбор данных для каждого устройства длился около часа и повторялся в течение четырех дней. Интервал передачи был установлен на 1 секунду, и 3000 пакетов были собраны примерно за один час, учитывая продолжительность пакета и время обработки. Мы назвали четыре набора данных наборами данных Day 1, Day 2, Day 3 и Day 4.
Vi-B Дрейф финансового директора
Дрейф финансового директора демонстрируется с двух сторон, а именно с краткосрочным и долгосрочным изменением. Кратковременная вариация относится к CFO устройств, которые быстро меняются в течение короткого времени после их включения, в то время как долговременная вариация показывает, что средний финансовый директор дрейфует в течение четырех дней, но остается относительно стабильным.
Vi-B1 Кратковременная вариация
Мы проанализировали набор данных дня 1 в качестве примера, чтобы увидеть, как финансовый директор меняется в течение одного часа.Финансовый директор каждого пакета оценивался с использованием алгоритма, представленного в разделе III-B. Как показано на рис. 5, CFO каждого устройства уменьшался в течение первых 20 минут, а затем оставался относительно постоянным. Это разумно, потому что температура постепенно увеличивается после включения устройства (самонагрев), а генератор чувствителен к колебаниям температуры [29] .
(а) | (б) |
Vi-B2, долговременная вариация
Мы дополнительно исследовали дрейфы финансовых директоров в разные дни. Мы оценили CFO пакетов, собранных в тот же день, и вычислили среднее значение. Результаты показаны на рис. 6. В разные дни наблюдается заметная и непредсказуемая смена финансового директора. Дрейф, вероятно, вызван неконтролируемыми изменениями температуры в помещении. Длительное изменение указывает на то, что точность классификации может снизиться, если данные обучения и тестирования не собираются в один и тот же день, поскольку у них, вероятно, разные финансовые директора.
(а) | (б) |
Однако можно также отметить, что их средний финансовый директор оставался относительно стабильным в течение четырех дней. Хотя изменяющийся во времени CFO может не подходить в качестве идентификатора устройства, его можно использовать для облегчения классификации, исключая устройства, расчетный CFO которых слишком сильно отклоняется от диапазона.
Vi-C Влияние ухода финансового директора на RFFI
Мы провели обширные эксперименты, чтобы оценить влияние финансового директора на RFFI.Мы использовали спектрограммы восьми преамбул и модель CNN, показанную на рис. (А) а.
CNN была обучена с использованием первых 1000 пакетов каждого устройства (всего 1000 × 10 пакетов) из набора данных первого дня, из которых 90% были случайным образом выбраны для обучения, а остальные 10% были для проверки. Затем мы использовали еще 1000 пакетов каждого устройства из набора данных первого дня для тестирования обученного классификатора CNN. Для наборов данных дней 2–4 в качестве тестовых данных использовались первые 1000 пакетов каждого устройства. Это позволило нам оценить обученный классификатор CNN с пакетами, собранными в четыре разных дня.
На рис. 7 показаны матрицы неточностей, полученные классификатором CNN-only, когда компенсация CFO не применялась. Рис. (a) a, (b) b, (c) c и (d) d представляют результаты классификации, когда данные теста были собраны в день 1, день 2, день 3 и день 4, соответственно. Когда обучающая и тестовая наборы были собраны в один и тот же день (рис. (А) а), точность классификации достигла 99,57%, что почти не было ошибкой классификации. Однако, когда данные для обучения и тестирования были собраны в разные дни (рис.(b) b, (c) c и (d) d) результаты классификации были неприемлемыми, поскольку несколько устройств были полностью неправильно классифицированы, например, Dev 3 и Dev 5 на рис. (d) d.
Рис. 7: Экспериментальные результаты без компенсации CFO (классификатор только для CNN). (a) Тренировка в день 1, тест в день 1, общая точность: 99,57%. (b) День 1 Тренировка, День 2 Тест, общая точность: 78,84%. (c) День 1 Тренировки, День 3 Тест, общая точность: 85,32%. (d) День 1 Тренировки, День 4 Тест, общая точность: 77,83%.Худший случай произошел в День 4 (Рис.(d) d) где пакеты от Dev 3 и Dev 5 были полностью неправильно классифицированы. Как показано на рис. 8, можно заметить, что финансовый директор Dev 3 и Dev 5 сместился на сотни герц от дня 1 до дня 4. Финансовый директор Dev 3 в тестовых данных (фиолетовая линия) был ближе к Dev 2. (красная линия) в данных обучения. Точно так же финансовый директор Dev 5 (оранжевая линия) в тестовых данных был ближе к Dev 4 (розовая линия) в обучающих данных. Предполагается, что уход финансового директора был основной причиной снижения производительности, а небольшой уход финансового директора мог бы заставить классификатор принять неправильное решение.
Рис. 8: Сравнение финансового директора между данными тренировки дня 1 и данными теста дня 4.На рис. 9 показаны матрицы неточностей, полученные классификатором CNN-only после применения компенсации CFO. По сравнению с результатами на рис. 7, после компенсации CFO ухудшение производительности не наблюдается, точность всегда сохраняется выше 96% в течение четырех дней. Эти результаты показывают, что CNN может идентифицировать различные устройства с высокой точностью после компенсации CFO и снижения производительности.
Рис. 9: Экспериментальные результаты с компенсацией CFO (классификатор только для CNN). (a) Тренировка в день 1, тест в день 1, общая точность: 98,89%. (b) День 1 Тренировка, День 2 Тест, общая точность: 98,05%. (c) День 1 Тренировки, День 3 Тест, общая точность: 96,73%. (d) День 1 Тренировки, День 4 Тест, общая точность: 96,93%.Vii Экспериментальные оценки в реальной беспроводной среде
В разделе VI LoRa DUT и USRP были подключены с помощью аттенюатора, что позволило нам исследовать влияние CFO на RFFI без влияния канала.Однако это не практический сценарий применения. Следовательно, в этом разделе наша предлагаемая система RFFI на основе спектрограмм оценивается в реальной беспроводной среде. Во-первых, мы сравним производительность трех представлений сигналов, представленных в Разделе IV-C. Затем мы дополнительно оцениваем влияние финансового директора в беспроводной среде и демонстрируем, что компенсация финансового директора является важным шагом в системах RFFI на основе глубокого обучения. Наконец, экспериментально продемонстрирована калибровочная функция предлагаемого гибридного классификатора.
Vii-a Экспериментальная установка
В этом разделе мы увеличили количество LoRa DUT до 20. Как показано в Таблице I и на Рис. (A) a, эти устройства LoRa были от четырех разных производителей. В качестве приемника использовалась та же платформа USRP N210. Тестируемые устройства LoRa и платформа USRP были настроены с такими же параметрами, как описано в Разделе VI-A. Разница в том, что мы сократили интервал передачи до 0,3 секунды, чтобы ускорить сбор сигнала.
Эксперименты проводились в типичной внутренней среде со стульями и столами, распределенными по комнате.Расстояние между LoRa DUT и приемником USRP составляло примерно три метра, и между ними была прямая видимость (LOS). Мы непрерывно собирали 2000 пакетов с каждого устройства в течение примерно 15 минут. Все устройства были размещены в одном месте, и среда оставалась прежней. Следовательно, для всех передач сигнала можно предположить одно и то же состояние канала.
Мы использовали первые 1000 пакетов каждого устройства в качестве обучающих данных, 90% из которых были случайным образом выбраны для обучения, а остальные 10% предназначались для проверки.Вторая тысяча пакетов каждого устройства использовалась в качестве тестовых данных для оценки системы RFFI. Результаты экспериментов представлены в таблице II. Мы проанализировали результаты по трем аспектам: выбор представлений сигналов, влияние финансового директора в беспроводной среде и характеристики калибровки предлагаемого нами гибридного классификатора.
ТАБЛИЦА II: Экспериментальные результаты. Общая точность классификации.Vii-B Выбор представлений сигналов
Мы сравниваем точность классификации трех представлений сигналов.CNN на основе IQ / FFT имеет аналогичную структуру сети с моделью на основе спектрограмм, поэтому можно провести относительно справедливое сравнение.
Как показано в Таблице II, когда использовались классификаторы только CNN, модель на основе спектрограммы достигла наивысшей точности 96,44%, в то время как модель на основе IQ и БПФ достигла только 83,36% и 87,36% соответственно. Это показывает, что для сигналов LoRa, частотные компоненты которых изменяются во времени, отпечатки устройства могут быть легче обнаружены в частотно-временной области.
Помимо результатов классификации, представленных в таблице II, мы обнаружили, что время обучения нашей модели на основе спектрограммы и модели на основе IQ / FFT составляло около 20 минут и один час, соответственно, когда обе обучались на одном ПК. В дополнение к этому, потеря модели на основе спектрограммы падает раньше и быстрее, чем модель на основе IQ / FFT. Это еще одно преимущество модели спектрограмма-CNN с точки зрения затрат на обучение.
Vii-C Влияние ухода финансового директора
Как видно из таблицы II, когда не было компенсации CFO, точность систем RFFI на основе IQ, БПФ и спектрограмм составляла всего 59.44%, 51,62% и 75,59% соответственно. После применения компенсации CFO соответствующие точности значительно увеличились до 83,36%, 87,36% и 96,44% соответственно.
Рис. 10: Финансовый директор каждого пакета в наборе данных Dev 1.Мы возьмем набор данных Dev 1 в качестве примера, чтобы объяснить результаты без компенсации финансового директора. На рис. 10 показан CFO каждого пакета, собранного из Dev 1, и представлен аналогичный шаблон с рис. 5
, где CFO непрерывно уменьшался после включения устройства.В экспериментах с беспроводной связью мы использовали пакет 1–1000 для обучения CNN и пакет 1,001–2000 для оценки его производительности. Однако пакеты в тестовом наборе имеют разные финансовые директора по сравнению с пакетами в обучающем наборе. Другими словами, тестовые данные имеют другое распределение от обучающих данных. В задачах машинного обучения наборы для обучения и тестирования часто должны иметь одинаковое, по крайней мере, схожее распределение данных, в противном случае обученная модель столкнется с серьезными проблемами обобщения. Это также может быть причиной низкой точности классификации в
[28] , когда компенсация CFO не задействована.(а) | (б) |
Затем мы проверяем аргумент о том, что обучающие данные и тестовые данные имеют разное распределение, используя известный алгоритм визуализации t-SNE. Результат визуализации показан на рисунке 11, на котором каждая точка представляет пакет, собранный из Dev 1. Всего имеется 2000 точек, красные точки представляют пакеты 1-1000 (обучающие данные), а синие точки представляют пакеты 1 001-2000 ( данные испытаний).Из рис. (А) а видно, что существует четыре отдельных кластера, когда нет компенсации CFO, что указывает на то, что обучающие данные и тестовые данные имеют разные функции / распределения. Напротив, как показано на рис. (B) b, синие и красные точки смешиваются после компенсации CFO и не могут быть разделены интуитивно. Это то, что мы ожидали, потому что функции каждого устройства должны быть неизменными во времени, то есть первые 1000 пакетов должны иметь те же функции, что и вторые 1000 пакетов, что приводит к перекрытию в визуализации.
Vii-D Эффективность гибридного классификатора
Гибридный классификатор, представленный в Разделе IV-E, калибрует выход softmax CNN в соответствии с оценкой финансового директора. Как показано на рис. 6, финансовый директор меняется в разные дни, и некоторые устройства могут иметь схожие финансовые директора, поэтому его нельзя использовать в качестве отпечатка пальца для идентификации множества недорогих устройств IoT. Однако средние значения CFO остаются относительно стабильными в небольшом диапазоне, который можно использовать для калибровки, чтобы исключить прогнозы, расчетный CFO которых сильно отличается от эталонного.
Как показано в таблице II, можно заметить, что гибридный классификатор может повысить точность для всех трех представлений сигналов. Наиболее значительным улучшением стал входной тип выборок IQ после применения компенсации CFO: точность с гибридным классификатором для данных IQ достигла 92,01%, а точность с использованием классификатора только для CNN составила 83,36%, что на 8,65% лучше. Для сигнального представления результатов БПФ было улучшение точности с 87,36% до 92.31%, а для спектрограммы точность увеличилась с 96,44% до 97,61%.
Также замечено, что гибридный классификатор не работает, когда не было компенсации финансового директора. Это разумно, потому что финансовый директор внес свой вклад в прогноз, когда компенсация не задействована, а гибридный классификатор не может предоставить дополнительную полезную информацию.
Viii Заключение
В этой статье мы предложили систему RFFI на основе спектрограмм и провели обширные экспериментальные оценки.Мы использовали 20 устройств LoRa четырех моделей в качестве тестируемых устройств и USRP N210 SDR в качестве приемника. Во-первых, поскольку LoRa использует модуляцию ЛЧМ, мы использовали спектрограмму для представления частотно-временных характеристик сигналов LoRa. Мы обнаружили, что использование спектрограммы может обеспечить лучшую точность классификации по сравнению с выборками IQ и результатами БПФ. Во-вторых, мы экспериментально обнаружили, что CFO нестабилен, поскольку он менялся со временем, вероятно, из-за изменений температуры. Следовательно, это поставит под угрозу стабильность системы.Экспериментально было обнаружено, что компенсация CFO эффективна для смягчения снижения производительности. Наконец, мы предложили гибридный классификатор, который калибрует выход softmax CNN с использованием предполагаемого CFO. Хотя финансовый директор меняется со временем, его среднее значение остается относительно стабильным в течение нескольких дней. Финансовый директор должен получать компенсацию, чтобы избежать ухудшения производительности, но это полезно для исключения прогнозов, когда предполагаемый финансовый директор сильно отклоняется от эталонного финансового директора. Наша предложенная система RFFI наконец достигла точности классификации 97.61% в распознавании 20 устройств LoRa в реальных беспроводных средах.
Благодарность
Работа частично поддержана исследовательскими грантами Королевского общества Великобритании в рамках гранта ID RGS / R1 / 191241 и национальной программой ключевых исследований и разработок Китая в рамках гранта 2020YFE0200600.
Название: | Новый алгоритм обнаружения дрейфа, основанный на анализе важности признаков в среде потоков данных | Авторы: | Дуда, Петр Пшибышевский, Кшиштоф Ван, Липо | Ключевые слова: | Инженерия :: Информатика и инженерия | Дата выдачи: | 2020 | Источник: | Дуда П., Пшибышевский, К., и Ван, Л. (2020). Новый алгоритм обнаружения дрейфа, основанный на анализе важности функций в среде потоков данных. Журнал исследований искусственного интеллекта и мягких вычислений, 10 (4), 287-298. DOI: 10.2478 / jaiscr-2020-0019 | Журнал: | Журнал исследований искусственного интеллекта и мягких вычислений | Реферат: | Обучающая выборка состоит из множества признаков, которые в разной степени влияют на классификатор. Выбор наиболее важных функций и отклонение тех, которые не несут релевантную информацию, имеет большое значение для работы изученной модели.В случае потоков данных важность функций может дополнительно измениться со временем. Такие изменения влияют на производительность классификатора, но также могут быть важным индикатором происходящего дрейфа концепций. В этой работе мы предлагаем новый алгоритм классификации потоков данных, называемый «Случайный лес с важностью функций» (RFFI), который использует меру важности функций в качестве детектора смещения. Алгоритм RFFT реализует решения, вдохновленные алгоритмом случайного леса, для сценариев потока данных.Предлагаемый алгоритм сочетает в себе возможности ансамблевых методов обработки медленных изменений в потоке данных с новым методом обнаружения возникновения дрейфа концепций. Работа содержит экспериментальный анализ предложенного алгоритма, проведенный на синтетических и реальных данных. | URI: | https://hdl.handle.net/10356/145350 | ISSN: | 2083-2567 | DOI: | 10.2478 / jaiscr-2020-0019 | Права: | © 2020 Автор (ы) (опубликовано Sciendo).Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution License. | Разрешение на полный текст: | открыть | Полнотекстовый доступ: | С полным текстом |
Встречается в коллекциях: | Статьи журнала EEE |
Математика деревьев решений, случайный лес и важность функций в Scikit-learn и Spark | Автор: Стейси Ронаган
В этом посте делается попытка консолидировать информацию об алгоритмах дерева и их реализациях в Scikit-learn и Spark.В частности, он был написан для разъяснения того, как рассчитывается важность функции.
В Интернете есть много замечательных ресурсов, обсуждающих, как создаются деревья решений и случайные леса, и этот пост не предназначен для этого. Хотя он включает короткие определения контекста, предполагается, что читатель понимает эти концепции и желает знать, как алгоритмы реализованы в Scikit-learn и Spark.
Итак, давайте начнем с…
Деревья решенийДеревья решений узнают, как лучше всего разбить набор данных на все меньшие и меньшие подмножества, чтобы предсказать целевое значение.Условие или тест представлен как «лист» (узел), а возможные результаты — как «ветви» (ребра). Этот процесс разделения продолжается до тех пор, пока не станет невозможным дальнейшее усиление или пока не будет выполнено заданное правило, например достигается максимальная глубина дерева.
Алгоритмы дерева решенийСуществует несколько алгоритмов, и документация scikit-learn предоставляет обзор некоторых из них (ссылка)
Итак, что используют Scikit-learn и Spark?
В документации Scikit-learn говорится, что используется «оптимизированная версия алгоритма CART».Хотя это явно не упоминается в документации, было сделано предположение, что Spark использует ID3 с CART.
Итак, давайте сосредоточимся на этих двух — ID3 и CART.
Преимущества и недостатки взяты из статьи «Сравнительное исследование ID3, CART и C4.5. Алгоритм дерева решений: обзор». Там же можно найти более подробные определения.
ID3
Алгоритм создает многостороннее дерево — каждый узел может иметь два или более ребра — находя категориальный признак, который максимизирует прирост информации с использованием критерия примеси энтропии .Он не только не может обрабатывать числовые функции, он подходит только для задач классификации.
Преимущества
- Понятные правила прогнозирования создаются из обучающих данных
- Строит самое быстрое дерево
- Строит короткое дерево
- Требуется только достаточное количество атрибутов, пока все данные не будут классифицированы.
- Поиск конечных узлов позволяет сократить тестовые данные, сокращение количества тестов
- Поиск по всему набору данных для создания дерева
Недостатки
- Данные могут быть слишком подогнаны или классифицированы, если тестируется небольшая выборка
- Только один атрибут за раз проверяется для создания решение
- Не обрабатывает числовые атрибуты и отсутствующие значения.
CART
CART обозначает деревья классификации и регрессии.Алгоритм создает двоичное дерево — каждый узел имеет ровно два исходящих ребра — находя лучший числовой или категориальный признак для разделения с использованием соответствующего критерия примеси. Для классификации можно использовать примесь Джини или критерий двойственности . Для регрессии CART ввел сокращение отклонения с использованием наименьших квадратов (среднеквадратичная ошибка).
Преимущества
- CART может легко обрабатывать как числовые, так и категориальные переменные
- Алгоритм CART сам определяет наиболее значимые переменные и устраняет незначимые
- CART может легко обрабатывать выбросы
Недостатки
- CART может иметь нестабильную дерево решений
- CART разделяется по одной переменной
И Scikit-learn, и Spark предоставляют информацию в своей документации о формулах, используемых для критерия примеси.Для классификации они оба используют примесь Джини по умолчанию, но предлагают энтропию в качестве альтернативы. Для регрессии оба вычисляют уменьшение дисперсии с использованием среднеквадратической ошибки. Кроме того, уменьшение дисперсии может быть рассчитано с помощью средней абсолютной ошибки в Scikit-learn.
Формулы примесей, используемые Scikit-learn и SparkСсылки на документацию по древовидным алгоритмам
Прирост информации
Еще один термин, на который стоит обратить внимание, — это «прирост информации», который используется для разделения данных с использованием энтропии.Он рассчитывается как уменьшение энтропии после разделения набора данных по атрибуту:
Прирост (T, X) = энтропия (T) — энтропия (T, X)
- T = целевая переменная
- X = Признак, который нужно разделить на
- Энтропия (T, X) = энтропия, вычисленная после разделения данных на признаке X
Случайные леса (RF) создают множество отдельных деревьев решений при обучении. Прогнозы по всем деревьям объединяются, чтобы сделать окончательный прогноз; режим классов для классификации или прогноз среднего для регрессии.Поскольку они используют набор результатов для принятия окончательного решения, они называются методами ансамбля.
Важность функцииВажность функции рассчитывается как уменьшение примеси узла, взвешенное по вероятности достижения этого узла. Вероятность узла можно рассчитать делением количества выборок, которые достигают узла, на общее количество выборок. Чем выше значение, тем важнее характеристика.
Реализация в Scikit-learn
Для каждого дерева решений Scikit-learn вычисляет важность узлов с использованием значения Джини, предполагая только два дочерних узла (двоичное дерево):
- ni sub (j) = важность узел j
- w sub (j) = взвешенное количество выборок, достигающих узла j
- C sub (j) = значение примеси узла j
- слева (j) = дочерний узел слева, разделенный на узле j
- справа ( j) = дочерний узел из правого разделения на узле j
sub () используется, поскольку индекс недоступен в Medium
См. метод compute_feature_importances в _tree.pyx
Затем важность каждой функции в дереве решений вычисляется как:
- fi sub (i) = важность функции i
- ni sub (j) = важность узла j
Затем они могут можно нормализовать до значения от 0 до 1 путем деления на сумму всех значений важности функций:
Окончательная важность функции на уровне случайного леса — это среднее значение по всем деревьям. Сумма значения важности признака для каждого дерева вычисляется и делится на общее количество деревьев:
- RFfi sub (i) = важность признака i, рассчитанная по всем деревьям в модели случайного леса
- normfi sub (ij ) = нормализованная важность функции для i в дереве j
- T = общее количество деревьев
См. метод feature_importances_ в лесу.py
Нотация была вдохновлена этой веткой StackExchange , которую я нашел невероятно полезной для этого поста.
Реализация в Spark
Для каждого дерева решений Spark вычисляет важность функции путем суммирования усиления, масштабированного по количеству выборок, проходящих через узел:
- fi sub (i) = важность функции i
- s sub (j) = количество выборок, достигающих узла j
- C sub (j) = значение примеси узла j
См. Метод computeFeatureImportance в treeModels.scala
Чтобы вычислить окончательную важность функции на уровне случайного леса, сначала важность функции для каждого дерева нормализуется по отношению к дереву:
- normfi sub (i) = нормализованная важность функции i
- fi sub ( i) = важность признака i
Затем значения важности признака из каждого дерева суммируются нормализованно:
- RFfi sub (i) = важность признака i, вычисляемая по всем деревьям в модели случайного леса
- normfi sub ( ij) = нормализованная важность функции для i в дереве j
См. метод featureImportances в treeModels.scala
Заключение
Целью данной модели было объяснить, как Scikit-Learn и Spark реализуют деревья решений и вычисляют значения важности функций.
Надеюсь, что, дойдя до конца этого поста, вы лучше понимаете соответствующие алгоритмы дерева решений и критерий примеси, а также формулы, используемые для определения важности каждой функции в модели.
Классификация COVID-19 на уровне округа с несбалансированным классом: метод неполной выборки
Аннотация
Пандемия COVID-19, разразившаяся в конце 2019 года, распространилась по всему миру.Болезнь заразила миллионы людей. Погибли тысячи людей. Распространение болезни было замедлено введением вакцины. Однако в некоторых странах по-прежнему регистрируется большое количество жертв. Основное внимание в этой работе уделяется проектированию, разработке и оценке классификатора тяжести COVID-19 на уровне округа с использованием машинного обучения. Предлагаемая модель позволяет прогнозировать степень тяжести заболевания в округе на низкую, среднюю или высокую. Лица, определяющие политику, сочтут эту работу полезной при распределении вакцин.Были обучены и оценены четыре алгоритма обучения (два ансамбля и два неансамбля). Несбалансированность классов была устранена с использованием неполной выборки большинства классов NearMiss. Результат нашего эксперимента показывает, что ансамблевые модели значительно превзошли неансамблевые модели.
I. ВВЕДЕНИЕ
С момента начала пандемии коронавируса Центры по контролю и профилактике заболеваний (CDC) зарегистрировали около 30 миллионов случаев. Из-за COVID-19 были потеряны тысячи жизней [1].Хотя Соединенным Штатам и другим развитым странам удалось изменить кривую смертности, появляющиеся данные свидетельствуют о том, что в некоторых странах болезнь только укореняется. По состоянию на 19 мая 2021 года Мексика превысила показатель смертности с 9,3%. На втором месте находится Перу с 3% и 3,5%. Италия и Иран заняли третье и четвертое места с 3% и 2,8% соответственно. Происхождение этой пандемии — постоянное исследование; однако большинство ученых считают, что он произошел от летучей мыши в Ухане, Китай.
Теперь возникает вопрос: как мы классифицируем тяжесть смертельного исхода от COVID-19 в округе? Мы ответили на этот вопрос, построив классификатор машинного обучения с использованием набора данных о смертности из 3006 округов США.Набор данных был получен из репозитория Университета Джона Хопкинса.
Алгоритмы машинного обучения продемонстрировали способность изучать закономерности и находить знания из набора данных. Он использовался для распознавания изображений, обнаружения мошенничества, распознавания голоса, обнаружения вредоносных программ и т. Д. С момента начала пандемии коронавируса было проведено несколько исследований с использованием алгоритмов машинного обучения, чтобы понять пандемию и разработать стратегии по сокращению ее распространения.
Автор [2] предложил количественную модель для прогнозирования уязвимости к COVID-19 с использованием геномов.В качестве алгоритмов обучения использовались нейронные сети и случайные леса. Результат исследования подтвердил предыдущую работу по фенотипическим коморбидным моделям восприимчивости к COVID-19. В другом исследовании Kexin изучил девятнадцать факторов риска, связанных с серьезностью COVID-19. Результат показал, что степень тяжести связана с характеристиками человека, факторами болезни и биомаркерами [3]. Hina et al. Предложили модель для прогнозирования тяжести COVID-19 у пациентов в Пакистане. Были обучены и оценены семь алгоритмов обучения.Результат эксперимента показал, что Random Forest показал лучшую производительность с точностью 60%.
Несмотря на то, что существует несколько исследований серьезности COVID-19, в литературе по машинному обучению, похоже, есть пробел в несбалансированной классификации серьезности COVID-19 на уровне округов. Поэтому в центре внимания данного исследования находится классификация COVID-19 по алгоритмическому дисбалансу округа на низкий, средний или высокий. Мы предположили, что ансамблевое обучение в сочетании с недостаточно тщательно отобранным классом большинства из набора данных о дисбалансе COVID-19 имеет превосходные возможности для прогнозирования серьезности COVID-19 на уровне округа .
Мы проверили нашу гипотезу, экспериментируя с алгоритмами ансамблевого и неансамблевого обучения. Случайный лес и деревья роста были обучены и оценены как наша модель ансамбля, в то время как логистическая регрессия и K ближайших соседей как модели без ансамбля.
Этот документ организован следующим образом: Раздел 2 описывает методологию исследования. Обсуждения и выводы выделены в разделах 3 и 4 соответственно. Наконец, мы указали источник нашего финансирования в разделе 5.
II. МЕТОГОЛОГИЯ
Ниже представлена экспериментальная блок-схема исследования. На схеме показан информационный поток эксперимента. Были обучены и оценены четыре модели. Также было проведено сравнение производительности моделей.
Рис. 1. Схема эксперимента1. Набор данных
Набор данныхбыл получен из репозитория COVID-19 Университета Джона Хопкинса [4]. Набор данных был очищен на этапе обработки. Нечисловые переменные были преобразованы в числовые переменные.Данные состояли из 3 006 округов США. Незначительные и избыточные функции были исключены на этапе очистки. Нормализация тоже была сделана.
2. Категоризация
Тяжесть COVID-19 была измерена с использованием коэффициента летальности в качестве переменной ответа. Уровень смертности, зарегистрированный в наборе данных, был непрерывной переменной. Таким образом, атрибуты были разделены на 3 группы по следующему критерию: округа с уровнем смертности менее 1 были отнесены к категории с низким уровнем (0 Вышеупомянутая категоризация привела к неравномерному распределению классов. Эта асимметрия распределения классов называется дисбалансом классов. В наборе данных дисбаланса есть один или несколько классов с низкими записями (класс меньшинства) и один или несколько классов с большим количеством записей (класс большинства).Было показано, что несбалансированность классов оказывает значительное негативное влияние на эффективность алгоритма обучения. Вопрос в том, как сбалансировать набор данных? Несбалансированные данные могут быть уравновешены избыточной выборкой класса меньшинства или недостаточной выборкой класса большинства. В подходе с передискретизацией создается больше данных, чтобы увеличить размер записей класса меньшинства, чтобы они сравнялись с записями класса большинства.Однако такой подход чреват переоснащением. С другой стороны, при недостаточной выборке размер большинства классов уменьшается, чтобы сбалансировать распределение классов. Мы считаем, что это лучший подход. Поэтому в этом исследовании мы использовали стратегию «Непредвиденная неполная выборка» (NMU). Выбор NMU основан на расстоянии между записями большинства и записями меньшинства. Это подход k ближайших соседей. Расстояние основано на мерке евклидова расстояния. У NMU есть три версии: версия 1, версия 2 и версия 3.Версия 1 основана на наименьшем среднем расстоянии между классом большинства и тремя ближайшими записями класса меньшинства. Версия 2 выбирает записи из класса большинства с наибольшим удалением от трех классов меньшинства. Наконец, в версии 3 для каждого ближайшего примера в классе меньшинства выбирается заданное количество представителей большинства. В этом исследовании используется версия 1. Результат нашего эксперимента показывает эффективность нашей стратегии. Использовалась функция NearMiss из библиотеки imblearn.under_sampling. Мы обучили и оценили 2 алгоритма обучения ансамбля (случайный лес и усиление). Мы также обучили и оценили 2 не-ансамбля (логистическая регрессия и K ближайших соседей). Набор данных был разделен на 90% и 10% для обучения и тестирования соответственно. Оценка производительности была основана на точности, отзывчивости, точности и балле F1. Мы обучили и оценили производительность 4 алгоритмов обучения. В наборе данных с переменной ответа y y и X векторов признаков, алгоритм обучения KNN определяет K точек в наборе обучающих данных, которые наиболее близки к новой точке данных тестирования x 0 . Где j — предполагаемый ответ, а y i — цель (метка). N 0 — это K точек. В нашем эксперименте 5 было выбрано в качестве значения K.Кроме того, мы использовали MixedMeasures для типов мер. Евклидово расстояние использовалось в качестве метрики расстояния. [5] Где d представляет расстояние, x и y — 2 точки данных. Производительность алгоритма обучения KNN показана в таблице 1. По всем критериям оценки результат предполагает, что средний класс имеет самый низкий прогноз. Оценка точности составила примерно 0,61. Логистическая регрессия — это контролируемый алгоритм обучения для прогнозирования вероятности целевой переменной.В задаче с двумя классами целевая или зависимая переменная является дихотомической, что означает, что будет всего два потенциальных класса [6]. Логистическая функция выдает результат от 0 до 1. Можно показать, что, Логарифм, где b 0 — член смещения или пересечения, а b 1 — коэффициент для единственного входного значения (x). Регуляризация L2 использовалась в качестве контроля переобучения. Допуск по критерию остановки составлял 1e-4. Оптимизация была основана на lbfgs.В таблице 2 показан результат логистической регрессии. . Как показано в таблице 2. Производительность логистической регрессии хуже, чем у KNN. Случайный лес — это алгоритм обучения с учителем, который используется как для классификации, так и для регрессии. Лес состоит из деревьев, и чем больше деревьев, тем сильнее лес. Агрегирование деревьев решений при ансамблевом обучении обеспечивает лучшую производительность.По сути, расчет случайного леса создает деревья решений на загруженных образцах обучающих данных. а затем получает прогноз от каждого из них и, наконец, выбирает лучшее решение путем голосования [7]. Это метод ансамбля, который превосходит одиночное дерево решений, поскольку он уменьшает избыточную подгонку за счет усреднения результата. где RFfi i — важность признака i, рассчитанная по всем деревьям, normfi ij — нормализованная важность признака i в дереве j. Таблица 3 показывает, что модель случайного леса превзошла модели KNN и логистической регрессии. Произвольный лес. Boosting Tree Performance Boosting — это метод моделирования ансамбля, который пытается создать твердый классификатор из числа слабых классификаторов. Это делается путем построения модели путем последовательного использования слабых моделей, таких как Случайный лес. Прежде всего, модель строится на основе данных обучения.На этом этапе строится следующая модель, которая пытается устранить ошибки, присутствующие в первой модели. Этот метод продолжается, и модели добавляются до тех пор, пока не будут точно предсказаны общие данные обучения или пока не будет добавлено самое большое количество моделей [8]. Его реализация потребовала от нас 100 для количества деревьев, максимальной глубины 5, минимальных строк 10, минимального улучшения разделения на 1.0E-5, количества бинов, равных 20, скорости обучения 0,01, и частота дискретизации 1. Сравнивалась точность моделей. Для каждой модели мы также взяли средние показатели точности, отзывчивости и оценки F1. В таблице 5 представлена сравнительная таблица. Как показано в результате эксперимента, модели «Случайный лес» и «Дерево повышения» превзошли другие модели. Эти две модели были построены с большим количеством деревьев решений на загруженных обучающих данных. Результаты показывают, что модель Boosting имеет лучшую производительность с 93.41% точности. Показатели, основанные на точности, запоминании и F1, показали среднее значение 93%, 93% и 93% соответственно. Превосходная производительность модели повышения не вызывает удивления, потому что дерево повышения — это большая комбинация деревьев решений, выращиваемых последовательно. Random Forest и Boosting Tree построены на ансамбле деревьев решений. Однако расположение небольших деревьев с несколькими конечными узлами в остатке предыдущей пряди в дереве повышения последовательно улучшает производительность модели. В этом исследовании мы спроектировали, разработали и оценили классификатор тяжести COVID-19 с использованием набора данных класса дисбаланса. Предлагаемая модель позволяет прогнозировать степень тяжести COVID-19 в конкретном округе. Набор данных был получен из репозитория JHU COVID-19. Уровень серьезности COVID-19 был основан на показателях смертности во всех 3006 округах США. Для целей классификации уровень летальности был разделен на низкий, средний и высокий. Класс дисбаланса был рассмотрен с использованием подхода с неполной выборкой (NMU).Были обучены и оценены алгоритмы ансамблевого и неансамблевого обучения. Модели ансамбля включают случайный лес и деревья повышения. В качестве неансамблевых моделей использовались KNN и логистическая регрессия. Результат нашего эксперимента показывает, что ансамблевые модели являются наиболее эффективными при построении классификатора серьезности COVID-19 на уровне округа с использованием несбалансированного набора данных. Таким образом, у нас нет достаточных доказательств против нашей гипотезы. Таким образом, мы утверждаем, что ансамблевое обучение в сочетании с недостаточно тщательно отобранным классом большинства набора данных о дисбалансе COVID-19 имеет превосходные возможности для классификации серьезности COVID-19 на уровне округа . Репозиторий COVID-19 Университета Джона Хопкинса Эта работа финансируется грантом Национального научного фонда № 2032345. TY — JOUR T1 — Обнаружение биомаркеров воспалительных заболеваний кишечника с использованием сетевого выбора признаков AU — Abbas, Mostafa AU — Matta, John AU — Le, Thanh AU — Bensmail, Halima AU — Obafemi-Ajayi, Tayo AU — Honavar, Vasant AU — EL-Manzalawy, Yasser N1 — Информация о финансировании: В.H. была частично поддержана Национальным центром развития трансляционных наук, Национальными институтами здравоохранения, через грант UL1 TR000127 и TR002014 в поддержку Института клинических и трансляционных наук штата Пенсильвания, Национальным научным фондом через гранты 1518732, 1640834 и 1636795; Государственный центр Пенсильвании по аналитике больших данных и информатике открытий, Государственный институт кибернауки Пенсильвании, профессорско-преподавательский состав Эдварда Фримойера в области информационных наук и технологий в Пенсильванском университете и фонд Pratiksha Trust через почетную гостевую кафедру Судха Мурти в области нейрокомпьютеров и наук о данных в Индийском институте науки.ВЫ. при частичной поддержке Центра аналитики больших данных и открытий в области информатики при Государственном университете Пенсильвании и Государственного института клинических и трансляционных наук Пенсильвании. Работа T.L была частично поддержана институциональным матчем по гранту на предварительное обучение T32-LM012415 в области биомедицинских данных Национальной библиотеки медицины и Национальных институтов здравоохранения. Затраты на публикацию были покрыты Катарским исследовательским институтом вычислительной техники. Авторы несут полную ответственность за содержание, которое не обязательно отражает официальную точку зрения финансирующих агентств.Финансирующие организации не играли никакой роли в дизайне исследования, сборе и анализе данных, принятии решения о публикации или подготовке рукописи. Авторские права издателя: © 2019 Аббас и др. Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution License, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии указания автора и источника. PY — 2019/11/1 Y1 — 2019/11/1 N2 — Надежная идентификация воспалительных биомаркеров на основе данных метагеномики является многообещающим направлением для разработки неинвазивных, экономичных и быстрых клинических тестов для ранней диагностики. диагностика ВЗК.Мы представляем интегративный подход к обнаружению сетевых биомаркеров (NBBD), который объединяет методы сетевого анализа для определения приоритетности потенциальных биомаркеров и методы машинного обучения для оценки различительной способности приоритетных биомаркеров. Используя большой набор данных образцов биопсии с новообразованными педиатрическими метагеномными ВЗК, мы сравниваем эффективность классификаторов случайного леса (RF), обученных на особенностях, выбранных с использованием репрезентативного набора традиционных методов выбора признаков, с структурой NBBD, настроенной с использованием пяти различных инструментов для вывода сетей. на основе данных метагеномики, а также девять различных методов приоритезации биомаркеров, а также гибридный подход, сочетающий лучшие традиционные и основанные на NBBD отборе функций.Мы также исследуем, как эффективность прогностических моделей для диагностики ВЗК варьируется в зависимости от размера данных, используемых для идентификации биомаркеров. Наши результаты показывают, что (i) NBBD может конкурировать с некоторыми современными методами выбора признаков, включая оценки важности случайных признаков леса (RFFI); и (ii) NBBD особенно эффективен для надежной идентификации биомаркеров IBD, когда количество образцов данных, доступных для обнаружения биомаркеров, невелико. AB — Надежная идентификация воспалительных биомаркеров на основе данных метагеномики — многообещающее направление для разработки неинвазивных, экономичных и быстрых клинических тестов для ранней диагностики ВЗК.Мы представляем интегративный подход к обнаружению сетевых биомаркеров (NBBD), который объединяет методы сетевого анализа для определения приоритетности потенциальных биомаркеров и методы машинного обучения для оценки различительной способности приоритетных биомаркеров. Используя большой набор данных образцов биопсии с новообразованными педиатрическими метагеномными ВЗК, мы сравниваем эффективность классификаторов случайного леса (RF), обученных на особенностях, выбранных с использованием репрезентативного набора традиционных методов выбора признаков, с структурой NBBD, настроенной с использованием пяти различных инструментов для вывода сетей. на основе данных метагеномики, а также девять различных методов приоритезации биомаркеров, а также гибридный подход, сочетающий лучшие традиционные и основанные на NBBD отборе функций.Мы также исследуем, как эффективность прогностических моделей для диагностики ВЗК варьируется в зависимости от размера данных, используемых для идентификации биомаркеров. Наши результаты показывают, что (i) NBBD может конкурировать с некоторыми современными методами выбора признаков, включая оценки важности случайных признаков леса (RFFI); и (ii) NBBD особенно эффективен для надежной идентификации биомаркеров IBD, когда количество образцов данных, доступных для обнаружения биомаркеров, невелико. UR — http: // www.scopus.com/inward/record.url?scp=85075461276&partnerID=8YFLogxK UR — http://www.scopus.com/inward/citedby.url?scp=85075461276&partnerID=8YFLogxK U2 — journal. 10.1371. 0225382 DO — 10.1371 / journal.pone.0225382 M3 — Артикул C2 — 31756219 AN — SCOPUS: 85075461276 VL — 14 JO — PLoS One JF — PLoS One — 3. Класс дисбаланса
4. Недостаточная выборка из класса большинства — подход к почти неуспешной недостаточной выборке (NMU)
5. Эксперимент
5.2 Алгоритмы обучения
5.2.1 K-Nearest Neighboring (KNN)
5.2.2 Логистическая регрессия
5.2.3 Случайный лес
5.2.4 Boosting Tree
III. ОБСУЖДЕНИЕ
IV. ЗАКЛЮЧЕНИЕ
Доступность данных
V. ПОДТВЕРЖДЕНИЕ
Открытие биомаркеров при воспалительных заболеваниях кишечника с использованием сетевого выбора функций — Penn State
IS — 11
M1 — e0225382
ER —
Классификация случайных лесов и ее математическая реализация | Автор: Приянка Парашар
В этой статье дается краткий обзор алгоритма случайной классификации лесов и лежащей в его основе математики.
Случайный лес (RF) — один из многих алгоритмов машинного обучения, используемых для обучения с учителем , то есть для обучения на основе помеченных данных и создания прогнозов на основе изученных шаблонов. Случайный лес может использоваться как для задач классификации , так и для задач регрессии .
Случайный лес основан на деревьях решений . В машинном обучении деревья решений — это метод создания прогнозных моделей. Они называются деревьями решений , потому что предсказание следует за несколькими ветвями разделения решений типа «если… то…» — аналогично ветвям дерева.
С учетом данных о переменных-предикторах (входы, X) и категориальной переменной отклика (выход, Y) построить модель для:
— Предсказание значения отклика от предикторов.
— Понимание взаимосвязи между предикторами и ответом.
например прогнозирует 5-летнюю выживаемость человека (да / нет) на основе его возраста, роста, веса и т. Д.
Это алгоритм обучения на основе ансамблевого дерева. Классификатор случайного леса — это набор деревьев решений из случайно выбранного подмножества обучающего набора.Он объединяет голоса из разных деревьев решений , чтобы определить окончательный класс тестового объекта.
Случайный лес — это алгоритм классификации, состоящий из множества деревьев решений. Он использует пакетирование и случайность при построении каждого отдельного дерева, чтобы попытаться создать некоррелированный лес деревьев, прогноз которых более точен, чем прогноз любого отдельного дерева.
Метод упаковки: Он основан на идее, что сочетание модели обучения увеличивает общий результат.
Давайте разберемся с этим на простом примере :
# Спросите своего лучшего друга → Дерево решений
# Спросите свою группу лучших друзей → Случайный лес
Ансамбль означает сбор или группу вещи.
Ансамблевое обучение — это метод машинного обучения, который объединяет несколько базовых моделей для создания одной оптимальной модели прогнозирования (мощной модели). Методы ансамбля
позволяют нам принять во внимание выборку деревьев решений, вычислить, какие функции использовать или вопросы, которые нужно задать на каждом разбиении, и составить окончательный предсказатель на основе агрегированных результатов выбранных деревьев решений.
Тип метода ансамбля, используемый случайным лесом: BAGG ing или B ootstrap AGG regating.
Случайные леса (RF) создают множество индивидуальных деревьев решений во время обучения. Прогнозы по всем деревьям объединяются, чтобы сделать окончательный прогноз; режим классов для классификации или прогноз среднего для регрессии. Поскольку они используют набор результатов для принятия окончательного решения, они называются методами ансамбля.
Важность функции рассчитывается как уменьшение примеси узла, взвешенное по вероятности достижения этого узла. Вероятность узла можно рассчитать делением количества выборок, которые достигают узла, на общее количество выборок. Чем выше значение, тем важнее характеристика.
Реализация в Scikit-learn
Для каждого дерева решений Scikit-learn вычисляет важность узлов с использованием значения Джини, предполагая только два дочерних узла (двоичное дерево):
- ni sub (j) = важность узел j
- w sub (j) = взвешенное количество выборок, достигающих узла j
- C sub (j) = значение примеси узла j
- слева (j) = дочерний узел слева, разделенный на узле j
- справа ( j) = дочерний узел из правого разделения на узле j
sub () используется, поскольку индекс недоступен в Medium
См. метод compute_feature_importances в _tree.pyx
Затем важность каждой функции в дереве решений вычисляется как:
- fi sub (i) = важность функции i
- ni sub (j) = важность узла j
Затем они могут можно нормализовать до значения от 0 до 1 путем деления на сумму всех значений важности функций:
Окончательная важность функции на уровне случайного леса — это среднее значение по всем деревьям. Сумма значения важности признака для каждого дерева вычисляется и делится на общее количество деревьев:
- RFfi sub (i) = важность признака i, рассчитанная по всем деревьям в модели случайного леса
- normfi sub (ij ) = нормализованная важность функции для i в дереве j
- T = общее количество деревьев
См. метод feature_importances_ в лесу.py
Нотация была вдохновлена этой веткой StackExchange , которую я нашел невероятно полезной для этого поста.
Существует множество областей, в которых используется этот алгоритм, некоторые из них: —
- Банковское дело: Банковский сектор в основном использует этот алгоритм для идентификации кредитного риска.
- Медицина: С помощью этого алгоритма можно определить тенденции и риски заболевания.
- Это один из самых точных доступных алгоритмов обучения.Для многих наборов данных он создает высокоточный классификатор .
- Хорошо подходит как для задач классификации, так и для задач регрессии.
- Эффективно работает с большими наборами данных.
- Практически не требует подготовки ввода (без очистки данных).
- Выполняет неявный выбор функций.
- Можно ли выращивать параллельно.
- Методы балансировки ошибок в несбалансированных наборах данных.
В этом блоге мы узнали о классификаторе случайного леса и его реализации.Мы рассмотрели алгоритм ансамблевого обучения в действии и попытались понять, что отличает случайный лес от других алгоритмов машинного обучения.
Симметрия | Бесплатный полнотекстовый | Классификация изображений глазного дна с использованием архитектуры VGG-19 с PCA и SVD
1. Введение
Прогрессивные изменения в области науки и техники делают человеческую жизнь более здоровой, безопасной, комфортной и пригодной для жизни. Системы автоматической диагностики (ADS) предоставляют услуги для удобства человечества.ADS играют жизненно важную роль в ранней диагностике серьезных заболеваний. Диабетическая ретинопатия (ДР) — серьезное и широко распространенное заболевание во всем мире. Недавно Всемирная организация здравоохранения (ВОЗ) сообщила, что к 2030 году диабет станет седьмым по величине смертельным заболеванием в мире. В этом контексте спасение жизней пациентов, страдающих диабетом, является большой проблемой. Диабетическая ретинопатия — распространенное заболевание, встречающееся у пациентов с диабетом. При диабетической ретинопатии в глазах образуются некоторые поражения, которые со временем становятся причиной необратимой слепоты.Эти типы поражений включают аномальные кровеносные сосуды сетчатки, микроаневризмы (МА), ватные пятна, экссудаты и кровоизлияния, как показано на Рисунке 1. Согласно шкале тяжести заболевания [1] диабетическая ретинопатия может быть разделена на пять стадий: нет. -DR, легкая тяжелая, среднетяжелая, тяжелая и пролиферативная DR. В связи с этим многие исследователи ввели различные типы методов, архитектур, моделей и структур и сыграли жизненно важную роль в обнаружении поражений на ранней стадии DR.Haloi et al. [2] представили метод обнаружения ватных пятен и экссудатов. Кроме того, Haloi [3] использовал глубокие нейронные сети для поиска микроаневризм на цветных изображениях глазного дна сетчатки. Ван Гринсвен и др. [4] представили новую технику для обнаружения быстрых кровотечений. Более того, Srivastava et al. [5] получили значительные экспериментальные результаты при обнаружении кровоизлияний и микроаневризм с использованием нескольких ядерных методов. С другой стороны, определение степени тяжести ДР также является важной задачей при лечении пораженного глаза.Сеуд и др. [6] разработали компьютерную систему классификации изображений глазного дна с использованием случайных лесов [7]. На основе методов глубокого обучения Kuen et al. [8] продвигали DCNN для выявления диабетической ретинопатии. Гульшан и др. [1] с помощью 54 американских офтальмологов и других медицинских исследователей классифицировали изображения глазного дна на не-DR и средней тяжелой степени тяжести на более чем 128 тысячах DR-изображений. Кроме того, Sankar et al. [9] классифицировали изображения глазного дна на не-DR, легкую и тяжелую DR.Pratt et al. [10] предложили надежную методику классификации уровней тяжести DR с последующими стандартами шкалы тяжести [11]. Somasundaram et al. [12] разработали классификатор комплексов машинного обучения (ML-BEC) для диагностики болезни DR на ранней стадии. Метод ML-BEC состоит из двух этапов. На первом этапе извлекаются важные особенности изображений глазного дна сетчатки. Второй этап включает в себя применение ансамблевого классификатора к извлеченным характеристикам изображений глазного дна сетчатки на основе машинного обучения.Нанни и др. [13] предложили метод классификации биоизображений на основе ансамблевых CNN. Благодаря составу нескольких CNN новый подход повысил производительность анализа и классификации медицинских изображений. Аббас и др. [14] разработали систему автоматической компьютерной диагностики, основанную на глубоких визуальных признаках (DVF), для классификации уровней серьезности DR без применения предварительной обработки. DVF являются производными от многослойной полууправляемой техники с использованием алгоритмов глубокого обучения. Орландо и др.[15] разработали новый метод обнаружения красных поражений, сочетающий знания предметной области и глубокое обучение. В этом методе случайный лесной классификатор применялся для классификации изображений глазного дна сетчатки на основе шкалы тяжести. Пренташич и Лончарич [16] предложили метод обнаружения экссудатов на цветных изображениях глазного дна сетчатки с использованием сверточных нейронных сетей. Wang et al. [17] представили метод глубокого обучения, чтобы понять обнаружение диабетической ретинопатии, где они применяли карту активации регрессии (RAM) после слоя объединения сверточных нейронных сетей.Роль RAM состоит в том, чтобы локализовать интересные области изображения глазного дна, чтобы определить интересующую область на основе уровня серьезности. Kälviäinen и Uusitalo [18] представили методику оценки для анализа результатов изображений глазного дна сетчатки, полученных путем реализации различных архитектур, моделей и структур. Sadek et al. [19] сообщили о новой технике глубокого изучения функций с использованием полносвязных слоев на основе CNN. В этом подходе для классификации нормальных, друзовых и экссудатов применялся нелинейный классификатор.Yu et al. [20] представили новый подход к классификации качества изображения глазного дна сетчатки (IQS). Этот метод был основан на визуальной модели человека для выполнения вычислительных алгоритмов. Предлагаемый метод представлял собой комбинацию CNN и карты значимости для получения контролируемых и неконтролируемых функций соответственно в качестве входных данных для классификатора машины опорных векторов (SVM). Choi et al. [21] применили мультикатегориальную технику глубокого обучения для обнаружения множественных поражений с наличием изображений глазного дна сетчатки на основе базы данных структурированного анализа сетчатки (SARD).Глубокое обучение широко используется в области диабетической ретинопатии для классификации изображений глазного дна сетчатки. В этой области исследований многие авторы нашли различные методы группирования изображений сетчатки на основе Международной клинической шкалы тяжести диабетической ретинопатии [1]. Prasad et al. [22] представили различные подходы к сегментации для выявления твердых экссудатов, кровеносных сосудов и микроаневризм. В этой статье был применен метод извлечения признаков на основе PCA, названный «вейвлет-преобразованием Хаара».Исследователи применили обратное распространение в нейронных сетях для категоризации двух классов. Бхаткар и Харат [23] применили глубокую нейронную сеть, основанную на многослойном восприятии. На основе сегментации диска зрительного нерва был разработан автоматический компьютерный подход к обнаружению [24] с использованием техники разрезов графа. Raman et al. [25] использовали идентификацию диска зрительного нерва для выделения признаков микроаневризмы и экссудата для классификации изображений DR. Для выявления экссудатов на изображениях ДР использовался генетический алгоритм [26].Аналогичным образом ManojKumar et al. [27] использовали пересечение аномальной толщины в кровеносных сосудах сетчатки для локализации красных поражений, включая экссудаты. Кроме того, методы нечеткой кластеризации и кластеризации k-средних также применялись при диабетической ретинопатии [28]. Mansour [29] разработал автоматическую систему для диабетической ретинопатии для обнаружения аномалий и оценки степени тяжести изображений глазного дна сетчатки. Seourd et al. [30] были применены особенности формы для обнаружения кровоизлияний и обнаружения микроаневризмы.Метод JSEG применялся для диагностики микроаневризм и экссудатов на изображениях DR [31]. Quellec et al. [32], предложил метод ConvNets DNN на основе пикселей для ранней диагностики изображений глазного дна сетчатки. В методике ConvNets для классификации уровней тяжести на изображениях глазного дна сетчатки используется классификатор softmax. Ду и Ли [33] предложили метод анализа текстуры для выявления кровеносных сосудов и кровоизлияний. Ян. и другие. [34] разработали метод автоматического анализа DR с использованием двухэтапной DCNN для локализации и обнаружения красных поражений на изображениях глазного дна сетчатки.Кроме того, автоматическая система также классифицировала изображения глазного дна сетчатки на основе уровней серьезности. Gurudath et al. [35] предложили автоматический подход к идентификации ДР по цветным изображениям глазного дна сетчатки. Классификация изображений глазного дна сетчатки проводилась по трем классам, включая нормальные, умеренно тяжелые и умеренно тяжелые. Модель фильтрации Гаусса использовалась для сегментации кровеносных сосудов сетчатки на входных изображениях глазного дна. Cao et al. [36] проанализировали способность обнаружения микроаневризмы на основе фрагментов изображения размером 25 × 25, собранных из изображений глазного дна сетчатки.Машина опорных векторов (SVM), случайный лес (RF) и нейронная сеть (NN) использовались для классификации DR на пять уровней серьезности. Для уменьшения размерности применялись анализ основных компонентов (PCA) и важность случайных признаков леса (RFFI). Нанни и др. [37] разработали систему компьютерного зрения, основанную на функциях, созданных не вручную, а вручную. Для функций, не созданных вручную, были применены три подхода, включая компактный двоичный дескриптор (CBD), CNN и PCA. С другой стороны, для созданных вручную функций использовались локальное квантование фазы, завершенные локальные двоичные шаблоны, повернутые локальные двоичные шаблоны и некоторые другие алгоритмы.Предложенный метод был применен к различным наборам данных и позволил получить выдающиеся результаты классификации изображений. Hagiwara et al. [38] рассмотрели исследовательские работы, связанные с системами автоматической компьютерной диагностики, и предложили новый подход к автоматическому обнаружению, основанный на существующей методологии диагностики глаукомы. Litjens et al. [39] представили подход к оценке для Google Inception v3 для обнаружения изображений глазного дна сетчатки и сравнили их с данными лицензированных офтальмологов. Олбан и Гиллиган [40] улучшили существующие методы шумоподавления, используемые для определения уровней серьезности DR.Усовершенствованная работа позволила классифицировать входные наборы данных, относящиеся к изображениям глазного дна сетчатки, с помощью классификатора CNN. Pratt et al. [10] разработали архитектуру CNN, которая смогла идентифицировать сложные особенности, связанные с процессом классификации экссудатов, кровоизлияний и микроаневризм при диабетической ретинопатии. Rahim et al. [41] разработали новую модель автоматической системы скрининга диабетической ретинопатии для раннего выявления микроаневризм. Для разработки автоматической системы DR-скрининга метод нечеткой гистограммы использовался для выделения признаков, а последний — при предварительной обработке изображений глазного дна сетчатки.Mansour [28] разработал новую систему автоматической компьютерной диагностики для раннего обнаружения аномальных кровеносных сосудов сетчатки и классифицировал изображения глазного дна сетчатки на основе уровней серьезности. Мансур применил архитектуру AlexNet DNN для извлечения признаков и PCA для уменьшения размерности. Предлагаемый подход является улучшенной формой этого существующего подхода к извлечению признаков для получения более точных результатов классификации. Остальная часть статьи организована следующим образом. Предлагаемый метод объясняется в разделе 2, а экспериментальные результаты и обсуждение рассматриваются в разделе 3.Наконец, выводы приведены в Разделе 4.2. Предлагаемый метод
Предложенный метод позволил построить компетентную автоматизированную систему классификации диабетической ретинопатии. Предлагаемая система была способна создавать сегменты на изображениях глазного дна в соответствии с классами тяжести и их заболеваниями. Чтобы достичь степени серьезности аварийного восстановления, система была реализована надлежащим образом, где предложенный подход был разделен на последовательные шаги для лучшего понимания и реализации.
2.1. Сбор данных
Сбор данных — это основной шаг для сбора данных для экспериментов в предлагаемой системе. В контексте диабетической ретинопатии для экспериментов использовался хорошо известный набор данных о соревнованиях KAGGLE [42]. Стандартный KAGGLE содержит большое количество изображений глазного дна с высоким разрешением, снятых различными уровнями камер глазного дна. Общее количество изображений глазного дна в KAGGLE составляет 35 126, отмеченных правым и левым глазом. Таблица 1 объясняет стандартное распределение изображений глазного дна в наборе данных KAGGLE RD.Изображения глазного дна были получены разными камерами глазного дна с разными условиями и уровнями качества. Некоторые из них считались нормальными изображениями, но некоторые из них имели некоторый шум в виде точек, кругов, треугольников или квадратов. В этих условиях некоторые изображения могут переворачиваться. Шумные изображения также можно рассматривать как нечеткие, размытые, недоэкспонированные и переэкспонированные изображения. В этих условиях также должен быть метод, который может прогнозировать изображения DR при наличии зашумленных данных.
2.2. Предварительная обработка данных
На этапе предварительной обработки жизненно важную роль играет достижение оптимальной диабетической ретинопатии или недиабетической ретинопатии. При диабетической ретинопатии существует множество заболеваний, в том числе микроаневризмы (МА), экссудаты и кровоизлияния. Предварительная обработка полезна, чтобы выяснить и отличить фактические поражения или особенности DR от зашумленных данных. Поэтому перед извлечением признаков необходимо было выполнить операцию предварительной обработки необработанных цифровых изображений дорожного покрытия.В предлагаемой системе компьютерной диагностики основной целью предварительной обработки является выявление кровеносных сосудов в форме микроаневризм (МА). На этапе предварительной обработки выполняются алгоритмические методы, включая метод преобразования оттенков серого для демонстрации лучшего контраста, в то время как метод коррекции оттенков выполняется для оценки изображения, а затем вычитается из существующего изображения. На следующем этапе применяется сегментация сосудов на основе GMM. На рисунке 2 показаны изображения глазного дна, используемые для извлечения информации из цветного изображения в фоновое изображение.Фоновое изображение содержит наиболее дискриминантную форму изображения. Чтобы получить наиболее разборчивую информацию, адаптивная скорость обучения (ALR) достигла выдающейся производительности в интересующей области (ROI). Antal et al. [43] применили надежную технику на основе ансамблевой кластеризации для поиска микроаневризм в DR.2.3. Обнаружение области интереса
Перед применением выделения признаков было выполнено выделение кровеносных сосудов с привязкой к локализации области интереса.На этом этапе была применена сегментация кровеносных сосудов для извлечения области интереса на изображениях DR. Для этой цели можно применить множество методов, включая сегментацию на основе ROI, сегментацию на основе границ, нечеткие модели и нейронные сети. В этой статье для сегментации сосудов был применен метод гауссовой смеси. Stauffer et al. [44] применили сортировку по Гауссу для получения метода вычитания фона. В предложенной методике был предложен гибридный подход с включением модели смеси Гаусса (GMM) на основе адаптивной скорости обучения (ALR) для получения лучших результатов обнаружения областей.Гауссова смесь g (x) с j компонентами была введена для расчета ROI.g (x) = ∑j = 1JrjN (y; μj, σj)
(1)
где rj — весовой коэффициент, а N (y; μj, σj) — нормированная форма среднего μj.ALR был определен для многократного обновления μj с использованием вероятностного ограничения N (y; μj, σj), чтобы определить, был ли пиксель элементом j-го гауссовского распределения или нет. В этом методе для устранения ограничений такого типа была предложена параметрическая идея для получения разницы, обеспечивающей квазилинейную адаптацию.
На рис. 3 показан подробный процесс сегментации и обнаружения кровеносных сосудов сетчатки. В первой части набор данных DR — это входные данные, собранные из репозитория KAGGLE для сегментации и обнаружения данных изображения. Во второй части сегментация кровеносных сосудов и обнаружение на основе GMM могут быть объяснены с помощью подпроцесса. После процесса сегментации сосудов применяется метод анализа связанных компонентов (CCA), чтобы рассмотреть размер, расположение и регион признаков диабетической ретинопатии, включая кровоизлияния, твердые экссудаты и МА.ОСА также помогает идентифицировать и отличать размер, форму и близость от нормальных особенностей сетчатки. После завершения процесса CCA ROI кровеносных сосудов был обнаружен и готов к извлечению признаков на основе VGG-19.2.4. Извлечение признаков
На каждом уровне CNN есть новое представление входного изображения путем постепенного извлечения значимой информации. В предложенной методике VGG-19 применялся для извлечения значимой информации из изображений глазного дна.Визуализация раскрывает категоризированный формат изображения, который делает представление.
Чтобы получить надежную систему диабетической ретинопатии (DRS), в процессе извлечения учитываются важные характеристики, включая площадь пикселей, периметр, длину малой оси, длину главной оси, а также округлость, которые помогают идентифицировать кровеносные сосуды, экссудаты, кровоизлияния. , оптическое расстояние и области микроаневризмы.
2.4.1. VGG-19 DNN
Групповая сеть визуальной геометрии (VGGNet) — это глубокая нейронная сеть с многоуровневой работой.Сеть VGGNet основана на модели CNN и применяется к набору данных ImageNet. VGG-19 полезен из-за своей простоты, так как сверточные слои 3×3 устанавливаются сверху для увеличения с уровнем глубины. Чтобы уменьшить размер тома, в VGG-19 в качестве обработчика использовались слои максимального пула. Были использованы два слоя FC с 4096 нейронами. На рисунке 4 показано, что сегментированные изображения сосудов использовались в качестве входных данных для VGGNet DNN. На этапе обучения сверточные слои использовались для извлечения признаков и слоев максимального объединения, связанных с некоторыми сверточными слоями, чтобы уменьшить размерность признаков.В первом сверточном слое было применено 64 ядра (размер фильтра 3 × 3) для извлечения признаков из входных изображений. Для подготовки вектора признаков использовались полносвязные слои. Полученный вектор признаков был дополнительно подвергнут PCA и SVD для уменьшения размерности и выбора признаков данных изображения для улучшения результатов классификации. Сокращение данных большой размерности с помощью PCA и SVD — важная задача. PCA и SVD более полезны, потому что они быстрее и численно более стабильны, чем другие методы редукции.Наконец, на этапе тестирования была применена 10-кратная перекрестная проверка для классификации изображений DR на основе техники активации softmax. Производительность предлагаемой системы на основе VGG-19 сравнивалась с другими архитектурами извлечения признаков, включая AlexNet и SIFT. AlextNet — это многоуровневая архитектура извлечения функций, используемая в CNN. Масштабно-инвариантное преобразование признаков (SIFT) — это классический метод извлечения признаков, введенный Мансуром [28] для обнаружения локальных особенностей входного изображения в поле компьютерного зрения.2,5. Сокращение данных
После извлечения признаков из VGGNet следующим шагом анализа изображения является выбор признаков. Цель выбора функций — уменьшить размерность данных изображения. В предложенной методике для обработки данных были применены методы PCA и SVD. Согласно приложению PCA, он преобразует данные изображения из высокой размерности в низкоразмерную на основе наиболее важных функций. В случае выделения изображения глазного дна с помощью DR также возникает проблема различения наиболее выразительных признаков (MEF), полученных в процессе выделения признаков.Чтобы решить эту проблему, PCA планирует преобразовать компоненты признаков в новые векторы признаков, чтобы различать их. С другой стороны, SVD используется для уменьшения размерности на основе надежности. Важная цель SVD — быстро уменьшить количество параметров, а также уменьшить количество вычислений в сложной сети. В VGGNet максимальное объединение также используется для уменьшения размерности на основе максимального значения и для решения проблемы чрезмерной подгонки в DNN.На рисунке 5 показана алгоритмическая структура процесса классификации изображений глазного дна сетчатки, включая два полностью связанных слоя, FC7 и FC8, для извлечения характеристик DR-ROI на основе VGGNet.2.5.1. Анализ основных компонентов
Процесс уменьшения размерности важен для сокращения времени вычислений и объема памяти. Анализ главных компонентов играет жизненно важную роль в уменьшении размерной сложности с высоким уровнем точности. Функциональность PCA состоит в том, чтобы сместить пространство признаков большой размерности в пространство более низкой размерности, содержащее важные векторы признаков.При диабетической ретинопатии важные особенности изображений глазного дна в основном взаимосвязаны. Элементы взаимосвязанных функций известны как наиболее выразительные черты (MEF). Для решения этой проблемы PCA — лучший вариант для смещения вектора признаков на новые элементы признаков, которые обрабатываются по-разному. Следовательно, для достижения точности и быстрого вычисления признаков, PCA играет важную роль в сокращении векторов признаков схожими элементами и переносе их в наиболее значимые векторы признаков.
2.5.2. Разложение по сингулярным значениям
SVD — это надежный и надежный метод разложения ортогональных матриц. SVD широко используется для анализа изображений для решения задач, связанных с наименьшими квадратами, псевдообратным вычислением матрицы, а также в многомерных экспериментах. В области машинного обучения методы на основе SVD используются для уменьшения размерности, метрического обучения, множественного обучения и совместной фильтрации. В случае сложных данных параллельная обработка обычно недоступна для развертывания систем и выполнения крупномасштабных наборов данных в течение секунд, а не дней.В этом случае SVD — лучший вариант для уменьшения размерности огромных объемов данных за счет ускорения вычислительного процесса. В частности, при классификации изображений глазного дна SVD также показал лучшие результаты с точки зрения точности классификации при оптимальном времени вычислений.
2.6. Классификация изображений глазного дна сетчатки
В этом исследовании классификатор softmax был применен для классификации изображений глазного дна на основе его характеристик. В предложенной методике алгоритм softmax обучен отображать классификацию в двоичной форме.Характеристики, полученные в результате обработки данных, были отображены для категоризации на основе softmax.