Разработка

265985b1ee8fa5dbf8d352c6cf3893d3.jpg - (1.55MB, 1000×1250)

Машинного обучения нить Стив Балмер 29.03.2018 (чт) 16:24:23 No. 19531

Тема сама по себе сложная, поэтому пусть будет отдельный хелпдеск. Здесь учимся использовать ИНС для повседневных задач. Оптимальный пакет для новичка в ИНС это Weka, её и будем рассматривать. Как сделать алгоритм в Weka, настроить, привести к нужному состоянию, натренировав делать какую-то рутину, которую самому делать руками ну совсем нет желания.

Стив Балмер 29.03.2018 (чт) 16:49:42 No. 19532

Но сначала исследуем вопрос. Что всё это значит? Что нам нужно?

Первоначально задача ставится следующим образом:
- имеется достаточно крупная база данных;
- предполагается, что в базе данных находятся некие «скрытые знания».

Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных.

Что означает «скрытые знания»? Это должны быть обязательно знания:
ранее неизвестные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;
доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Суть дата майнинга в том, чтобы производить контент, основываясь на существующем контенте. Этим он и ценен.

К описательным задачам относятся:

- поиск ассоциативных правил или паттернов (образцов);
- группировка объектов, кластерный анализ;
- построение регрессионной модели.

К предсказательным задачам относятся:

- классификация объектов (для заранее заданных классов);
- регрессионный анализ, анализ временны́х рядов.

Допустим, у нас есть множество картинок, которые понравились. Мы хотим новые, которые тоже будут нравиться, и будут уже совсем другими. Эти имеющиеся картинки будут паттернами, и по ним ИНС подготовит себя к "предсказательной работе" - сгенерировать моар.

Стив Балмер 29.03.2018 (чт) 17:01:41 No. 19533

>>19532
Вот понятный пример, в случае с картинками.
https://gelbooru.com/index.php?page=post&s=list&tags=underwear thighhighs high_heels garter_straps 1girl -photo
Контента по нужным темам раз-два и обчелся, а годных рисунков и того меньше. Значит, надо чтобы ИНС уловила критерии "годноты" и научилась отличать теги один от другого. Тогда можно будет задавать теги, и назначать сходство с тем или иным художником. И чтобы поняла хотя бы в каких разных позах бывает персонаж. И поняла различие между рисунком с одним персонажем и с групповой композицией. Всю эту выдачу надо будет "скормить" ИНС чтобы она пропускала через себя тысячи рисунков, пока не научится делать их сама. Для этого нам и нужна Weka.

Стив Балмер 29.03.2018 (чт) 17:06:02 No. 19534

https://simg3.gelbooru.com//images/e3/f4/e3f47c1523ec490b252785ce804d7fbe.png Рандом пик. Нужна картинка с такой же девушкой, но волосы должны быть длинные и тёмные, и вообще она должна стоять раком. Для человека внести такие изменения будет нетривиальной задачей. ИНС сделает это легко, если она уже поняла, как выглядит персонаж, который стоит раком.
https://simg3.gelbooru.com//images/e4/c0/e4c0b723df2e644fa0040e333881d4f3.jpg
Здесь должен быть не один персонаж, а два. Девочка с девочкой. ИНС должна знать, в чем принципиальное отличие картинки с тегом "2girls".

Стив Балмер 29.03.2018 (чт) 17:11:27 No. 19535

2018-03-29 06_32_41-Weka GUI Chooser.png - (24.09KB, 486×343)

Вот собственно и эта программа. Здесь предлагается даже не одна программа, а целых пять. Попробуем первую.

Стив Балмер 29.03.2018 (чт) 17:15:32 No. 19536

2018-03-29 07_12_44-Weka Explorer.png - (31.29KB, 1006×672)

>>19535
Пока там доступна лишь только одна вкладка. На ней нужно открыть некий файл с расширением arff.
An ARFF (Attribute-Relation File Format) file is an ASCII text file that describes a list of instances sharing a set of attributes.
Неужели это потребуется заполнять руками? В текстовом документе, как при написании программы?

Стив Балмер 29.03.2018 (чт) 17:16:41 No. 19537

2018-03-29 07_15_48-Weka Explorer.png - (9.50KB, 993×128)

>>19536
И ещё есть "генератор данных", что бы это ни значило. Может быть, получится обойтись без пердолинга? Попробуем нажать кнопку.

Стив Балмер 29.03.2018 (чт) 17:17:40 No. 19538

2018-03-29 07_16_47-Weka Explorer.png - (41.71KB, 1006×672)

>>19537
Ну и вот, всё заполнилось само, безо всякого пердолинга! Знать бы только, чем. Боюсь, оно ничего не знает о гелбуру и картинках с неё. А нам надо генерировать картинки.

Стив Балмер 29.03.2018 (чт) 17:20:34 No. 19539

2018-03-29 07_18_34-_dev - Машинного об.png - (11.19KB, 377×581)

Вижу выпадающую менюшку со структурой файлов. Какие-то фильтры. Это наверное как раз то, что поможет отсеивать неподходящие картинки, которые слишком плохо выглядят. Однако применение одного или даже нескольких из них ни на что в окне не повлияло.

sage⇩ sage 29.03.2018 (чт) 17:23:14 No. 19540

martishka-i-ochki.jpg - (32.31KB, 299×448)

ITT picrelated

Стив Балмер 29.03.2018 (чт) 17:23:50 No. 19541

>>19540
Ты теги посмотри сначала, у тебя ерунда какая-то.

Стив Балмер 29.03.2018 (чт) 17:27:03 No. 19542

2018-03-29 07_24_16-Weka Explorer.png - (20.84KB, 524×340)

Вот это выглядит поинтересней: тут можно ввести URL. То есть видимо weka может обращаться к источникам в сети и брать оттуда материалы для обучения. То что надо. Но есть загвоздка: на картинку наверное нет смысла давать ссылку, потому что исследование картинки - это рассмотрение её по пикселям (или может по каким-то условным "векторам"). Я видел на хабре статью где пикчу специально для ИНС разделили по пикселям. Попробую дать адрес одной из картинок, но это наверное ни на что не повлияет.

Стив Балмер 29.03.2018 (чт) 17:28:06 No. 19543

2018-03-29 07_27_13-Load Instances.png - (9.20KB, 605×174)

>>19542
Ну да, вот, выдало ошибку. Пишет что нет подходящего загрузчика. То есть должен быть заранее алгоритм, который будет работать с материалом, на который дана ссылка, в данном случае с картинкой.

Стив Балмер 29.03.2018 (чт) 17:36:15 No. 19544

2018-03-29 07_32_54-Weka Explorer.png - (37.55KB, 987×563)

Должно быть, просто не там смотрю. Надо глянуть и другие вкладки.
Вот тут надо выбрать некий "сет". Этим словом обычно обозначаются подборки чего-то ("эротический фотосет" и так далее). Наверное, здесь надо назначить подборку, откуда брать примеры? Но нет, оно требует все тот же файл arff или URL ссылку.
А вот что самое интересное: я ничего туда не вводил, просто нажал "старт", и... Оно выдало какие-то результаты с числовыми значениями! 66, 34 - откуда эти числа, я же еще ничего не задавал туда?

Стив Балмер 29.03.2018 (чт) 17:42:07 No. 19545

2018-03-29 07_40_39-Weka Explorer.png - (45.16KB, 1000×637)

>>19544
Дальше шла вкладка "cluster". Там то же самое, только нет кнопки "больше опций", зато предлагается какая-то "визуализация". Когда снова нажал "старт", результат был другой, и там были какие-то разные категории, с разными числовыми значениеми: a0, a1, a2 и так далее, до a9. В конце еще было "class". Это вообще непонятно что. Может, оно так же может выдать подборку сгенерированных картинок?
Потом какой-то "ассоциатор", пикрелейтед. После каждого нажатия кнопки "Start" выдает новое "Apriori", числа там каждый раз одни и те же.

Стив Балмер 29.03.2018 (чт) 17:46:48 No. 19547

9e7.jpg - (16.52KB, 405×289)

>эта нить

Стив Балмер 29.03.2018 (чт) 17:46:53 No. 19548

2018-03-29 07_44_06-Weka Explorer.png - (31.84KB, 1004×640)

>>19545
Но самое интересное на последней вкладке. Видите эти квадратики? С чего бы им так выглядеть? Бьюсь об заклад, это слоты для превьюшек пикч. Либо по которым ты тренируешь алгоритм, либо которые сгенерируются в результате. Тут даже даже упоминается о цветах (colour) как одном из классов. Это наверное классификация по преобладающему в пикче цвету, знаете, как в гуглопоиске картинок, где тоже можно искать картинки преимущественно в красных, или скажем желтых тонах.

Стив Балмер 29.03.2018 (чт) 17:47:45 No. 19549

>>19547
Тебе что-то не нравится в этом исследовании? Ну если ты такой гуру в нейросетях, то почему не поможешь?

Стив Балмер 29.03.2018 (чт) 18:04:21 No. 19550

2018-03-29 08_00_53-Weka Explorer_ Visualizing wek.png - (27.13KB, 830×487)

>>19548
Клик по одному из этих квадратов открыл это окно. Сбоку белые полоски, по обе стороны которых хаотичные россыпи синих и красных пикселей. Наверняка это имеет непосредственное отношение к генерации новых картинок на основе предыдущих. Тем более что при каждом клике на одну из полосок эти россыпи рандомно меняются. Вот только надо получать не совсем рандомный результат, не забыли? Лишь частично рандомный, но и подчиняющийся определённым правилам. Ну и конечно же картинки должны быть гораздо крупнее, чем эти крошечные мешанины точек.

Стив Балмер 29.03.2018 (чт) 19:01:46 No. 19552

Я за весь тред не увидел работы с НС, со мною всё нормально? Не увидел определения количества слоёв, типа сети (Хопфилда, Хемминга, Кохонена, et cetera), функции активации, метода обучения. Вижу только работу с данными, при том с неизвестно какими. Вижу, что програмка как-то может решать задачи о классификации и кластеризаци. Как? Как минимум, нужно читать документацию. А то получается >>19540.
Приведённая программа не генерирует картинки(скорее всего). Она работает с некоторыми цифровыми данными. С возможностью их визуализации по некоторому неизвестному правилу.

>повседневных задач
То, что ты взял, решается всякими DeepMind’aми. Если ты это как-то неведомым образом используя старый ПК будешь эффективно решать, то это на научную работу потянет, например https://arxiv.org/pdf/1708.05509.pdf (и то этот ихний make.girls.moe работает очень плохо: попробуешь сделать что-то, что редко рисуют, и оно тебе покорёженного бисёнена выдает, я как-то постил в /b/ примеры такого поведения сети). У тебя же задача во много раз сложнее. ~~Круче только >>19427~~. Запатентовать не забудь.

Поэтому, начни с теории. Сделай >>19526 (или не надо, кажется, такое уже есть, и широко используется в киноиндустрии).

Стив Балмер 29.03.2018 (чт) 19:16:57 No. 19553

>>/b/128351
Слово “генерировать” здесь не совсем уместно. Спроектировать и обучить(аппроксимировать) некоторую НС легко. Но именно что некоторую. Спроектировать и обучить может быть сложно. В зависимотси от того, что ты хочешь. Одно дело буковки на капче Ычана распознавать, а другое — решать классификацию изображений Гельборы по тегам.

На Чиочане как-то был человек, который целую статью по НС где-то там писал, его ещё на работу куда-то там взять хотели. Может быть, он тебе ответит и чем-нибудь поможет с литературою по теме.

Стив Балмер 29.03.2018 (чт) 21:23:31 No. 19556

>>19547
ОП напоминает Божену Рынску, когда она узнала слово "хикковать".

⇩ Стив Балмер 30.03.2018 (пт) 19:45:56 No. 19558

>>19556
Но это не Божена, это Девочка-Улыбнись.

Стив Балмер 14.04.2018 (сб) 11:35:28 No. 19618

https://www.youtube.com/watch?v=SacogDL_4JU
Здесь может! А вот у картинок правила построения наверняка гораздо сложнее, чем в симфонической музыке. Там-то накидать нот на станы, и всё. Полурандомно, то есть со случайным выбором, но также с соблюдением правил. А тут что? Скажем, такие этапы, что когда определять:
1) Число актёров (т.е. девочек, скорее всего от одной до двух, чаще одна, но изредка может быть и пять)
2) Тип взаимодействия актёров и их позы (хоть няшатся, хоть стоят одна в стороне от другой и даже не смотрят друг на дружку)
3) Задник - где это, какие объекты вокруг раскиданы. Заброшенный завод как в S.T.A.L.K.E.R., подворотня в киберпанк городе, железнодорожный вокзал в Токио, школьный класс, барокко дворец, внутри пассажирского самолета, да что угодно.
4) Места расположения, приблизительные позиции (и в пространстве и касательно картинной плоскости), ракурс: вблизи, издалека, сверху, снизу, с наклоном, etc.
5) Как выглядят, во что одеты
6) Более точные позиции, как позируют и какие выражения лиц (уточнения второго этапа)
И давай штамповать. Нажал пробел, вброшено семя в виде рандомного 10-значного числа, и по нему сгенерировалась пикча с чем бы то ни было. Не понравилось, нажал снова и получил по другому семени.

[Назад]

Имя
	[@] [?]
Тема	( ответ в 19531)
Сообщение
Файл
Пароль	(для удаления файлов и сообщений)
Параметры	[säge] [nöko]

Прежде чем постить, ознакомьтесь с правилами. Поддерживаются файлы типов 7Z, BZ, BZ2, GIF, GZ, JPG, MO, MP3, MP4, OGG, PDF, PNG, PSD, RAR, SVG, SWF, TXT, WEBM, WEBP, XCF, ZIP размером до 5120 кБ. Ныне 3675 unique user posts. Посмотреть каталог Предельное количество бампов нити: 500