Как Netflix разполага с Open Source AI, за да разкрие вашите любими

В тази научна статия, базирана на ИИ, ние изследваме как Netflix възприе модела с отворен код, за да подобри своите системи за препоръчителни забавления.

Първо, нека накратко да обсъдим какво означава машинно обучение. Казано с прости думи, машинното обучение е техника, чрез която компютърът може да “учи” от данните, без да използва сложен набор от различни правила. Този подход се основава главно на обучение на модел от масиви от данни. Колкото по-добро е качеството на наборите от данни, толкова по-голяма е точността на модела за машинно обучение.

Първо, бърз поглед към машинното обучение и дълбокото обучение

Има основно три форми на машинно обучение:

  • Наблюдавано обучение
  • Неподдържано обучение
  • Укрепване на обучението

Контролираното обучение се основава на обучение по етикетирани данни.

Неподдържаното обучение използва немаркирани масиви от данни.

Укрепването на обучението се основава на възнаграждаване на алгоритъм, основаващ се на неговите правилни резултати и наказването му, ако не успее в опита.

Годишните интервали могат да се отнасят до датите, използвани в тази статия Netflix отворени източници Vectorflow през 2017 г., която е дълбока библиотека за обучение | Източник на изображението тук

Във връзка с тема, известна като изкуствени невронни мрежи, има и „дълбоко обучение“, което е техника за извършване на машинно обучение, което е вдъхновено от собствената мрежа от неврони на нашия мозък.

Как Netflix използва AI за препоръка за съдържание

Ако сте или сте били абонат на Netflix, определено знаете, че Netflix не използва рекламен модел. Вместо това те използват чисто базиран на абонамент модел. Ето защо Netflix иска да направи преживяването ви възможно най-персонализирано за вас.

За да направи това, Netflix започна да проучва редица начини за това как биха могли да излязат с такъв лично възприемчив модел. Дори и да не сте били абонат на Netflix, може би сте се чудили как Netflix прави тези невероятни препоръки за сметката на Netflix на потребителя и как хората са обичали Netflix, което е толкова очевидно в днешното време. Ще се изненадате, ако знаете, че някои от тези препоръки биха могли да се основават на мозъка на плодна муха!

В началото методологиите им бяха много прости, базирани на Big Data и изцяло разчитащи на рейтингова система. Препоръките за филми / телевизионни предавания се основават изцяло на това, колко добро или лошо е било определено шоу или филм. Тези оценки се основаваха на отзиви от потребители, брой изгледи, дали видеоклиповете са били гледани изцяло / части и / или IMDB рейтинги.

Ето една статия от Станфордския университет от 12 март 2008 г., която илюстрира как препоръките на Netflix се основават на IMDB рейтинги.

Изграден върху солидна основа от стратегически решения, Netflix е извървял дълъг път в изграждането на чудесен учебен модел, за да предвиди какво може да бъде следващият любим филм на техните потребители при значително по-висока степен на точност.

На 21 септември 2009 г. награда от $ 1M бе присъдена на екипа „Прагматичен хаос на BellKor” за подобряване на препоръчителния модел на Netflix. Известна като наградата Netflix, това беше инициатива на Netflix за подобряване на потребителския опит с 10% или повече.

Алгоритъмът за прогнозиране, който трябваше да бъде импровизиран и актуализиран, се основаваше на съвместно филтриране. Съвместното филтриране е препоръчителна техника, която се основава изцяло на колективната обратна връзка от потребителите.

Подход за машинно обучение за предсказване на филмовите предпочитания | Пълно видео, включено в препоръчващите системи

Да кажем, група хора са гледали филм, който има голяма вероятност да ви хареса. Но шансовете са, че дори не сте чували за филма преди. Чрез събиране и тълкуване на вашите предишни наблюдавани предпочитания с тези на тези, които са го завършили, препоръчващата система може да ви предложи този конкретен филм.

Филтрирането въз основа на съдържание, от друга страна, не се основава на предпочитанията на потребителите. Вместо това се правят сравнения между самите видеоклипове въз основа на тип класификация, например жанр. Това може да е комедия, романтика, ужас, напрежение и т.н.

Освен това имаме и хибриден модел, който съчетава и двата описани по-горе техники на филтриране. Ако искате да научите подробно за тях, моля, гледайте този клип:

Netflix дори публикува статия в списание ACM, озаглавена „Системата на препоръчващите Netflix: алгоритми, бизнес стойност и иновации“. Хартията е достъпна като отворен достъп. Някои от забележимите методологии, посочени в статията, са както в:

Функции и техники, които Netflix използва, за да осигури възможно най-доброто изживяване на своите потребители:

  • Персонализирано видео класиране: PVR
  • Топ-N видео класиране
  • Тенденция сега
  • Продължете да гледате
  • Видео-видео прилика
  • Генериране на страница: Избор на ред и класиране
  • Избор на доказателства
  • Опит за търсене
  • Статистически и машинни техники за обучение за всички по-горе

За да можем да се свържем с горепосочените функции, ние продължихме и се регистрирахме за безплатния абонамент за първия месец на Netflix, и това беше опитът:

След като се регистрирахме, трябваше да изберем 3 или повече любими филма или телевизионни предавания. Затова избрахме Baahubali 2, Bright, Sherlock и Altered Carbon. Имаше още много възможности за избор, отколкото е показано по-долу:

Вследствие на това изкуственият мозък на Netflix се появи в действие:

Така че, по принцип, колкото повече броят на селекцията бихме направили, толкова по-добре би била персонализацията. След това бяхме посрещнати с страницата за сърфиране в Netflix, която изглежда така:

“Моят списък” може да бъде свързан с “Персонализиран видеорекордер: PVR”, съответстващ на първия от 9-те техники, описани по-горе.

От доста време искахме да гледаме „Altered Carbon“. Така че видяхме няколко секунди от него в началото:

Връщайки се към началната страница, забелязахме нова препоръка:

Това съответства на “Видео-видео прилика”, защото току-що гледахме малко “Altered Carbon”.

Имаше и друг интересен ред от препоръки, който ни показваше най-добрите снимки, които бихме могли да ни интересуват, и бяхме изненадани, докато разглеждахме този списък и открихме, че няма такива, които не бихме искали да гледаме!

Това би било пряко свързано с „Top-N Video Ranker“ от горния списък. “Ittefaq” е напрегнат трилър, който принадлежи към подобен жанр като този на “Шерлок”, който избрахме веднага след като се регистрирахме. “Revolt”, както показва и миниатюрата, трябва да принадлежи към жанр на действие, също като този на “Baahubali 2” или “Bright”. Така че това е получено от филтриране въз основа на съдържание.

Препоръката „Истории от Рабиндранат Тагор” ни изненада още повече. Netflix можеше да препоръча това въз основа на местоположението. Те наистина имат невероятно невероятни алгоритми!

Така че, това беше практическа работа за това как практически работи Netflix. Всички тези интелигентни препоръки не биха били възможни, ако Netflix не приеме подход с отворен код към изкуствения интелект и машинното обучение. Нека сега разгледаме инициативите на Netflix с отворен код.

Инициативата Netflix Open Connect

Собствената мрежа за доставка на съдържание на Netflix (CDN) се захранва от отворен код. Първоначално те предадоха своите услуги за стрийминг на Akamai, Level3 и Limelight. Но в крайна сметка имаха промяна в плановете.

Netflix реши да изгради свой собствен CDN, защото искаше да:

  • Расте по-бързо
  • Намалете разходите
  • Контролирайте сървърната страна на HTTP връзката
  • Изградете CDN, специализирана в Netflix Content Delivery
  • Поставете съдържанието по-близо до клиента

По този начин се появи Netflix Open Connect . А именно, CDN фондацията на Netflix е изградена върху уеб сървъра на NGINX и операционната система FreeBSD, която символизира два силни стълба. Netflix избра да използва BSD лиценз вместо GPL, докато изграждаше своите CDN. Това се дължи на факта, че доставчиците на интернет услуги са участвали основно като трети страни. За да сравните задълбочено и двата лиценза, скочете тук.

NGINX е избран, защото е известен като бърз и стабилен, търговската поддръжка е на разположение от Nginx, Inc. и има гъвкава рамка за потребителски модули. FreeBSD също беше известна като бърза и стабилна операционна система и имаше силна общност на разработчици. Така че, той стана подходящ избор.

И двете неща са свободни и с отворен код, Netflix използва още един проект с отворен код, наречен BIRD Internet Routing Daemon, който обаче използва GPL лиценза. Този инструмент е бил използван за прехвърляне на топологията на мрежата от интернет доставчиците към тяхната собствена система за контрол, която би насочила клиентите към тяхното съответно съдържание.

И трите служиха като чудесни инструменти:

  • 400 000 поточни файла за всеки уред
  • 5000-30, 000 клиентски потока за всеки уред
  • 300-1000 клиента на диск

Инициативата Open Connect, както е описано по-горе, се обсъжда подробно в този цялостен запис на конференцията NGINX:

Слайдове за презентации тук:

Netflix CDN и Open Source от Gleb Smirnoff

Инициатива за открит софтуер на Netflix

Днес инициативата на Netflix Open Source Software говори за техния ангажимент към отворен код. Те имат свой собствен център за софтуер с отворен код ! Страницата на Netflix GitHub ясно показва своите 139 хранилища, управлявани от 52 разработчици. Всички прогностични резултати, които видяхме на практика, се захранват от тези уникални проекти с отворен код, изброени в GitHub.

Netflix има своя собствена дълбока библиотека за обучение, наречена Vectorflow, споменати по-горе. Има още един предсказуем и аналитичен инструмент, наречен Surus. Той има функция, известна като ScorePMML, която дава възможност за ефективно прогнозиране на моделите в облака. Surus може да се използва и за откриване на отклонения или съвпадение на шаблони. Netflix има блог пост за тях също.

резюме

За да обобщим, започнахме с въвеждането на Machine Learning за вас, как Netflix се разви като препоръчител за развлечения, сравнителен анализ с препоръчителния модел на Netflix и Netflix Open Connect, последван от тяхната инициатива с отворен софтуер.

Благодаря ви, че отделихте време и търпеливо прочетете статията. Очакваме с нетърпение повече такива вълнуващи проучвания!

Като крайна бележка, бихме искали да подчертаем забележителния подход на Netflix към изкуството и науката като не две отделни единици. Но като красива унисон да създава чудеса!

Препоръчано

Пълно ръководство за трикратно зареждане на Windows, Kubuntu и Debian
2019
GNOME 3.26 Издаден! Проверете новите функции
2019
3D отпечатване с отворен код: проучване на научни и медицински решения
2019