Des chiffres et des modèles prédictif pour Kickstarter

Bonsoir à tous,

Je vous propose de créer un projet pour discuter prévisions météo kickstarter.

Pour lancer un peu le sujet, j’ai créé cette page :
http://agregationchimie.free.fr/kickstarter.pdf
qui rassemble quelques idées sur le sujet.


Pour le fun, j’aimerai essayer de voir un peu si on peut essayer de faire un algorithme prédictif qui soit efficace pour la catégorie tabletop.

Attention, ça va discuter mathématiques, probabilité et tout le toutim, donc allergiques au maths, abstenez-vous.

J’ai aussi créé un petit outil pour pouvoir suivre certaines campagnes. Pour l’instant, c’est un peu de l’expérimental et je l’ai utilisé sur la campagne 7th continent pour pouvoir commenter en direct ce qui se passait en terme chiffrés.

Données journalières à partir du jour 20 pour 7th continent :




Trending le dernier jour pour 7th continent :




Pour inaugurer le sujet, je vous propose de parler découpage de la campagne : pour vous, quelle est la durée du rush initial, du rush final (et du coup, quelle est la durée du “ventre mou”.

Pour moi, les 4 premiers jours correspondent à du rush initial et le rush final commence à 72 heures avant la fin avec un deuxième pic à 48h au moment du mail de KS.

Si vous avez d’autres discussions autour des données chiffrées de KS, n’hésitez pas à les poster ici.


Pour le niveau de mathématiques, je pense que ce soit bien qu’on parte sur des bases communes : matrices, outils de base de statistique (moyenne, variance), algèbre de base (distance, norme) en gros, un niveau classe prépa ou licence de mathématiques. Dès qu’on sort de ça, je pense qu’il serait mieux d’expliquer ou de donner un lien explicatif afin de ne pas trop perdre de monde en route.

Ah! Ça, ça va plaire à JMT. laugh

Ce qui m’intéresserai dans ce genre d’approche, c’est de mesurer les impacts extérieurs du type : review d’intel, effet des updates, changement de mise en page, etc.

sertiale dit :Ce qui m'intéresserai dans ce genre d'approche, c'est de mesurer les impacts extérieurs du type : review d'intel, effet des updates, changement de mise en page, etc.

Ça, pour moi, c'est du modèle descriptif : quel est le lien de cause à effet.

Autant, sur une campagne, c'est faisable, autant c'est impossible à faire de manière générique.

CStt dit :Ah! Ça, ça va plaire à JMT. laugh

On en avait parlé sur 7thC ;)

Drapal

Maintenant j’ai lu…

Déjà félicitation pour ton travail de synthèse sur ta page!!! Good news le blog Kickspy n’était pas fermé :slight_smile:

Bon je précise que je n’ai pas tout lu ton article (dans la journée) mais que déjà je sais que mathématiquement je serais probablement souvent largué :slight_smile:
 

Eolindel dit :
Pour inaugurer le sujet, je vous propose de parler découpage de la campagne : pour vous, quelle est la durée du rush initial, du rush final (et du coup, quelle est la durée du “ventre mou”.

Pour moi, les 4 premiers jours correspondent à du rush initial et le rush final commence à 72 heures avant la fin avec un deuxième pic à 48h au moment du mail de KS.
 
En fait il y a deux approches : visuelle et empirique

Visuelle : 
> Le rush initial commence quand tu vois un plateau apparaitre, meme si il a des rebonds plus tard dans quasi tous les projets avec une courbe classique il apparait entre le jour 3 et 5  (ca peut se modéliser sans soucis hein, faut juste définir des bornes…) 
> Le rush final c’est quand tu sors du plateau de maniere définitive : J-3 pour 7thC avec l’annonce du dernier addon (annoncé comme tel, lancement du rush… c’est tres tres net, il y a eu un ajout d’addon massif, sans commune mesure avec les autres addons de la campagne)

Empirique :
> Le rush initial dure 3 à 4 jours (rarement plus, parfois 2 jours)
> Le rush final sauf cas particulier dure 48h (tu vois 3 jours sur KT a cause le plus souvent des décalages d’heures)

[Attention : pour ce bout la chiffres “un peu au pifometre / ressenti”, pour expliquer l’idée… j’ai des données mais pas assez pour dire que c’est statistique]
Pour le ventre mou il est interressant de mesurer une autre donnée que tu n’as pas : les retraits de pledges  (et qui est compliquée a avoir en masse vu qu’il faut des relevés tres proches, a 10-30 secondes max… les porteurs l’ont ou le “moniteur kickstarter” permet de les remonter) 

Une fois que tu as cette donnée tu vois qu’en fait il y a deux phases le plus souvent au ventre mou : 
> Le ventre mou lui meme : qui commence en général 5-8 jours apres le début (apres le gros rush ca reste en général un peu soutenu quelques jours) et là il ne se passe plus lourd, c’est plus ou moins visible sur le montant en fonction de comment le createur dynamise sa campagne, ca se voit en général plus nettement sur le nombre de backers, et leur type (extraire les $1)
> La phase de doute qui arrive sur la fin (et fait partie du ventre mou), j’ai pas assez de stats, mais les créateurs que je connais constatent quasi a tous les coups sur la deuxieme moitié du ventre mou, et encore plus sur la derniere semaine, des départs massifs (attention, massifs dans le sens le double ou triple quotidient de la premiere moitié du ventre mou, pas des % du total des backers), j’ai quelques chiffres en MP si tu veux… Par contre ca semble souvent compensé par ceux qui se décide tardivement, je peut me tromper mais je n’ai pas l’impression qu’on voit aussi souvent une baisse en fin de campagne, alors que a chaque fois que j’ai eu l’info  (créateurs et moniteur) les chiffres sont clairs : sur la deuxieme moitié du ventre mou les retraits s’accelerent tres nettement…
  
Aucune idée de savoir si ca permettrais d’aider a modeliser le truc au final, mais le soucis c’est que c’est dur a relever pour des gros volumes de KS… 

Pas sur d’avoir vraiment avancé le schmilblick :slight_smile: mais y’a surement des réponses la dedans :slight_smile:

J’adore.
Ce sujet mériterait d’ailleurs un site dédié ou au moins un blog.
Je viendrai vous lire avec beaucoup d’attention pour améliorer mes connaissances. J’ai vraiment trop peu de recul pour pouvoir ajouter des éléments.

Un petit point sur lequel les données me manquent : y a-t-il des KS qui ne suivent pas la fameuse courbe dite de la baignoire (ou en cloche). Ceux que je suis et backe la respectent, mais est-ce vraiment une loi ou y a-t-il des exceptions (ex. : le gros des fonds récoltés s’est fait au milieu de la campagne et ni au début ou à la fin).
Bref, si vous avec des exemples d’irrégularités (et de leur éventuelle explication) je suis preneur.
Pour l’instant, tous les KS que j’ai suivis respectent la règle (Cthulhu V7 US, Cthulhu V7FR, 7th COntinent)

[EDIT : Désolé j’ai édité tout refait heart ]

Disons que c’est une norme pour la grande majorité (liée au fonctionnement du média… j’aime pas le terme outil, parce que ce n’en est pas un) mais certains ne suivent pas cette courbe :slight_smile:

Souvent avec des explications, parfois comme fief “black voodoo magic” (pour moi du moins…)… 

Fief : black voodoo magik (pour moi du moins)
Fief - France 1429 by Uwe Eickert :: Kicktraq

Drakerys : Gros probleme sur l’offre… gestion désastreuse l’offre (irrécupérable) et de la dynamique de campagne = sanction méritée a l’arrivée, pas de surprise…
Drakerys, the miniature game by Don't Panic Games :: Kicktraq

Myth : Bonne gestion de dynamique de campagne… débuts laborieux mais ils ont dynamisé avec les SG et addons a la pelle… je comprends pas leurs choix de campagnes (faut aimer souffrir), mais je comprends comment ils font maintenant et ca marche a tous les coups (3 fois c’est plus un hasard c’est une méthode…)
MYTH by MERCS Miniatures :: Kicktraq


C’est des vieilles campagnes mais premieres qui me viennent en tete, elles sont malgré tout significatives, mais je ne saurait pas rédétailler leur déroulement sans les re desosser a la main…

Ah oui, merci pour les infos
Myth c’est très parlant - courbe en U sans la moitié gauche du U… mais avec la moitié droite
Il y a cependant bien un rush de fin - donc il ne remet pas complètement en question le modèle en U (peut-être juste une mauvaise gestion de la pré-campagne?)

Ah oui, merci pour les infos
Myth c’est très parlant - courbe en U sans la moitié gauche du U… mais avec la moitié droite
Il y a cependant bien un rush de fin - donc il ne remet pas complètement en question le modèle en U (peut-être juste une mauvaise gestion de la pré-campagne?)

Drapal !

ericdedalus dit :Ah oui, merci pour les infos
Myth c'est très parlant - courbe en U sans la moitié gauche du U... mais avec la moitié droite
Il y a cependant bien un rush de fin - donc il ne remet pas complètement en question le modèle en U (peut-être juste une mauvaise gestion de la pré-campagne?)

[DISCLAIMER : ces 3 KS datent d'un époque ou 500k c'était 1M d'aujourd'hui... voir plus]

Alors oui et non (je la fait de mémoire je peut me tromper sur les détails) Il y a le U mais moins marqué 25k > 6k...en fait il y a eu en effet un démarrage mou mais lié a l'offre (et leur premier KS donc pas de base de backers)... ensuite ils ont (prévu ou pas telle est la question) sortis une énorme machine a addon vers la fin et lachés les SG a la pelle qui ont déclenchés un emballement monstre... normalement ils auraient du faire une cinquantaine de k et la tu aurais eu ton U, mais ils ont emballés la machine dans un cercle win-win exponentiel (je t'invites a regarder le contenu proposé a J-5 et a la fin en terme de SG)...

En fait je triche, dans le sens ou mon autre exemple a aussi des raisons de gestion de campagne... Drakerys c'etait (memoire aussi, ca date et je vieilli) un EB cher qui pouvait sembler super sexy (une sorte de allin a la SoB), plein de monde l'a pris, et au moment de l'abitrage final les gens ont regardés ce qui était vraiment débloqué et ont fuit... d'ou la chute...

C'est comme ca que j'ai trouvé les exemples :) pas parce qu'ils avaient des courbes étranges, mais je me souvenais de la campagne et sa gestion (et resultat)..  Sauf fief, je t'invites a regarder mare nostrum aussi qui eux sont des abhérations (MN le rush initial est un EB 48h...)

Je suis en train d’essayer de voir pour implémenter les différents modèles et le “nourrir” avec les données de Etter puis voir comment faire pour faire de même avec les données extraites par mon script en se limitant à la catégorie tabletop.

Drapeau aussi, ça va être intéressant  (je pars lire ton site)

Idem, je me demande quelle est la granularité optimale :
- trop fine et on a trop de points ce qui alourdit énormément les calculs (du coup, l’update toutes les 20 secondes pour la deuxième partie du ventre mou, ça me semble irréalisable sur le plan technique)
- trop large et on perd des détails

Pour moi, une heure me semble un bon compromis (un peu plus fin au début pour compenser la faible durée de la campagne). Idem dans les dernières quarante huit heures, et au milieu, je pense que 1 point par jour suffit.


Pour les histoires de distance, je vais voir si je peux essayer de faire des clusters de données pour grouper les campagnes par type d’évolution de leur courbe.

J’ai moyen le temps la mais :
- Pour les approches paramétriques,  Je suis presque sur que faire une régression exponentielle du tending (la valeur vers la quelle tend la prolongation linéaire jusqu’à la fin de la campagne) doit donner de bons résultats. Dans ce cas on ne serait pas loin des modèles de séries temporelles par exponential smoothing. 
- Pour le non paramétrique avec assez de données on peut même estimer l’effet probable des updates. La je recommande (sans garantie) de tout discrétiser assez fort (y compris en intégrant dans la description les jours) et de tenter une forêt aléatoire ou bien une régression logistique (par descente de gradient si nécessaire). On peut sans doute faire plus “simple” avec du clustering de courbes (mais bonjour pour le choix de la distance)

jeremie dit :J'ai moyen le temps la mais :
- Pour les approches paramétriques,  Je suis presque sur que faire une régression exponentielle du tending (la valeur vers la quelle tend la prolongation linéaire jusqu'à la fin de la campagne) doit donner de bons résultats. Dans ce cas on ne serait pas loin des modèles de séries temporelles par exponential smoothing.
Ça me semble honnête mais dans ce cas, on zappe l'effet du rush final qui compte pourtant de manière non négligeable dans le total du montant récolté non ?

- Pour le non paramétrique avec assez de données on peut même estimer l'effet probable des updates. La je recommande (sans garantie) de tout discrétiser assez fort (y compris en intégrant dans la description les jours) et de tenter une forêt aléatoire ou bien une régression logistique (par descente de gradient si nécessaire). On peut sans doute faire plus "simple" avec du clustering de courbes (mais bonjour pour le choix de la distance)
 

forêt aléatoire et régression logistique, je ne connaît pas, si tu peux prendre le temps d'expliquer, tant mieux.

Pour les updates, pour moi, certes, ça rentre en compte, mais ça me semble difficile de prédire la nature de l'update en se basant sur les courbes : comme tu le dis, soit il faut prédire en regardant l'évolution du montant peu après le nouvel update mais dans tous les cas, on ne peux pas prédire ex nihilo le nombre d'update et add-on d'une campagne.

Pour le niveau de mathématiques, je pense que ce soit bien qu'on parte sur des bases communes : matrices, outils de base de statistique (moyenne, variance), algèbre de base (distance, norme) en gros, un niveau classe prépa ou licence de mathématiques. Dès qu'on sort de ça, je pense qu'il serait mieux d'expliquer ou de donner un lien explicatif afin de ne pas trop perdre de monde en route.

jeremie dit :J'ai moyen le temps la mais :
- Pour les approches paramétriques,  Je suis presque sur que faire une régression exponentielle du tending (la valeur vers la quelle tend la prolongation linéaire jusqu'à la fin de la campagne) doit donner de bons résultats. Dans ce cas on ne serait pas loin des modèles de séries temporelles par exponential smoothing. 
- Pour le non paramétrique avec assez de données on peut même estimer l'effet probable des updates. La je recommande (sans garantie) de tout discrétiser assez fort (y compris en intégrant dans la description les jours) et de tenter une forêt aléatoire ou bien une régression logistique (par descente de gradient si nécessaire). On peut sans doute faire plus "simple" avec du clustering de courbes (mais bonjour pour le choix de la distance)
 

Je m'autorise un petit HS, promis un seul, après j'arrête.

J'ai voulu suivre ce sujet parce que le participatif m'intéresse et j'ai donc sciemment zappé l'avertissement "No Maths Addict Verboten" du premier post. J'aurais pas du. Non. Il faut toujours tenir compte des avertissements. Parce que je n'ai pas saisi le début du commencement du moindre traître mot de ce paragraphe. Rien. Que dalle. Nada. Et je ne sais pas qui je dois plaindre le plus, moi qui suis un gros nul en maths et stats ou ceux qui sont capables de pondre de tels texte et de les lire comme un mot doux de leur tendre aimée.

Je doute.

Voilà. C'est tout.






Au cas où, je précise que ce post est à visée rigolatoire et n'a rien d'injurieux. En tous cas, pas dans l'intention. Les haches volent bas cette saison.

Je m'autorise un petit HS, promis un seul, après j'arrête.


J'ai voulu suivre ce sujet parce que le participatif m'intéresse et j'ai donc sciemment zappé l'avertissement "No Maths Addict Verboten" du premier post. J'aurais pas du. Non. Il faut toujours tenir compte des avertissements. Parce que je n'ai pas saisi le début du commencement du moindre traître mot de ce paragraphe. Rien. Que dalle. Nada. Et je ne sais pas qui je dois plaindre le plus, moi qui suis un gros nul en maths et stats ou ceux qui sont capables de pondre de tels texte et de les lire comme un mot doux de leur tendre aimée.

Je doute.

Voilà. C'est tout.
Au cas où, je précise que ce post est à visée rigolatoire et n'a rien d'injurieux. En tous cas, pas dans l'intention. Les haches volent bas cette saison.
 

Je vais essayer de faire en sorte que ce soit le plus clair possible (avec des formules pour comprendre) mais il ne faut pas avoir peur hein, je n'ai pas une formation de mathématicien, (scientifique certes) mais le but étant justement de démystifier un peu et de voir un peu comment on peut jouer avec un modèle.


Pour l'instant, avec les données de Etter, je suis en train de voir comment faire pour minimiser la distance entre plus proches voisins afin de distinguer des familles de courbes.  Mais bon, vu que je fais ça en python, que je redécouvre un peu numpy et que je ne suis pas informaticien non plus, ça prend un peu de temps.