Hoe staat het met de Woordenschat gesteld?

Wanneer je tijd teveel hebt ga je jezelf de meest willekeurige vragen stellen。 Zo was ik ondertussen redelijk door mijn Netflix lijstje heen en zat ik laatst in de tram naar Spotify的Woordenschat播放列表 te luisteren。 伊德里安·迪尼特·贝恩会见德泽·李斯特; deze播放列表zit vol met Nederlandstalige Hip-Hop en是荷兰的van de meest beluisterde播放列表。

Eenmaal vijf nummers verder begon ik benieuwd te raken naar wat de woordenschat zou zijn van de artiesten死于de jijn geplaatst,gezien de titel。 Een goede再次提出了要求(书呆子?Ja!)。 埃克特(Echter),扎尔·扎雷(Der keer zal er een)分析了Moeten gebeuren vanuit enkel publiekelijke的数据。 Genius.com平台上的Denk hierbij和Spotify的API。

Nederlandstalige嘻哈

这就是您的最佳选择。 Nederlandstalige Hip-Hop总体而言。 Als je alle unieke在“ Spotify排名前200名”中追踪40%的daarvan afkomstig van dit流派。 Een toename死于街头艺术中的嘻哈音乐

Waze deze分析je niet zal uitleggen waarom dit的全部曲目zo goed presteert是het wel leuk om eens wat meer inhoudelijk te kijken naar een een van ons meest gestreamde类型的。

Artiesten选择器

播放列表播放器的播放列表播放器类型分析播放列表播放器的播放器。 会议名称omdat dit vanuit een knipoog naar de titel是begonnen。

曲目清单中的曲目播放器hebgeëxporteerdloopt van 1 januari 2018 tot 28 februari 2018. Waarom de vrijdag? 播放列表中的音乐播放列表不存在,播放列表中的音乐播放器不可用。

Helaas是het niet zo dat voor elk nummer in de playlist de bijbehorende歌词(makkelijk)te vinden zijn。 在bovengenoemde periode中,hebben er 166用 71%的heb kunnen scrapen中的数字表示Een totalal van 118 nummers ,博客文章。

文字挖掘

Voze deze分析了文本挖掘原理。 文本挖掘是van数据挖掘的变体。 文字数据挖掘是数据挖掘的基础,gestructureerd zijn的数据挖掘是gaat的数据命名,plaatsnamen的优先权是数据的挖掘。 Bij文本挖掘在de gegevens zijn dus ongestructureerd的teksten staat网站上的发布信息。

Bij文本挖掘komt het begrip 令牌和 hoek kijken。 位于woorden,sleutelwoorden的dat je de tekstvolgorde opbreekt中的标记化符号,是hele zinnen的象征。 Ik heb ervoor gekozen om de songtekst per woomer den woorden。 根据歌曲510的提示进行设置

Stopwoorden

Als we gaan kijken naar de woordenschat van artiesten en willen tellen hoe vaak bepaalde woorden terugkomen ineen songtekst dan stuit je al snel op zogenaamde stopwoorden。 Deze moeten er daarom eerst uit Voordat je verder kunt gaan analyseren。 Een kleine greep uit de woorden die je vaak tegenkomt maar eruit gehaald zijn:

  • Alle woorden遇到了cijfer的maaréén信。
  • Woorden zoals“ m’n”,“ jij”,“ ik”,“ we”,“ eh”等

Het aantal woorden en woordlengte

在“歌剧院”的歌剧院,我们在歌德克斯特的歌剧院,歌剧院和歌剧院的歌剧院。

Hierbij samengevat een aantal bevindingen;

  • Gemiddelde Lengte: Wanneer,我们在Dan Songmen的voorkomen,我们选择了gemiddelde van 3.9字母 。 德维赫姆·努默斯(Di vijf nummers die het hoog hoogste)
  1. Joost-斯堪的纳维亚男孩; een gemiddelde van 4.8。
  2. Ashafar-Tinhasijen; een gemiddelde van 4.8。
  3. 林间空地-偏执狂; een gemiddelde van 4.7。
  4. Josylvio-吃喝玩乐堆叠 ; een gemiddelde van 4.4。
  5. De Jeugd Van Tegenwoordig-Makkelijk(Voor Ons); een gemiddelde van 4.3。
  • Aantal Unieke woorden:在数据集中waarin 118 Unieke nummers te Vinden Zijn vinden中,我们有4,944个Unieke woorden terug —门96 verschillende(hoofd)artiesten。
  • Meest geavanceerde woorden:我们的门,我们来看看meere gee gebruikt。 De数据集中的页首vijf van langste woorden:
  1. “ aantrekkingskracht” uit het nummer Sugardaddy van Broederliefde。
  2. 面包师乔纳·弗雷泽(Jan Fra Fraser)的“ ondernemingsschap”
  3. “ straatmentaliteit”或“ Die van Josylvio”。
  4. “ achterstandswijk” uit het nummer Tranquille van Soufiane Eddyani。
  5. “ belastingdienst”是一名名叫斯堪的纳维亚男孩的男孩van Joost。

Meest Voorkomende woorden

词云中的语言表达。

De vijf meest voorkomende zelfstandige naamwoorden zijn’money (65个verschillende nummers中为284 keer), beng (6个verschillende nummers中为147keer), ‘bitch’ (51 verschillende nummers中为144keer), ‘shit’ (105 keer) 42个verschillende nummers)和“ fuck” (44个verschillende nummers中的95 keer)。 本身的变种niet voaltkomend van de Nederlandse taal。 😉

类型代币比率

Een Type Token Ratio字样令牌比率在tektek中,enant令牌在antek woorden中。 在分析中,最流行的是最流行的杂志,而Spotify则是追踪曲目。 Deze是Spotify API的中间版本。

Iets wat je kunt opmerken是数字货币的热门话题,其得分是类型令牌比率。

* 播放列表中的Sommige artiesten hebben meerdere nummers播放列表中的。 范德阿尔(Vandaar dat er eerst een)双子座被遗弃了。

仪表板中的Bekijk de uitkomsten

门Middel van een Tableau仪表板可与可视化仪表板交互作用,是hieronder kunt raadplegen的产品。

De weergave是最好的wanneer je het,通过桌面bekijkt。

e头?

  • 有关类型令牌比率的详细信息,请参见。 类型令牌比率的流行度得分。
  • 歌剧中的视觉特效。 De kleur en grootte van de cirkel经常出差。 Middels的鼠标悬停在van het woord inzien上。
  • De derde tab laat je de lengte van de woorden zien。 Middels鼠标悬停在jevan beeld van de woorden和de lengte ervan身上。 范·克莱尔·盖夫特·冯·伦特·范·沃德

免责声明

  • De Periode betreft twee maanden。 Ik Beschikte Niet over de inhoud van de播放列表1月1日2018
  • 播放列表中的Dan Andere。 Daarom wordt er zo veel mogelijk op track-niveau gekeken dan wel een artiest gemiddelde。
  • Dit是100%的业余爱好分析,遇见了Knipoog。 这是播放列表中最喜欢的歌曲的播放器,同时也是播放列表中的歌曲的播放器。
  • Er zijn nog 100 andere leuke dingen te onderzoeken omtrent dit onderwerp(z’n het het genre in z’n totaliteit en vergeleken meted andere genre)。 Wellicht dat dit nog volgt在后来的体育场。 🙂

Tot de volgende keer! Leuk artikel? Geef voal wat拍手hieronder。 👏🏻