2021年美国大学生数学建模竞赛D题思路分析

2021年09月15日 阅读数:1
这篇文章主要向大家介绍2021年美国大学生数学建模竞赛D题思路分析,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

下载连接

2021美赛题目下载:连接:https://pan.baidu.com/s/1yFdg3vBMS4MY7CnQ3PMG9Q
提取码:6666算法

原文翻译

2021年国际商会
问题D:音乐的影响
音乐是人类社会的一部分,是文化遗产的重要组成部分。做为理解音乐在人类集体经验中所扮演角色的努力的一部分,咱们被要求开发一种方法来量化音乐进化。当艺术家创做一首新音乐时,有许多因素能够影响他们,包括他们与生俱来的创造力、当前的社会或政治事件、得到新的乐器或工具的机会或其余我的经历。咱们的目标是了解和衡量之前制做的音乐对新音乐和音乐艺术家的影响。一些艺术家能够列出十几个或更多的其余艺术家,他们说他们影响了他们本身的音乐做品。还有人建议,影响能够用歌曲特征之间的类似程度来衡量,如结构、节奏或歌词。音乐有时会发生革命性的变化,提供新的声音或节奏,例如当一个新的体裁出现时,或者有一个现有的体裁的从新发明(例如。古典、流行/摇滚、爵士乐等。)。这多是因为一系列微小的变化,艺术家的合做努力,一系列有影响力的艺术家,或社会内部的转变。许多歌曲有着类似的声音,许多艺术家为音乐流派的重大转变作出了贡献。有时这些变化是因为一个艺术家影响另外一个艺术家。有时,它是针对外部事件(如重大世界事件或技术进步)而出现的变化)。经过考虑歌曲网络及其音乐特征,咱们能够开始捕捉音乐艺术家对彼此的影响。也许,咱们还能够更好地了解音乐是如何随着时间的推移在社会中演变的。您的团队已经被整合集体音乐(ICM)协会肯定,以开发一个衡量音乐影响的模型。这个问题要求你研究艺术家和流派的进化和革命趋势。为了作到这一点,ICM给了您的团队几个数据集:编程

  1. “influence_data”1 表明音乐影响者和追随者,如艺术家本身报告的,以及行业专家的意见。这些数据包含了过去90年来5,854名艺术家的影响者和追随者。
  2. “full_music_data”2 提供16个可变的条目,包括音乐特征,如舞蹈性,节奏,响度和键,以及98,340首歌曲的artist_name和artist_id。这些数据用于建立两个汇总数据集,包括:
    a. 艺术家“data_by_artist”的平均价值”,
    b. 意味着多年的“data_by_year”。
    1 这些数据来自All Music.com
    2 这些数据是从Spotify的API中得到的
    注意:这些文件中提供的数据是较大数据集的子集。这些文件包含了你要为这个问题使用的惟一数据。
    为了实施这个具备挑战性的项目,ICM协会要求您的团队经过音乐艺术家随时间的影响来探索音乐的演变,具体作法以下:
  • 使用influence_data数据集或其部分建立一个(多个)有向网络的音乐影响,其中影响者链接到追随者。开发在这个网络中捕获“音乐影响”的参数。经过建立你的定向影响者网络的子网来探索音乐影响的子集。描述这个子网。你的“音乐影响”措施在这个子网中揭示了什么?数组

  • 使用full_music_data和/或两个汇总数据集(与艺术家和年份)的音乐特征,以制定音乐类似性的度量。用你的衡量标准,流派中的艺术家是否比流派之间的艺术家更类似?网络

  • 比较体裁之间和体裁内部的类似性和影响。一个体裁的区别是什么,体裁是如何随着时间的推移而变化的? 有些体裁与其余体裁有关吗?ide

  • 指出data_influence数据集中报告的类似性数据是否代表已识别的影响者实际上影响了各自的艺术家。“影响者”真的会影响追随者创造的音乐吗? 有些音乐特征是否比其余音乐更具备“传染性”,或者它们在影响特定艺术家的音乐方面都有相似的做用?工具

  • 从这些数据中肯定是否有可能意味着音乐进化的革命(重大飞跃)的特征? 什么艺术家表明革命者(重大变革的影响者)在你的网络?大数据

  • 分析音乐演变的影响过程,随着时间的推移,在一个体裁。你的团队能找出揭示动态影响者的指标,并解释流派或艺术家是如何随着时间的推移而变化的吗?编码

  • 你的做品如何在时间或环境中表达关于音乐文化影响的信息? 或者,如何在网络中识别社会、政治或技术变革(如互联网)的影响?
    写一份一页的文件给ICM协会,关于使用你的方法来理解音乐经过网络的影响的价值。考虑到这两个问题数据集仅限于某些类型,而后是两个数据集共同的艺术家,您的工做或解决方案将如何随着更多或更丰富的数据而变化? 建议进一步研究音乐及其对文化的影响。来自音乐、历史、社会科学、技术和数学领域的跨学科和多样化的ICM协会期待着您的最后报告。
    您的PDF解决方案不超过25页,应包括:.net

  • 一页汇总表。翻译

  • 目录。

  • 你的解决方案。

  • 提交ICM协会的一页文件。

  • 参考资料清单。
    注:2021年新 ICM竞赛如今有25页的限制。您提交的全部方面都按25页的限制计算:摘要表、目录`解决方案主体、图像和表格、一页文档、参考列表和任何附录。
    附件
    咱们为这个问题提供了如下四个数据文件。提供的数据文件包含您应该用于此问题的惟一数据

    1. influence_data.csv

    2. full_music_data.csv

    3. data_by_artist.csv

    4. data_by_year.c
      sv数据描述

    5. influence_data.csv
      (数据以utf-8编码,以便处理特殊字符):

      • influencer_id:给被列为影响者的惟一识别号码。(一串数字)
      • influencer_name:由追随者或行业专家给出的影响艺术家的名字。(字符串)
      • influencer_main_genre:最能描述影响艺术家创做的大部分音乐的体裁。(若是可
        用)(字符串)
      • influencer_active_start:影响艺术家开始音乐生涯的十年。(整数)
      • follower_id:给被列为跟随者的艺术家的惟一识别号码。(一串数字)
      • follower_name:跟随影响艺术家的艺术家的名字。(字符串)
      • follower_main_genre:最能描述如下艺术家创做的大部分音乐的体裁。(若是可
        用)(字符串)
      • follower_active_start:如下艺术家开始音乐生涯的十年。(整数)
    6. full_music_data.csv 3. data_by_artist.csv 4. data_by_year.csv
      Spotify音频功能来自“full_music_data”、“data_by_artist”、“data_by_year”:

      • artist_name:表演曲目的艺术家。(数组)
      • artist_id:influence_data.csv文件中给出的相同惟一标识号。(一串数字)音乐的特色:
      • 舞蹈性:一种基于音乐元素的组合,包括节奏、节奏稳定性、节拍强度和总体规律性,来衡量一个曲目是否适合跳舞。值0.0是最不可跳舞的,1.0是最可跳舞的。(浮动)
      • 能量:表示对强度和活动的感知的度量。值0.0是最不强烈/能量的,1.0是最强烈/能量的。一般,充满活力的轨道会感受快速、响亮和嘈杂。例如,死亡金属有很高的能量,而巴赫的前奏在量表上得分很低。这一属性的感知特征包括动态范围、感知响度、音色、起跳率和通常熵。(浮动)
      • 价态:一种描述曲目所传达的音乐积极性的度量。值0.0最负,1.0最正。高价音的轨道更积极(例如。快乐,开朗,兴高采烈),而低价音轨听起来更消极(例如。悲伤,沮丧,愤怒)。(浮动)
      • 节奏:以每分钟节拍为单位的轨道的整体估计节奏(BPM)。在音乐术语中,节奏是给定做品的速度或节奏,直接来源于平均节拍持续时间。(浮动)
      • 响度:轨道的总体响度,单位为分贝(dB)。值在-60到0db之间的典型范围。响度值在整个轨道上是平均的,对于比较轨道的相对响度是有用的。声音是声音的质量,是身体力量(振幅)的主要心理关联)。(浮动)
      • 模式:一种轨迹的情态(主要或次要)的指示,它的旋律内容是从其尺度的类型。主修用1表示,辅修用0表示。
      • 关键:估计轨道的整体关键。整数映射到点,使用标准的Pitch类表示法。E.g。0=C,1=C♯/D♭,2=D等等。若是没有检测到键,则键的值为-1。(整数)唱腔类型:
      • 声学:衡量轨道是否声学(没有技术加强或电气放大)的置信度)。值1.0表示高度置信,轨道是声学的。(浮动)
      • 工具性:预测一个曲目是否包含没有声音。在这种状况下,“呜”和“啊”的声音被视为工具。说唱或口语曲目显然是“声乐”。器乐值越接近1.0,曲目不包含声乐内容的可能性就越大。高于0.5的值意在表示工具轨道,但随着值接近1.0,置信度更高。(浮动)
      • 活力:在赛道上检测观众的存在。较高的活性值表示轨道被实时执行的几率增长。高于0.8的值提供了轨道运行的强烈可能性。(浮动)
      • 言语:在一个轨道上检测口语的存在。更纯粹的演讲就像录音(例如。脱口秀,有声书,诗歌),属性值越接近1.0。高于0.66的值描述了可能彻底由口语构成的音轨。值在0.33到0.66之间,描述可能包含音乐和语音的曲目,不管是在部分仍是分层,包括说唱音乐。低于0.33的值最有可能表明音乐和其余非语音类曲目。(浮动)
      • 显式:检测曲目中的显式歌词(真(1)=是的;假(0)=不,它没有或未知)。(布尔值)
        说明:
      • duration_ms:轨道的持续时间(毫秒。(整数)
      • 流行:赛道的流行。值将在0到100之间,其中100是最受欢迎的。流行度是经过算法来计算的,在很大程度上是基于赛道上的总播放次数和最近的播放次数。通常来讲,如今播放频率更高的歌曲将比过去播放频率更高的歌曲更受欢迎。重复轨道(例如。同一曲目来自单一和专辑)是独立的。艺术家和专辑的流行在数学上来源于曲目的流行。(整数)
      • 年份:轨道发布的年份。(1921年至2020年为整数)
      • release_date:轨道发布的日历日期大多采用yyyy-mm-dd格式,但日期的精度可能会有所不一样,有些只是做为yyyy给出的。
      • song_title(审查):轨道的名称。运行软件是为了删除歌曲标题中任何潜在的显式单词。
      • 计数:特定艺术家的歌曲数量表示在full_music_data.csv文件中。(整数)
思路分析

D题理解
问题中心:音乐的影响
题目要求:
(1)根据附件数据influence_data,构建音乐人之间的定向网络模型,或许会根据不一样的音乐派别划分红多个子图,进而作出描述性分析与可视化;构建影响力指标表示音乐人的影响程度,能够参考复杂网络、聚类思想中的有向加权度指标。
(2)根据附件数据full_music_data 探讨不一样流派音乐内部的类似性,能够参考聚类有效性评价指标DB、DUNN等,关键问题是须要咱们构建类似性指标。
(3)分析不一样类别音乐人或音乐之间的类内类似性差别,这些差别随时间是如何变化的,不一样类别的音乐人或派系之间是否存在交互(文化背景等因素所致使)。
(4)分析不一样派系的音乐中,影响者到链接者之间的影响力(Q1指标)是否存在明显差别或共性,如7种音乐特性与5种人声特征之间的规律。
(5)从数据中找出重大变革时间点,肯定这些时间点的历史背景,肯定主要的特征以更有效地表示这些飞跃,找出相关巨大贡献的艺术家。
(6)分析不一样类型音乐随时间变化的影响过程(内部音乐人互相影响、外部不一样派系音乐之间的影响)。提出综合指标来表示这种影响随时间的变化模式。
(7)该小问较难,一种可行的建议是从音乐人的做品数据(歌曲名、歌词等)中提取文本信息,获取主题词汇来表示时间、环境特征。
(8)模型推广。进一步研究模型的运行模式,以适用于更丰富的音乐数据集等。
这道题交叉性强,发挥空间大,工做量重,但并不难理解,适合有初步编程基础的同窗下手。

详细思路

下面思路出处:DS数模公众号

音乐从一开始就是人类社会的一部分,是文化遗产的重要组成部分。为了理解音乐在人类集
体经验中所扮演的角色,咱们被要求开发一种量化音乐进化的方法。当艺术家创做一段新的音乐时,有许多因素会影响他们,包括他们天生的创造力,当前的社会或政治事件,使用新乐器或工具,或其余我的经历。咱们的目标是了解和衡量以前制做的音乐对新音乐和音乐艺术家的影响。
分析:题目中明确指出须要量化音乐,影响因素给出了天生的创造力,当前的社会或政治事件,使用新乐器或工具,或其余我的经历。在建模时,除给出的因素外,应当考虑其余因素,好比共用几种乐器,音乐人的年龄,音乐人的社会地位和在领域内的地位,艺术家所属领域的热门程度等。
目标是衡量以前制做的音乐对新音乐和音乐艺术家的影响,这里的以前制做的音乐是某艺术家以前制做的仍是历史全部的音乐暂未代表,因此可能须要你们选择其中一个角度去建模,注意目标
是量化对新音乐、音乐艺术家(两个目标,两个模型)的影响。
一些艺术家能够列出十几个甚至更多的其余艺术家,他们说他们影响了本身的音乐做品。
也有人认为,影响能够经过歌曲特征(如结构、节奏或歌词)之间的类似程度来衡量。有时音
乐也会发生革命性的转变,提供新的声音或节奏,例如当一种新的流派出现,或现有流派的
从新发明(如古典、流行/摇滚、爵士等)。这多是因为一系列的小变化,艺术家的合做努力,一系列有影响力的艺术家,或社会内部的转变。
分析:这段话的信息量很是大。首先艺术家之间的影响能够用人物关系图或知识图谱(较难)
来分析,其中的类似程度能够利用相关分析,热力图来量化和展现。歌曲特征除了提到的结构、节奏或歌词(在问题分析中会详细说明如何量化),还能够添加一些本身想到的特征。
对于后半段话,题目可能会问革命性转变的出现条件和几率,每每新的流派会较难出现,而从新发明会随着艺术家和相关做品的增长而提升出现几率。
许多歌曲都有类似的声音,许多艺术家为音乐流派的重大转变作出了贡献。有时这些变化
是因为一个艺术家影响另外一个艺术家。有时是对外部事件(如世界重大事件或技术进步)的反应而产生的变化。经过考虑歌曲网络及其音乐特征,咱们能够开始捕捉音乐艺术家对彼此的影响。也许,咱们也能够更好地了解音乐是如何随着社会的变迁而演变的。
分析:背景说到音乐流派的重大转变是因为一个艺术家影响另外一个艺术家或者外部事件(如世界重大事件或技术进步)的反应而产生的变化,这个是后面的模型创建须要的。后半段表示,题目可能会问到如何经过考虑歌曲网络及其音乐特征去量化音乐艺术家对彼此的影响,音乐是如何随着社会的变迁而演变的。你的团队已经被综合集体音乐(ICM)协会肯定为一个衡量音乐影响力的模型。这个问题要求你审视艺术家和流派的进化和革命趋势。为了完成这个具备挑战性的项目,ICM 协会要求您的团队经过如下方式来探索音乐的演变,经过对音乐艺术家的影响来进行研究:
(1)使用 Influence_Data 数据集或其中的一部分建立音乐影响力的(多个)定向网络,其
中影响者链接到追随者。开发参数来捕捉这个网络中的‘music influence’。经过建立定向影
响 者网络的子网络来探索音乐影响力的子集。 描述此子网。 在这个子网络中, 你的‘music
influence’指标揭示了什么?
分析:influence 的数据集分析见文末的 附1 数据集分析,这里仅阐述解题思路。(后面的问题类同)
此题仅须要influence 数据集便可,若是有能力能够在这里创建一个知识图谱。实际此题的目
的是为了肯定艺术家的音乐影响力,而创建所须要的定向网络就是让influence 中的影响者艺
术家和追随者艺术家之间产生映射联系。
我给出的方法是首先添加数据列音乐领域始祖,也就是对全部数据进行溯源,若是追随者和影响者的领域相同,找出影响者是追随哪一个影响者的,这个须要代码实现。添加数据列影响人数,对于某一肯定的影响者,找到被此影响者直接或间接影响的人数。作出领域人数表,计算出领域内的艺术家大师共有多少人。在相同领域,能够根据不一样年份作可视化(折线图最好),观察并得出不一样领域的巅峰年份(新生代人才最多的)。这时,子网络参数就算创建好了。而后创建misic influence 模型,能够创建综合评价模型(有不少,选择其一),这里选用灰色综合评价法,指标为此艺术家的影响人数,所在领域人数,所在领域年份人数,所在领域年份影响力排名(计算方法为:先筛选出艺术家所在领域此年份的全部人,而后根据影响人数进行排名),所在年份竞争力(这一年份的全部领域的艺术家总人数)。(对于模型的求解过程,在论文中以一个领域的一个年份进行展现便可)
(2)使用 FULL_MUSIC_DATA 或音乐特征的两个汇总数据集(具备艺术家和年份)来开发
音乐类似性度量模型。用你的衡量标准,流派内的艺术家比流派间的艺术家更类似吗?
分析:这里选用 FULL_MUSIC_DATA 数据集和第一问用到的数据集进行分析。题目的要求是开发音乐类似性度量模型,并判断是否流派内的艺术家比流派间的艺术家更类似。
因为指标不少,能够利用两种方法进行处理。1 能够利用相关分析探究各指标与受欢迎程度之间的相关关系,将相关性低的几个指标剔除。 2 能够利用主成分分析对数据进行降维
对于音乐类似性度量模型,须要用到FULL_MUSIC_DATA 数据集,关于如何处理数据集在文末附1。音乐类似性主要指的是两个音乐之间的类似程度,再对数据集进行数据清洗以后,能够用代码计算出音乐间的类似程度,经常使用皮尔逊相关系数和余弦类似度,能够看看下面的博客https://blog.csdn.net/weixin_39050022/article/details/80732249
除此以外,能够对其进行可视化,画出相关关系热力图,能够直观反映音乐间的类似性(挑6-10 个左右的歌曲便可,在论文中进行展现)
针对后一问,根据艺术家所属流派,对于艺术家进行聚类分析(DBSCAN 或者kmeans)查看流派内的艺术家与流派见的艺术家的相关关系,聚类分析展现出的图(不一样流派用不一样颜色的点)能够直观反映流派间与流派内的关系。
(3)比较流派之间和流派内部的类似之处和影响。流派的区别是什么?流派是如何随着时
间的推移而????变化的?有些流派与其余流派有关联吗?
分析:进一步对第二问的结果进行数据挖掘,这一问前半问很简单,除了前一问的结果外,查阅一点文献,加上一些数据分析就能够了。
对于流派是如何随着时 间的推移而变化的,能够针对某一流派进行阐述,第一问介绍了时间推移此领域的新生代人数,除此以外也能够看这一领域此年份的发歌量,能够作折线图来看一个流派的兴衰。而后根据一些重要的时间节点,好比拐点或者增加率很高或很低的节点,查看FULL_MUSIC_DATA 数据集中对应的时间内,此领域或者乐坛发生了什么变化,是否有很著名的歌曲,或者因为别的领域火热,致使此领域人数,歌曲变少了。这里能够自行发挥,语文建模你们都很擅长haha,针对有些流派与其余流派是否有关联,能够看同一艺术家是否在不一样流派发表了歌曲,或者不
同艺术家之间的影响关系(Influence_Data 数据集)。
(4)说明 DATA_influence 数据集中报告的类似性数据是否代表识别出的影响者实际上影
响了各自的艺术家。“有影响力的人”真的会影响追随者创做的音乐吗?是某些音乐特征比其
他特征更具“感染力”,仍是它们在影响某个特定艺术家的音乐方面都扮演着类似的角色?
分析:对于前半问,“有影响力的人”真的会影响追随者创做的音乐吗?答案是确定的,由于
后半问在问前半问确定回答后的结论。
前半问须要你们发动本身的智慧,只要扯上关系证实真的会影响便可。对于后半问,能够针对性地作验证分析。某些音乐特征比其余特征更具“感染力”,能够参考前文说的相关性分析,也就是在FULL_MUSIC_DATA 数据集中利用相关分析探究各指标与受欢迎程度之间的相关关系,相关性更高,表示更有感染力。它们在影响某个特定艺术家的音乐方面都扮演着类似的角色,这个能够对一个有名的艺术家进行探讨,针对不一样的指标,查看影响者与被影响者之间指标的类似程度,能够搞一个对比图、南丁格尔玫瑰图或者雷达图(后两个更好一点,在进阶思路中给出画的软件和方法),最后进行数据分析。
(5)从这些数据中找出音乐演进过程当中是否有可能革命性(重大飞跃)的特征?在您的网络
中,哪些艺术家表明变革者(重大变革的影响者)?
分析:这个在前面的分析中说到了,就是观察折线图的拐点或者增加率很高或很低的节点,而后针对这一节点,分析为何会出现这样的状况,将这一时期的艺术家和做品都列出来,查看做品的各个指标有什么比较突出的特色(突出不突出,就和全部做品的平均值作对比,与平均值差距很大则表明很突出),这样的特色就是题目中描述的革命性(重大飞跃)的特征
对于后半问就须要你们根据已有的结论本身寻找了,有了前面的基础(第一问的影响力不要忘了),这个很简单。对于这道题的结果能够以表格的形式呈现,能够看看突出显示表,画出来效果很好看。
(6)分析一种流派中随着时间发生的音乐演变的影响过程。您的团队可否肯定可以揭示动
态影响者的指标,并解释流派或艺术家如何随着时间的推移而????变化?
分析:这道题须要根据前面本身的结论得出答案,这里提示几点:1 每个流派都有本身很突出的几个指标,将这几个指标找出来。 2 动态影响者的指标必定是更突出的,能够将欢迎程度做为重要指标。 3 对于单个艺术家,能够看看根据历史推移,作了哪些改变,歌曲的指标发生了什么变化。 4 语文建模题,加油!
(7)你的工做如何表达音乐在时间或环境中对文化的影响?或者,如何在网络中识别社会、政治或技术变化(如互联网)的影响?
分析:此问的目标是,如何在网络中识别音乐对社会、 政治或技术变化(如互联网)的影响。这一问能够参考大量文献和新闻,语文建模题。
这里提供一些个人想法,对于社会和政治而言,在和平稳定的年代与战争年代的歌曲特征是不同的,冷战、二战、工业革命、互联网的高速发展可能对音乐有很大的影响,一样音乐也对这些历史事件有所影响。互联网的出现影响了音乐播放的形式,特别是如今的电子音乐对于之前的传统媒介,好比唱片机等影响很大,科学技术的发展可能也会致使人们对于音乐领域的爱好有所差别。向ICM 协会写一份一页纸的文件,说明使用你的方法经过网络了解音乐影响的价值。考虑到这两个问题数据集仅局限于某些类型,随后又局限于这两个数据集所共有的艺术家,你的工做或解决方案将如何随着更多或更丰富的数据而改变?建议进一步研究音乐及其对文化的影响。
ICM 协会,一个来自音乐,历史,社会科学,技术和数学领域的跨学科和多样化的团体,
期待你的最终报告。
写信这个是美赛的绝活,你们总结一下论文就好,内容在1-2 页均可以。注意信的格式,
还有就是信能够在目录后写,也能够在附录前写,能够参考之前的o奖论文。
不超过25 页的PDF 解决方案应该包括:•一页摘要表。
•目录。
•您的完整解决方案。
•给ICM 协会的一页文件。
•引用列表。
问题分析的重要修正:在一开始我是从题目开始看,用到什么数据集就去看看数据集,致使两个数据集没有看到。从第三问开始,你们根据那两个数据集能够减小一些我思路的难度,不过大致方向个人思路是没问题的,后几问我写了须要算的东西,其实在那两个数据集里面会有。
附1 附1 数据集分析
数据集来源:
1 表明音乐领域的影响者和追随者,这不只来自艺人本身的报道,也来自行业专家的观点。
这些数据包含了过去90 年里5854 位艺术家的影响者和追随者。
2“full_music_data”2 为98,340 首歌曲提供16 个变量条目,包括舞蹈性、节奏、响
度和键等音乐功能,以及每种歌曲的artist_name和artist_id。这些数据用于建立两个
汇总数据集,包括:
a.艺术家“data_by_artist”的平均值,
b.表示年份“data_by_year”。
1 这些数据是从AllMusic.com上搜集来的
2 这些数据来自Spotify的API
注意:这些文件中提供的数据是更大数据集的子集。这些文件包含您应该用于解决这个
问题的惟一数据。
分析:这段话代表不能够另外找数据,必须得用美赛提供的D题数据,下面对每一个
数据集进行分析。
influence_data.csv
数据集的指标分析:
influencer_id:影响者艺术家的标识号。部分多是字符串数据类型,应全改成整数类型后再对数据集进行
后续处理。
influencer_name:影响者艺术家的姓名。一个id对应一个姓名
influencer_main_genre: 影响者艺术家的音乐流派。
influencer_active_start: 影响者艺术家开始音乐生涯的年份。
follower_id: 追随者艺术家的标识号。部分多是字符串数据类型,应全改成整数类型后再对数据集进行后续处理。
follower_name:追随者艺术家的名字。
follower_main_genre: 追随者艺术家的音乐流派。
follower_active_start: 追随者艺术家音乐生涯的年份。
数据集的数据预处理:
首先剔除有空值的数据,这些数据是不完整的,不利于数据分析与建模。对于id和姓名
不对应的数据也应剔除,是异常数据。对于影响者开始音乐生涯的年份晚于追随者艺术家
音乐生涯的年份的数据也要剔除,是异常数据。
2. full_music_data.csv
数据集的指标分析:
artist_names:艺术家的姓名
artists_id:艺术家的标识号
danceability:衡量此音乐是否适合跳舞的指标。0 最不适合跳舞,1为最适合跳舞
energy:一种表示对强度和活动性的感知的量度。值为 0.0 表示最不充满活力,值为 1.0 表示最强烈/充满
活力。一般,充满活力的曲目给人的感受是快速、响亮和嘈杂。例如,死 亡金属的能量很高,而巴赫的前
奏曲在音阶上得分很低。影响这一属性的感知特征包括动态 范围、感知响度、音色、起始率和总熵。
Valence:描述一首曲目所传达的音乐积极程度的一种衡量标准。值 0.0 表示最负,值 1.0 表 示最正。高
价的曲目听起来更积极(如高兴、欢快、欢快),而低价的曲目听起来更消极(如悲 伤、沮丧、愤怒)。
tempo: 曲目的整体估计速度,以每分钟节拍(BPM)为单位。在音乐术语中,节奏是给定乐曲 的速度或节奏,
直接从平均拍子时长得出。
loudness: 音轨的总体响度,以分贝(DB)为单位。值的典型范围在-60 到 0 db 之间。响度值 是整个音轨的
平均值,对于比较音轨的相对响度颇有用。响度是声音的性质,它是物理强度 (振幅)的主要关联。
mode: 曲目的模态(大调或小调)、旋律内容来源的音阶类型的指示。主要由 1 表示,次要为 0。 key:估计
的音轨的总体数值。 为使用标准音调等级记法映射到音调的整数。 例如, 0=C, 1=C♯/D♭,2=D,依此
类推。若是未检测到 key 值,则的值设定为-1。
acousticness: 音轨是不是声学的置信度测量(没有技术加强或电子放大)。值 1.0 表示音轨的 可信度很高。
instrumentalness: 预测曲目是否不包含人声。在这种状况下,“噢”和“啊”的声音被视为器乐。 说唱或有声歌曲显然是“有声的”。器乐度值越接近 1.0,曲目中不包含声音内容的可能性就 越大。高于 0.5 的值用于表示乐器音轨,但随着该值接近 1.0,置信度会更高。
liveness: 检测曲目中是否有观众。活跃度值越高,表示实时执行曲目的几率越高。若是值 大于 0.8,则表示音轨处于活动状态的可能性很大。
speechiness:检测音轨中是否存在口语单词。越是专门的演讲——好比录音(例如脱口秀、有 声读物、诗歌),属性值越接近 1.0。大于 0.66 的值描述可能彻底由口语单词组成的曲目。 介于 0.33 和 0.66 之间的值描述可能同时包含音乐和语音的曲目(分段或分层),包括说唱音 乐等状况。低于 0.33 的值极可能表示音乐和其余非语音轨道。
explicit:检测曲目中的显式歌词(TRUE(1)=是,是;FALSE(0)=否,不是或未知)。
duration_ms: 音轨的持续时间,以毫秒为单位。
popularity:这条音轨的受欢迎程度。该值将介于 0 和 100 之间,其中 100 是最受欢迎的。 人气是经过算法计算的,而且在很大程度上是基于曲目已经播放的总次数和这些播放的最近 程度。通常来讲,如今播放 频率较高的歌曲会比过去播放频率较高的歌曲更受欢迎。 重复的曲目(例如,来自单曲和专辑的相同曲目)是独立评级的。艺术家和专辑的受欢迎程度 是从曲目受欢迎程度定量推导出来的。
year: 发行曲目的年份。(1921 年至 2020 年的整数)
release_date: 发行曲目的日期大多采用 yyyy-mm-dd 的格式,可是日期的精度可能会有所不 同,有些只是以 yyyy 给出。
song_title (censored): 曲目的名称。(字符串) 歌曲标题中任何潜在的明确单词已经被程序删 除。
count:特定艺术家的歌曲数量在 full_music_data.csv 文件中表示。 数据预处理及数据分析
能够看到这个数据集的指标还蛮多的,里面有字符串、整型、布尔型、浮点型等,为了第
二问量化模型,须要对这些数据进行统一处理。
首先,为了统一标准,将整形,布尔型统一变为0 到1 之间的浮点型,其中对于不是0
到1 的数据,须要用到数据的标准化将数据映射到0-1 之间,标准化不只能够有利于模
型的创建,并且能够消除量纲对数据的影响。
对于发行日期,因为release_date列有的是年份,有的是年月日,因此在数据分析时将
此列剔除,保留year 列。
对于song title,能够添加歌名单词数这列,将其做为影响指标之一。