当前位置: 首页 > 图灵资讯 > 技术篇> Fregata: TalkingData开源的轻量级大规模机器学习库

Fregata: TalkingData开源的轻量级大规模机器学习库

来源:图灵教育
时间:2023-06-15 09:36:14

Fregata是TalkingData开源的基于Spark的轻量级、超快速的大型机器学习库,并在Scala中提供高级API。显著特点:

  • 更准确:Fregata比MLLib更准确;
  • 高速:对于广义线性模型,Fregata通常集成在一个数据元中。对于10亿*10亿的数据集,Fregata可以在1分钟内使用内存缓存或10分钟内完成广义线性模型训练,比MLLib快10-100倍;
  • 自由参数:Fregata使用GSA SGD优化不需要调整学习速度,因为研发团队在培训过程中找到了计算学习速度的方法。面对超高维度问题,Fregata将动态计算剩余内存,以确定输出稀疏性、自动平衡精度和效率;
  • 轻量级:Fregata只使用Spark的标准API快速无缝地集成到Spark上的大多数业务数据处理过程中。

本文主要介绍1.0版架构。核心部分主要基于GSA独立算法,包括分类、回归和聚类:

  • 分类:支持二进制和多分类
  • 回归:在下面的版本中发布
  • 聚类:在下面的版本中发布

Spark:主要通过封装core.jar实现了基于spark的大规模机器学习算法,并提供了相应的算法。您可以访问Github上的开源地址。