smile: 一个集成了 LLM 推理和智能代理数据 science IDE 的高性能 JVM 机器学习框架

smile: 一个集成了 LLM 推理和智能代理数据科学 IDE 的高性能 JVM 机器学习框架

它解决了什么问题

SMILE 为 JVM 提供了一个高性能、全面的机器学习框架,使开发者能够在不离开 Java、Scala 或 Kotlin 生态系统的情况下,实现广泛的统计和 AI 算法。它弥补了高级数据科学需求与基于 JVM 的生产环境性能要求之间的差距。

它是如何工作的

SMILE 被组织成几个专门的模块:

  • Core ML:实现用于分类、回归、聚类、流形学习和异常检测的标准算法。
  • Deep Learning & LLMs:使用 LibTorch 后端进行 GPU/CPU 张量操作,并提供完整的 LLaMA-3 推理栈,包括 BPE tokenizers 和与 OpenAI 兼容的 REST server。
  • NLP:提供文本归一化、POS tagging、词干提取和相关性排序的工具。
  • Base:提供机器学习所需的数学、线性代数和数据结构(如 DataFrames)等基础功能。
  • Visualization:包含基于 Swing 的交互式图表和声明式的 Vega-Lite 图表。
  • SMILE Studio:一个智能代理 IDE,允许用户通过 Python、Java 或 Scala 使用自然语言与数据进行交互。

它是为谁准备的

在 JVM 生态系统(Java、Scala、Kotlin)中工作的、需要一个具有集成深度学习和 LLM 能力的、稳健且生产就绪的机器学习库的数据科学家和软件工程师。

亮点

  • Comprehensive Algorithm Suite:支持从 Random Forests 和 SVMs 到 t-SNE 和 UMAP 的所有算法。
  • LLM Integration:原生的 LLaMA-3 推理和用于聊天流式传输的 OpenAI 兼容 server。
  • JVM Native:具有适用于 Java、Scala 和 Kotlin 的惯用 API 的高性能实现。
  • Agentic IDE:包含用于自然语言数据交互的 SMILE Studio。
  • Enterprise Ready:支持模型序列化以及与 Apache Spark ML pipelines 的集成。

Sources