HuggingFists是一款低代码AI应用工具,力图发展为LangChain的低代码平替工具。HuggingFists发起于数由科技的Sengee数据科学计算框架,因此其界面风格继承了数据科学工具的很多特征。有别于完全基于LangChain衍生出的低代码工具Flowise,其风格更类似于开源的ETL工具Kettle或者是数据分析工具RapidMiner、KNIME等。对于熟悉这类工具的使用者来说会更容易接受并使用。
LangChain框架目前主要提供了围绕LLM(大语言模型)应用的开发支撑,可以快速搭建RAG(检索增强生成)、Agent(智能代理)等应用,但对于超出LLM外的AI应用以及搭建应用所需数据的准备能力方面就略显不足了。其对于图像、语音等多模态数据缺乏抽取、识别、转换等相关AI支持能力,更多的是构建在能够对图像进行OCR识别、语音转文字等文本转换能力上。另外,当进行工程实施时,客户的数据环境一般会比预想的更复杂。经年累月积累的各种电子文档,不但文档格式多样,其文档内容更是千奇百怪。陈旧的、无法直接进行文本提取的文件需要进行格式转换;各种图片型文档,语种、图片清晰度等都会影响OCR识别的效果;内嵌表格的文档,其表格内容需要进行特殊处理并做结构化存储以及数据处理流程需要根据客户的数据治理、数据安全规定进行适当的调整等。在这些方面LangChain的支持能力就略显不足且实施效率不高了。
从事过数据科学相关工作的用户一眼就可以看出,上面提到的问题,在传统的数据科学领域早已屡见不鲜了。这不就是数据预处理要解决的问题吗?这是ETL类工具最擅长的领域。传统的ETL工具,以低代码工具Kettle为代表,能够对结构化数据进行快速的数据处理功能搭建,可以极大的提升数据处理的效率,降低工程的实施成本。随着近年AI在文本、图像等数据领域的崛起,数据应用的重点从结构化数据转移到了非结构化数据。但无论数据结构如何转换,数据科学中面临的问题不会因数据结构的变化而消失。正如我们之前提到的那些问题,面对非结构化数据的预处理工作依然存在。而对于此类工作的最佳实践依然应该是使用低代码的工具完成对非结构化数据的处理。
HuggingFists脱胎于数据科学平台Sengee,其继承了传统数据科学工具以低代码方式搭建数据处理与数据分析流程的能力,并将此能力外延到了非结构化数据。使用户能够用一致的体验,可视化的搭建结构化、半结构化以及非结构化数据的处理与分析流程。其还集成了包括HuggingFace在内的诸多社区及企业的人脸识别、物体识别、语音识别、声纹识别、文本分类、LLM等AI能力,并以算子化的方式进行了包装,方便使用者以低代码的方式应用这些能力。目前HuggingFists支持包括读取、写出、处理、分析等各类算子300+种。使用这些算子能够很大程度上解决客户的各类复杂数据处理及AI应用需求,大大降低工程的实施成本。
下面,我们通过HuggingFists系统的界面简单了解一下HuggingFists的各个功能模块及它们之间的关系。
首页
首页
首先看到的是“首页”模块,该模块提供了HuggingFists系统的各类资源的总览。包括系统处理的文件、字节以及记录数的统计;各类数据源、数据流程统计;连接器、算子按类型的统计以及失败的任务列表等信息。通过该模块,能够对系统整体的资源及运行情况有个概括性的了解。