Google 推出 LangExtract —— 基于 Python 的非結構化文本結構化數(shù)據(jù)提取庫

本文已收錄在Github,關注我,緊跟本系列專欄文章,咱們下篇再續(xù)!

  • ?? 魔都架構師 | 全網(wǎng)30W技術追隨者
  • ?? 大廠分布式系統(tǒng)/數(shù)據(jù)中臺實戰(zhàn)專家
  • ?? 主導交易系統(tǒng)百萬級流量調(diào)優(yōu) & 車聯(lián)網(wǎng)平臺架構
  • ?? AIGC應用開發(fā)先行者 | 區(qū)塊鏈落地實踐者
  • ?? 以技術驅(qū)動創(chuàng)新,我們的征途是改變世界!
  • ?? 實戰(zhàn)干貨:編程嚴選網(wǎng)

Google 發(fā)布了 LangExtract,這是一款 開源 Python 庫,旨在幫助開發(fā)者借助大型語言模型(如 Gemini 模型)從非結構化文本中提取結構化信息。該庫能將自由格式的文本(如臨床記錄、法律文書、客戶反饋等)轉換成結構化數(shù)據(jù)。開發(fā)者只需用自然語言指令和示例數(shù)據(jù),就能定義提取任務,從而更輕松地處理和整理各種非結構化內(nèi)容。

LangExtract 的一大亮點是采用了 [受控生成技術](https://developers.googleblog.com/en/introducing-langextract-a-gemini-powered-information-extraction-library/#:~:text=What makes LangExtract effective for information extraction),保證提取出的信息格式統(tǒng)一,并能準確對應到原文中的來源位置。它會高亮顯示相關的文本片段,讓每個被提取的實體都能追溯到原始文檔的確切位置,這大大提高了提取結果的透明度與可信度。

為了應對冗長復雜的文檔,LangExtract 結合了 文本分塊、并行處理多輪提取 等先進策略。這些方法能有效提升召回率和準確率,讓該庫在處理大規(guī)模文本時依然保持高質(zhì)量輸出,因此適用于醫(yī)療、法律等多個領域,而且無需對底層模型進行大量微調(diào)。

LangExtract 支持集成多種大型語言模型,包括云端的 Gemini 和本地運行的平臺(如 Ollama)。這種靈活性讓開發(fā)者在不同模型環(huán)境下都能使用它來定義多種信息提取任務,而無需具備深厚的機器學習背景。

LangExtract 的發(fā)布引發(fā)了開發(fā)者社區(qū)的熱烈反響。Akshay Goel 作為主要貢獻者之一,表示對這一發(fā)布非常興奮,并期待看到用戶的各種創(chuàng)新應用,這也體現(xiàn)了該項目的協(xié)作精神。他在帖子中寫道:

今天和團隊一起發(fā)布 LangExtract,迫不及待想看看開發(fā)者社區(qū)會用它做出什么!

開發(fā)者 Kyle Brown 稱其為人工智能透明度上的一次重大進步,將非結構化文本轉化為結構化、易理解的數(shù)據(jù)。同時,社區(qū)還推出了 TypeScript 版本,使其不僅兼容 Google 的 Gemini,還能支持 OpenAI 模型,進一步擴大了使用范圍。

對感興趣的人來說——我已將它移植到 TypeScript,并加入了對 OpenAI 的支持,不再僅限于 Gemini。

該庫采用 Apache 2.0 許可協(xié)議,可通過 pip 輕松安裝,為開發(fā)者在應用中添加信息提取功能提供了一個強大且易用的工具。

本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布!

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容