Як ми створили потужну Enterprise Agentic RAG платформу в elDoc для інтелектуальної роботи з документами у великих масштабах

Підприємствам не бракує даних – їм бракує можливості отримувати аналітичні висновки на основі цих даних. Насправді проблема набагато глибша, ніж уявляє собі більшість організацій. Переважна частина корпоративних знань зберігається не в упорядкованих базах даних чи добре структурованих системах. Вона міститься у відсканованих PDF-файлах, зображеннях, фотографіях, рукописних формах, контрактах, рахунках-фактурах та архівних документах – тобто даних, які ніколи не призначалися для машинного зчитування.

Саме це називають корпоративними «темними даними» (Enterprise Dark Data).

Вони всюди:

  • Відскановані контракти, що накопичувалися в сховищах документів десятиліттями
  • Документи з дотримання нормативних вимог, збережені як неструктуровані PDF-файли
  • Фотографії форм, звітів і польових даних
  • Електронні листи та вкладення, приховані в розрізнених системах
  • Застарілі системи, що експортують статичні файли без можливості пошуку та аналізу

⚠️ Прихована проблема

Більшість ініціатив зі впровадження ШІ фактично ігнорують цей рівень даних. Чому?

Тому що працювати з ним складно.

Традиційні конвеєри обробки даних спираються на:

  • Чистий текст
  • Структуровані бази даних
  • Попередньо оброблений контент

Але в реальності:

До 70–80% корпоративних даних є неструктурованими, і значна їх частина існує у форматі зображень або сканів.

Це означає, що:

  • Критично важлива інформація залишається невидимою для пошукових систем
  • Великі мовні моделі (LLM) працюють лише з частиною контексту
  • Ухвалення рішень ґрунтується на неповній інформації

👉 Який результат?
Штучний інтелект, що звучить переконливо та розумно, але не спирається на повну картину корпоративних даних.

🧠 Чому самих лише LLM недостатньо

Великі мовні моделі мають потужні можливості, але їм притаманне одне фундаментальне обмеження:

Вони знають лише те, що їм надають.

Якщо ваш рівень пошуку та отримання даних ігнорує:

  • Відскановані документи
  • Зображення
  • Неіндексовані PDF-файли

Тоді ваша система ШІ фактично не бачить величезної частини корпоративних знань.

💡 Наш підхід в elDoc

У elDoc ми не розглядали це як окремий окремий випадок – для нас це була ключова проблема.

Ми поставили собі запитання:

Як залучити ВСІ корпоративні дані, особливо їхню неструктуровану, складну для обробки та представлену у вигляді зображень більшість, в єдину інтелектуальну систему з можливістю пошуку та аналізу?

І що ще важливіше:

Як зробити це так, щоб ШІ міг не лише знаходити інформацію, а й розуміти її, аналізувати та діяти на її основі безпечно й у масштабах усього підприємства?

Ізсередини elDoc: як наша архітектура Agentic RAG працює в корпоративному масштабі

Спроєктувати систему Agentic RAG – це одне. Забезпечити її надійність, точність і масштабованість для роботи з мільйонами корпоративних документів – зовсім інше.

У elDoc ми підійшли до цієї проблеми, спираючись на базові принципи:

Якщо якість роботи ШІ залежить від якості отриманої інформації, то система пошуку та отримання даних має бути ключовим елементом архітектури, а не другорядним доповненням.

Ключовий прорив: гібридна архітектура пошуку та отримання даних

Одним із перших викликів, з якими ми зіткнулися, стала якість пошуку та отримання даних.

Корпоративні дані є:

  • Неоднорідними
  • Мультимодальними
  • Погано структурованими
  • Розподіленими між різними системами

І ми швидко усвідомили одне фундаментальне обмеження:

Жоден окремий метод пошуку не працює однаково ефективно для всіх типів корпоративних даних.

  • Векторний пошук погано справляється з точними збігами (наприклад, із пошуком конкретних пунктів договору)
  • Пошук за ключовими словами не враховує семантичний зміст
  • Самих лише метаданих недостатньо для глибокого аналізу

Тому замість вибору одного підходу ми об’єднали їх в єдину систему.

Багаторівнева система пошуку та отримання даних

Ми розробили гібридну архітектуру пошуку та отримання даних, яка є основою платформи elDoc. Кожен рівень вирішує окрему частину завдання:

🗄️ Контекстний рівень – MongoDB

Цей рівень забезпечує збереження контексту та структури даних.

Він зберігає:

  • Метадані документів
  • Зв’язки між сутностями
  • Контекст користувачів і сесій
  • Стан робочих процесів і ШІ-агентів

💡 Чому це важливо

Пошук і отримання даних більше не є процесом без збереження контексту.

ШІ-агенти можуть:

  • Розуміти, хто саме звертається із запитом
  • Відстежувати, яку інформацію вже було отримано
  • Зберігати контекст під час багатоетапного аналізу та міркувань

👉 Саме це забезпечує справжню агентну поведінку, а не просто пошук інформації.

📄 Рівень точності – повнотекстовий пошук

Цей рівень забезпечує точність там, де вона є критично важливою.

Він відповідає за:

  • Точний пошук за ключовими словами
  • Положення та пункти договорів
  • Документи щодо дотримання нормативних вимог
  • Структуровані запити

💡 Чому це важливо

У корпоративному середовищі:

  • «Майже правильно» – недостатньо
  • Точне формулювання може кардинально змінити зміст

👉 Цей рівень гарантує точність і надійність результатів.

🧠 Семантичний рівень – векторна база даних

Цей рівень забезпечує розуміння змісту даних.

Він надає можливість:

  • Виконувати пошук на основі семантичної схожості
  • Використовувати контекстно-орієнтований пошук
  • Знаходити інформацію навіть за відсутності точних ключових слів

💡 Чому це важливо

Користувачі не завжди знають, як правильно сформулювати запит.

Цей рівень забезпечує здатність системи:

  • Розпізнавати намір користувача
  • Знаходити релевантну інформацію, навіть якщо формулювання відрізняються

👉 Саме тут RAG перетворюється на по-справжньому інтелектуальну систему.

Від RAG до Agentic RAG: поворотний момент в elDoc

Коли ми починали розробляти платформу elDoc, ми не стартували з Agentic RAG. Ми пішли тим самим шляхом, що й більшість рішень, – із традиційного RAG. І він працював… але лише до певної межі.

⚠️ Обмеження традиційного RAG

У перших реалізаціях ми постійно стикалися з такими обмеженнями:

  • Одноразовий пошук часто пропускав критично важливий контекст
  • Запити повертали лише частково релевантні результати
  • Не було можливості адаптуватися, якщо результати виявлялися недостатньо якісними
  • Система не розуміла, який метод пошуку слід застосувати в конкретній ситуації
  • Погана обробка складних багатоетапних корпоративних запитів

І найголовніше:

Система не усвідомлювала власних обмежень.

Вона виконувала пошук один раз і фактично сподівалася на найкращий результат.

💡 Ключове усвідомлення

Ми швидко зрозуміли, що проблема полягає не в генерації відповідей, а в тому, як організовано процес пошуку та отримання інформації.

Це привело нас до принципово нового підходу:

RAG не повинен бути просто конвеєром обробки даних – він має бути системою ухвалення рішень.

Зміна підходу: впровадження Agentic RAG

Ми трансформували нашу архітектуру з моделі:

Пошук → Генерація

у модель:

Розуміння → Планування → Пошук → Оцінювання → Уточнення → Генерація

Саме це ми називаємо Agentic RAG.

🔑 Що змінилося?

Замість того щоб розглядати пошук і отримання інформації як фіксований етап, ми впровадили ШІ-агентів, які:

  • Визначають, як саме виконувати пошук
  • Обирають системи, до яких необхідно звернутися із запитом
  • Оцінюють якість отриманих результатів
  • Уточнюють підхід і повторюють пошук за потреби

Agentic RAG у дії: аналіз даних та інтелектуальна обробка інформації в elDoc

На знімку екрана показано типовий практичний сценарій використання в корпоративному середовищі:

Користувач обирає кілька рахунків-фактур і ставить запит:
«Підготуй зведення за всіма цими рахунками-фактурами та розрахуй загальну суму».

На перший погляд це виглядає простим завданням.
Насправді ж це завдання потребує багатокрокового аналізу даних із неструктурованих документів.

Саме в таких сценаріях Agentic RAG демонструє свої ключові переваги.

Чому це завдання потребує Agentic RAG, а не лише RAG

Традиційна система RAG виконала б такі дії:

  • Отримала б фрагменти інформації з документів
  • Передала б їх великій мовній моделі (LLM)
  • Згенерувала б підсумкове зведення

Проте такий підхід має суттєві труднощі у випадках, коли потрібно:

  • Виявляти дублікати рахунків-фактур
  • Об’єднувати та аналізувати дані з багатьох документів
  • Групувати суми за валютами
  • Формувати структурований результат

👉 У результаті система з великою ймовірністю сформувала б неповну або некоректну відповідь.

Як Agentic RAG в elDoc вирішує це завдання покроково

1. 🧠 Розуміння наміру користувача

Агент не просто читає запит – він інтерпретує його зміст:

  • Це не просте створення зведення
  • Завдання потребує агрегування даних і виконання розрахунків
  • Воно охоплює набір із кількох документів
  • Результат має бути структурованим і точним
2. 📂 Розширення контексту (режим повного документа)

В інтерфейсі користувача:

Увімкнено опцію «Використовувати повний вміст файлу»

Це дає системі змогу:

  • Розглядати всі вибрані рахунки-фактури як єдиний набір даних
  • Отримувати повний вміст документів, а не лише окремі фрагменти
  • Підготуватися до аналізу інформації між кількома документами
3. 🔍 Отримання даних з кількох документів

Система Agentic RAG:

  • Витягує дані з усіх вибраних PDF-документів
  • Використовує OCR (за потреби) для зчитування вмісту рахунків-фактур
  • Визначає ключові поля:
    • Номер рахунку-фактури
    • Постачальник
    • Дата
    • Сума
    • Валюта

👉 Це вже не просто пошук інформації – це структуроване вилучення даних.

4. 🧩 Нормалізація та узгодження даних

На цьому етапі агент:

  • Приводить отримані дані до єдиного формату
  • Виявляє дублікати
    • Наприклад, рахунок RT2847957 зустрічається двічі
  • Розрізняє рахунки-фактури за такими ознаками:
    • Ідентифікатор
    • Постачальник
    • Дата

👉 Цей етап є критично важливим і практично неможливим для базового підходу RAG.

5. 🎯 Логічний аналіз і усунення дублікатів

Система визначає:

  • Обрано 5 файлів
  • Але серед них лише 4 унікальні рахунки-фактури

Для цього необхідні:

  • Логічне порівняння даних
  • Аналіз інформації між документами
  • Стратегія виявлення та усунення дублікатів
💡 Саме тут проявляється ключова перевага Agentic RAG:

Система аналізує та перевіряє дані, а не просто відтворює їх.

6. 🧮 Агрегування та розрахунки

Після цього агент виконує:

Групування даних з урахуванням валют:

  • Рахунки-фактури в USD
  • Рахунки-фактури в HKD

Розрахунки:

  • Підсумовування сум за кожною валютою
  • Коректне врахування дублікатів
7. 📊 Формування структурованого результату

Замість звичайного тексту система формує:

✔ Підсумкову таблицю рахунків-фактур

  • Ідентифікатор рахунку-фактури
  • Дата
  • Постачальник
  • Сума
  • Валюта

✔ Підсумкові суми за валютами

  • Згруповані
  • Розраховані
  • Чітко розділені та структуровані

Де Agentic RAG розкриває свій повний потенціал

Цей процес не є лінійним. Усередині агент виконує:

  • Вилучення даних → оцінювання → перевірку → повторний розрахунок
  • Коригування логіки на основі проміжних результатів

Традиційний RAG vs Agentic RAG

Можливість Традиційний RAG Agentic RAG (elDoc)
Розуміння інформації з кількох документів Обмежене Високий рівень
Усунення дублікатів
Розрахунки
Структурований результат Обмежені можливості Високий рівень
Урахування контексту Статичне Динамічне
Точність Нестабільна Висока

Що відрізняє Enterprise Agentic RAG: безпека, контроль доступу та довіра, закладені в архітектуру

Agentic RAG додає інтелектуальність до процесу пошуку та отримання даних, дозволяючи системам планувати дії, аналізувати інформацію та вдосконалювати результати. Проте в корпоративному середовищі одного лише інтелекту недостатньо. Ключовою вимогою є довіра. Саме тому в elDoc ми розвинули Agentic RAG до рівня Enterprise Agentic RAG, інтегрувавши безпеку, контроль доступу та механізми управління безпосередньо в архітектуру як її невід’ємні компоненти.

На відміну від стандартних систем Agentic RAG, які оптимізують процеси аналізу та пошуку інформації, Enterprise Agentic RAG працює в межах чітко визначених правил. Кожен запит, кожен етап отримання даних і кожна згенерована відповідь враховують як контекст, так і права доступу.

Це означає, що:

  • Користувачі отримують доступ лише до тієї інформації, на перегляд якої мають відповідні права
  • Агенти отримують дані відповідно до механізмів контролю доступу на основі ролей та атрибутів (RBAC/ABAC)
  • Конфіденційні документи залишаються захищеними навіть під час багатокрокового аналізу та міркувань

👉 Система ставить не лише запитання «Що є релевантним?»
Вона також перевіряє: «Що дозволено?»

Безпека забезпечується на кількох рівнях:

  • Контроль доступу на рівні документів забезпечує детальне керування правами доступу
  • Фільтрація контексту гарантує, що отримані дані відповідають ролям користувачів
  • Агенти, які враховують політики безпеки, динамічно коригують стратегії пошуку, щоб уникати доступу до обмеженого контенту
  • Розгортання в локальній інфраструктурі (on-premise) або приватній хмарі забезпечує повний контроль над даними та їх суверенітет

Крім того, кожна дія підлягає аудиту та відстеженню:

  • Які дані були отримані
  • Який контекст було використано
  • Як саме була сформована кінцева відповідь

Це має критичне значення для галузей із жорсткими нормативними вимогами, де прозорість процесів є обов’язковою умовою.

Від документів до рішень з elDoc Agentic RAG

Те, що ми створили в elDoc Vioma, – це більше, ніж система RAG. Це перехід до Agentic RAG, де ШІ не просто знаходить інформацію, а активно її розуміє, аналізує та працює з корпоративними даними.

Поєднавши гібридний пошук і отримання даних, оркестрацію на основі агентів та мультимодальну обробку, ми створили систему, здатну працювати зі складними реальними сценаріями – відсканованими документами, фрагментованими даними та великими масивами знань, забезпечуючи при цьому точні, структуровані та придатні для практичного використання результати.

Саме це забезпечує перетворення:

  • Даних → на контекст
  • Контексту → на цінні висновки
  • Висновків → на обґрунтовані рішення

Якщо ви прагнете вийти за межі базового RAG і розкрити справжній потенціал інтелектуальної роботи з документами в корпоративному масштабі, саме час дізнатися, на що здатний агентний RAG у вашому середовищі.

👉 Дізнайтеся, як elDoc може привнести інтелект у ваші корпоративні дані.

Зв’яжіться з нами

Замовте демо, щоб побачити корпоративний Agentic RAG у дії

Отримайте відповіді на свої запитання або заплануйте демо, щоб побачити рішення в дії – просто залиште нам повідомлення