Як ми створили потужну Enterprise Agentic RAG платформу в elDoc для інтелектуальної роботи з документами у великих масштабах

06/05/2026

Підприємствам не бракує даних – їм бракує можливості отримувати аналітичні висновки на основі цих даних. Насправді проблема набагато глибша, ніж уявляє собі більшість організацій. Переважна частина корпоративних знань зберігається не в упорядкованих базах даних чи добре структурованих системах. Вона міститься у відсканованих PDF-файлах, зображеннях, фотографіях, рукописних формах, контрактах, рахунках-фактурах та архівних документах – тобто даних, які ніколи не призначалися для машинного зчитування.

Саме це називають корпоративними «темними даними» (Enterprise Dark Data).

Вони всюди:

Відскановані контракти, що накопичувалися в сховищах документів десятиліттями
Документи з дотримання нормативних вимог, збережені як неструктуровані PDF-файли
Фотографії форм, звітів і польових даних
Електронні листи та вкладення, приховані в розрізнених системах
Застарілі системи, що експортують статичні файли без можливості пошуку та аналізу

⚠️ Прихована проблема

Більшість ініціатив зі впровадження ШІ фактично ігнорують цей рівень даних. Чому?

Тому що працювати з ним складно.

Традиційні конвеєри обробки даних спираються на:

Чистий текст
Структуровані бази даних
Попередньо оброблений контент

Але в реальності:

До 70–80% корпоративних даних є неструктурованими, і значна їх частина існує у форматі зображень або сканів.

Це означає, що:

Критично важлива інформація залишається невидимою для пошукових систем
Великі мовні моделі (LLM) працюють лише з частиною контексту
Ухвалення рішень ґрунтується на неповній інформації

👉 Який результат?
Штучний інтелект, що звучить переконливо та розумно, але не спирається на повну картину корпоративних даних.

🧠 Чому самих лише LLM недостатньо

Великі мовні моделі мають потужні можливості, але їм притаманне одне фундаментальне обмеження:

Вони знають лише те, що їм надають.

Якщо ваш рівень пошуку та отримання даних ігнорує:

Відскановані документи
Зображення
Неіндексовані PDF-файли

Тоді ваша система ШІ фактично не бачить величезної частини корпоративних знань.

💡 Наш підхід в elDoc

У elDoc ми не розглядали це як окремий окремий випадок – для нас це була ключова проблема.

Ми поставили собі запитання:

Як залучити ВСІ корпоративні дані, особливо їхню неструктуровану, складну для обробки та представлену у вигляді зображень більшість, в єдину інтелектуальну систему з можливістю пошуку та аналізу?

І що ще важливіше:

Як зробити це так, щоб ШІ міг не лише знаходити інформацію, а й розуміти її, аналізувати та діяти на її основі безпечно й у масштабах усього підприємства?

Ізсередини elDoc: як наша архітектура Agentic RAG працює в корпоративному масштабі

Спроєктувати систему Agentic RAG – це одне. Забезпечити її надійність, точність і масштабованість для роботи з мільйонами корпоративних документів – зовсім інше.

У elDoc ми підійшли до цієї проблеми, спираючись на базові принципи:

Якщо якість роботи ШІ залежить від якості отриманої інформації, то система пошуку та отримання даних має бути ключовим елементом архітектури, а не другорядним доповненням.

Ключовий прорив: гібридна архітектура пошуку та отримання даних

Одним із перших викликів, з якими ми зіткнулися, стала якість пошуку та отримання даних.

Корпоративні дані є:

Неоднорідними
Мультимодальними
Погано структурованими
Розподіленими між різними системами

І ми швидко усвідомили одне фундаментальне обмеження:

Жоден окремий метод пошуку не працює однаково ефективно для всіх типів корпоративних даних.

Векторний пошук погано справляється з точними збігами (наприклад, із пошуком конкретних пунктів договору)
Пошук за ключовими словами не враховує семантичний зміст
Самих лише метаданих недостатньо для глибокого аналізу

Тому замість вибору одного підходу ми об’єднали їх в єдину систему.

Багаторівнева система пошуку та отримання даних

Ми розробили гібридну архітектуру пошуку та отримання даних, яка є основою платформи elDoc. Кожен рівень вирішує окрему частину завдання:

🗄️ Контекстний рівень – MongoDB

Цей рівень забезпечує збереження контексту та структури даних.

Він зберігає:

Метадані документів
Зв’язки між сутностями
Контекст користувачів і сесій
Стан робочих процесів і ШІ-агентів

💡 Чому це важливо

Пошук і отримання даних більше не є процесом без збереження контексту.

ШІ-агенти можуть:

Розуміти, хто саме звертається із запитом
Відстежувати, яку інформацію вже було отримано
Зберігати контекст під час багатоетапного аналізу та міркувань

👉 Саме це забезпечує справжню агентну поведінку, а не просто пошук інформації.

📄 Рівень точності – повнотекстовий пошук

Цей рівень забезпечує точність там, де вона є критично важливою.

Він відповідає за:

Точний пошук за ключовими словами
Положення та пункти договорів
Документи щодо дотримання нормативних вимог
Структуровані запити

💡 Чому це важливо

У корпоративному середовищі:

«Майже правильно» – недостатньо
Точне формулювання може кардинально змінити зміст

👉 Цей рівень гарантує точність і надійність результатів.

🧠 Семантичний рівень – векторна база даних

Цей рівень забезпечує розуміння змісту даних.

Він надає можливість:

Виконувати пошук на основі семантичної схожості
Використовувати контекстно-орієнтований пошук
Знаходити інформацію навіть за відсутності точних ключових слів

💡 Чому це важливо

Користувачі не завжди знають, як правильно сформулювати запит.

Цей рівень забезпечує здатність системи:

Розпізнавати намір користувача
Знаходити релевантну інформацію, навіть якщо формулювання відрізняються

👉 Саме тут RAG перетворюється на по-справжньому інтелектуальну систему.

Від RAG до Agentic RAG: поворотний момент в elDoc

Коли ми починали розробляти платформу elDoc, ми не стартували з Agentic RAG. Ми пішли тим самим шляхом, що й більшість рішень, – із традиційного RAG. І він працював… але лише до певної межі.

⚠️ Обмеження традиційного RAG

У перших реалізаціях ми постійно стикалися з такими обмеженнями:

Одноразовий пошук часто пропускав критично важливий контекст
Запити повертали лише частково релевантні результати
Не було можливості адаптуватися, якщо результати виявлялися недостатньо якісними
Система не розуміла, який метод пошуку слід застосувати в конкретній ситуації
Погана обробка складних багатоетапних корпоративних запитів

І найголовніше:

Система не усвідомлювала власних обмежень.

Вона виконувала пошук один раз і фактично сподівалася на найкращий результат.

💡 Ключове усвідомлення

Ми швидко зрозуміли, що проблема полягає не в генерації відповідей, а в тому, як організовано процес пошуку та отримання інформації.

Це привело нас до принципово нового підходу:

RAG не повинен бути просто конвеєром обробки даних – він має бути системою ухвалення рішень.

Зміна підходу: впровадження Agentic RAG

Ми трансформували нашу архітектуру з моделі:

Пошук → Генерація

у модель:

Розуміння → Планування → Пошук → Оцінювання → Уточнення → Генерація

Саме це ми називаємо Agentic RAG.

🔑 Що змінилося?

Замість того щоб розглядати пошук і отримання інформації як фіксований етап, ми впровадили ШІ-агентів, які:

Визначають, як саме виконувати пошук
Обирають системи, до яких необхідно звернутися із запитом
Оцінюють якість отриманих результатів
Уточнюють підхід і повторюють пошук за потреби

Agentic RAG у дії: аналіз даних та інтелектуальна обробка інформації в elDoc

На знімку екрана показано типовий практичний сценарій використання в корпоративному середовищі:

Користувач обирає кілька рахунків-фактур і ставить запит:
«Підготуй зведення за всіма цими рахунками-фактурами та розрахуй загальну суму».

На перший погляд це виглядає простим завданням.
Насправді ж це завдання потребує багатокрокового аналізу даних із неструктурованих документів.

Саме в таких сценаріях Agentic RAG демонструє свої ключові переваги.

Чому це завдання потребує Agentic RAG, а не лише RAG

Традиційна система RAG виконала б такі дії:

Отримала б фрагменти інформації з документів
Передала б їх великій мовній моделі (LLM)
Згенерувала б підсумкове зведення

Проте такий підхід має суттєві труднощі у випадках, коли потрібно:

Виявляти дублікати рахунків-фактур
Об’єднувати та аналізувати дані з багатьох документів
Групувати суми за валютами
Формувати структурований результат

👉 У результаті система з великою ймовірністю сформувала б неповну або некоректну відповідь.

Як Agentic RAG в elDoc вирішує це завдання покроково

1. 🧠 Розуміння наміру користувача

Агент не просто читає запит – він інтерпретує його зміст:

Це не просте створення зведення
Завдання потребує агрегування даних і виконання розрахунків
Воно охоплює набір із кількох документів
Результат має бути структурованим і точним

2. 📂 Розширення контексту (режим повного документа)

В інтерфейсі користувача:

Увімкнено опцію «Використовувати повний вміст файлу»

Це дає системі змогу:

Розглядати всі вибрані рахунки-фактури як єдиний набір даних
Отримувати повний вміст документів, а не лише окремі фрагменти
Підготуватися до аналізу інформації між кількома документами

3. 🔍 Отримання даних з кількох документів

Система Agentic RAG:

Витягує дані з усіх вибраних PDF-документів
Використовує OCR (за потреби) для зчитування вмісту рахунків-фактур
Визначає ключові поля:
- Номер рахунку-фактури
- Постачальник
- Дата
- Сума
- Валюта

👉 Це вже не просто пошук інформації – це структуроване вилучення даних.

4. 🧩 Нормалізація та узгодження даних

На цьому етапі агент:

Приводить отримані дані до єдиного формату
Виявляє дублікати
- Наприклад, рахунок RT2847957 зустрічається двічі
Розрізняє рахунки-фактури за такими ознаками:
- Ідентифікатор
- Постачальник
- Дата

👉 Цей етап є критично важливим і практично неможливим для базового підходу RAG.

5. 🎯 Логічний аналіз і усунення дублікатів

Система визначає:

Обрано 5 файлів
Але серед них лише 4 унікальні рахунки-фактури

Для цього необхідні:

Логічне порівняння даних
Аналіз інформації між документами
Стратегія виявлення та усунення дублікатів

💡 Саме тут проявляється ключова перевага Agentic RAG:

Система аналізує та перевіряє дані, а не просто відтворює їх.

6. 🧮 Агрегування та розрахунки

Після цього агент виконує:

Групування даних з урахуванням валют:

Рахунки-фактури в USD
Рахунки-фактури в HKD

Розрахунки:

Підсумовування сум за кожною валютою
Коректне врахування дублікатів

7. 📊 Формування структурованого результату

Замість звичайного тексту система формує:

✔ Підсумкову таблицю рахунків-фактур

Ідентифікатор рахунку-фактури
Дата
Постачальник
Сума
Валюта

✔ Підсумкові суми за валютами

Згруповані
Розраховані
Чітко розділені та структуровані

Де Agentic RAG розкриває свій повний потенціал

Цей процес не є лінійним. Усередині агент виконує:

Вилучення даних → оцінювання → перевірку → повторний розрахунок
Коригування логіки на основі проміжних результатів

Традиційний RAG vs Agentic RAG

Можливість	Традиційний RAG	Agentic RAG (elDoc)
Розуміння інформації з кількох документів	Обмежене	Високий рівень
Усунення дублікатів	❌	✅
Розрахунки	❌	✅
Структурований результат	Обмежені можливості	Високий рівень
Урахування контексту	Статичне	Динамічне
Точність	Нестабільна	Висока

Що відрізняє Enterprise Agentic RAG: безпека, контроль доступу та довіра, закладені в архітектуру

Agentic RAG додає інтелектуальність до процесу пошуку та отримання даних, дозволяючи системам планувати дії, аналізувати інформацію та вдосконалювати результати. Проте в корпоративному середовищі одного лише інтелекту недостатньо. Ключовою вимогою є довіра. Саме тому в elDoc ми розвинули Agentic RAG до рівня Enterprise Agentic RAG, інтегрувавши безпеку, контроль доступу та механізми управління безпосередньо в архітектуру як її невід’ємні компоненти.

На відміну від стандартних систем Agentic RAG, які оптимізують процеси аналізу та пошуку інформації, Enterprise Agentic RAG працює в межах чітко визначених правил. Кожен запит, кожен етап отримання даних і кожна згенерована відповідь враховують як контекст, так і права доступу.

Це означає, що:

Користувачі отримують доступ лише до тієї інформації, на перегляд якої мають відповідні права
Агенти отримують дані відповідно до механізмів контролю доступу на основі ролей та атрибутів (RBAC/ABAC)
Конфіденційні документи залишаються захищеними навіть під час багатокрокового аналізу та міркувань

👉 Система ставить не лише запитання «Що є релевантним?»
Вона також перевіряє: «Що дозволено?»

Безпека забезпечується на кількох рівнях:

Контроль доступу на рівні документів забезпечує детальне керування правами доступу
Фільтрація контексту гарантує, що отримані дані відповідають ролям користувачів
Агенти, які враховують політики безпеки, динамічно коригують стратегії пошуку, щоб уникати доступу до обмеженого контенту
Розгортання в локальній інфраструктурі (on-premise) або приватній хмарі забезпечує повний контроль над даними та їх суверенітет

Крім того, кожна дія підлягає аудиту та відстеженню:

Які дані були отримані
Який контекст було використано
Як саме була сформована кінцева відповідь

Це має критичне значення для галузей із жорсткими нормативними вимогами, де прозорість процесів є обов’язковою умовою.

Від документів до рішень з elDoc Agentic RAG

Те, що ми створили в elDoc Vioma, – це більше, ніж система RAG. Це перехід до Agentic RAG, де ШІ не просто знаходить інформацію, а активно її розуміє, аналізує та працює з корпоративними даними.

Поєднавши гібридний пошук і отримання даних, оркестрацію на основі агентів та мультимодальну обробку, ми створили систему, здатну працювати зі складними реальними сценаріями – відсканованими документами, фрагментованими даними та великими масивами знань, забезпечуючи при цьому точні, структуровані та придатні для практичного використання результати.

Саме це забезпечує перетворення:

Даних → на контекст
Контексту → на цінні висновки
Висновків → на обґрунтовані рішення

Якщо ви прагнете вийти за межі базового RAG і розкрити справжній потенціал інтелектуальної роботи з документами в корпоративному масштабі, саме час дізнатися, на що здатний агентний RAG у вашому середовищі.

👉 Дізнайтеся, як elDoc може привнести інтелект у ваші корпоративні дані.

Зв’яжіться з нами

Замовте демо, щоб побачити корпоративний Agentic RAG у дії

Отримайте відповіді на свої запитання або заплануйте демо, щоб побачити рішення в дії – просто залиште нам повідомлення

Як ми створили потужну Enterprise Agentic RAG платформу в elDoc для інтелектуальної роботи з документами у великих масштабах

⚠️ Прихована проблема

🧠 Чому самих лише LLM недостатньо

💡 Наш підхід в elDoc

Ізсередини elDoc: як наша архітектура Agentic RAG працює в корпоративному масштабі

Ключовий прорив: гібридна архітектура пошуку та отримання даних

Багаторівнева система пошуку та отримання даних

🗄️ Контекстний рівень – MongoDB

💡 Чому це важливо

📄 Рівень точності – повнотекстовий пошук

💡 Чому це важливо

🧠 Семантичний рівень – векторна база даних

💡 Чому це важливо

Від RAG до Agentic RAG: поворотний момент в elDoc

⚠️ Обмеження традиційного RAG

💡 Ключове усвідомлення

Зміна підходу: впровадження Agentic RAG

🔑 Що змінилося?

Agentic RAG у дії: аналіз даних та інтелектуальна обробка інформації в elDoc

Чому це завдання потребує Agentic RAG, а не лише RAG

Як Agentic RAG в elDoc вирішує це завдання покроково

1. 🧠 Розуміння наміру користувача

2. 📂 Розширення контексту (режим повного документа)

3. 🔍 Отримання даних з кількох документів

4. 🧩 Нормалізація та узгодження даних

5. 🎯 Логічний аналіз і усунення дублікатів

💡 Саме тут проявляється ключова перевага Agentic RAG:

6. 🧮 Агрегування та розрахунки

7. 📊 Формування структурованого результату

Де Agentic RAG розкриває свій повний потенціал

Традиційний RAG vs Agentic RAG

Що відрізняє Enterprise Agentic RAG: безпека, контроль доступу та довіра, закладені в архітектуру

Від документів до рішень з elDoc Agentic RAG

Зв’яжіться з нами

Замовте демо, щоб побачити корпоративний Agentic RAG у дії

ABOUT elDoc

PLATFORM KEY CAPABILITIES

CONTACTS

GET SOCIAL WITH US

COMPLIANCE

CUSTOMER SUPPORT

LICENSING

PARTNERS AND INVESTORS