Системи керування контентом CMS (Content Management Systems) реалізують сучасну концепцію керування контентом (змістом) підприємства ECM (Enterprise Content Management) і забезпечують контроль процесів створення, доступу, доставки інформації та її інтеграції з метою повторного використання та аналізу. Системи уможливлюють роботу з інформаційними об’єктами, меншими за документ, що полегшує процеси обміну інформацією між прикладними програмами. Головне призначення CMS - керування інтелектуальними активами організації, що існують у вигляді безлічі різнорідних електронних документів на робочих місцях персоналу.
Контент-аналіз змісту текстового документа ґрунтується на визначенні частоти появи в тексті певних елементів або кодифікованих ознак і включає кількісний і якісний аналіз. Кількісний контент-аналіз ґрунтується на визначенні частот появи в тексті певних характеристик (змінних) змісту. Якісний контент-аналіз дає змогу робити висновки навіть на основі єдиної присутності або відсутності деякої характеристики змісту.
Методи кількісного контент-аналізу включають:
- розрахунок абсолютних і відносних частот появи в текстах термінів або тем;
- концептуальний аналіз - розрахунок частот появи категорій (наборів слів, об’єднаних на певній підставі);
- розрахунок відхилень від нормальної частоти категорій;
- визначення зв’язків між категоріями у тексті (cooccurance);
- визначення контекстів (істотних ознак) вжитку слів (collocations) та їх аналіз;
- автоматичну категоризацію текстів та ін.
Засоби керування контентом підприємства ECM (Enterprise Content Management) призначені для роботи з неструктурованими даними. Керування контентом підприємства - це сукупність технологій, використовуваних для виділення, менеджменту, аналізу, зберігання і поширення контенту і документів, що належать до організаційних процесів. Стандартизацію в області ECM координує Асоціація керування інформацією і зображеннями AIIM (Association for Information and Image Management).
В межах підприємства можуть створюватись корпоративні системи керування контентом на основі його інтеграції. Підхід інтеграції контенту підприємства ECI (Enterprise Content Integration) передбачає абстрагування даних, тобто виділення контента, і забезпечення доступу до гетерогенних даних на основі контента. Це потребує створення карт «семантичного рівня», на яких подається розподіл гетерогенних корпоративних даних. Такі карти є оболонкою, що приховує від користувачів особливості збереження різнорідних даних в інформаційних системах. Терміном «контекстуалізація даних» (data contextualization) позначають адаптацію даних засобами ECI до систем, що використовують однорідні дані, - від електронних таблиць і текстових редакторів до систем корпоративного рівня (ERP).
Існує декілька способів роботи з контентом підприємства. Найчастіше ці способи передбачають участь людини в процесі рішення, і їх називають орієнтованими на користувача (User oriented Integration, UI). Підхід на базі UI включає корпоративний пошук (Enterprise Search) і корпоративні портали (Enterprise Portal).
Системи корпоративного пошуку спроможні індексувати і шукати дані, що зберігаються в різних розподілених репозиторіях. Використовуються дві альтернативні архітектури пошуку: out-of-band і in-band. У першій агенти-«павуки» періодично переглядають репозиторії і будують єдиний індекс розподіленого контента. У другій (її іноді називають «федеративним пошуком» - federated search) використовується концентратор, що спрямовує запити в різні репозиторії, потім об’єднує результати пошуку і надає їх користувачу. Особливістю такого доступу до розподіленого контенту є його однонаправленість: можна виявити документ або зображення, але не можна зберігати нову версію або доповнювати поточну метаданими.
Технології корпоративних порталів дають змогу поширювати контент, але не вирішують задач керування контентом підприємства і не враховують потреб програмних додатків, що потребують доступу до контенту.
На ринку програмних продуктів зараз широко представлені засоби реалізації керування контентом від різних виробників: Microsoft (Microsoft CMS), EMC (Documentum BPM), Oracle (Oracle Files 10g), FileNet (Content Manager, Web Content Manager, Forms Manager, Image Manager, Team Collaboration Manager, Records Manager) та ін.
Наприклад, система контент-аналізу Galaktika-Zoom надає функціональні можливості:
- пошук інформації за словами з урахуванням їх морфології або змісту та формування інформаційних масивів за конкретними аспектами досліджуваної проблеми;
- аналіз об’єктивних смислових зв’язків відібраних даних, виявлення закономірностей і тенденцій динаміки розвитку досліджуваної проблеми. При цьому використовується пошук і аналіз закономірностей повторень словосполучень у текстових масивах даних і наступне їх ранжування;
- порівняння декількох станів проблеми. Проблема подається у вигляді «образу» - теми проблеми і ранжованого списку значущих слів. Далі цей «образ» відстежується з певною періодичністю та аналізуються причини його зміни.