Алгоритм КА є другим етапом АМА і може укладатися двома шляхами:
- синтез часткових алгоритмів (за взірцем описаного у попередній темі), кожен з яких є прозорим і таким, що легко доповнюється і коригується;
Негативною рисою першого є досить об’ємне програмне забезпечення і якщо в українській мові існує близько 800 диз’юнктивних кодів, то алгоритм (і, відповідно, програма) складатиметься з тисячі часткових лінгвістичних задач і блоків їх розв’язання. Однак справа у тому, що не всі теоретично можливі диз’юнкції зустрічаються в тексті, тому що реальний словник за текстом довжиною у 300 тис. слововживань (близько 600 стор. друкованого тексту) містить не більше 30 тис. різних слів, а науково-технічного стилю – ще менше. У такому випадку доцільним є попереднє дослідження з виконанням таких етапів:
- укладання алфавітно-частотного словника тексту;
- синтез парадигм усіх словозмінних класів слів;
- числення омонімічних (лексико-граматичних і граматичних) ланцюжків;
- укладання конкордансу для всіх реально існуючих омонімічних ланцюжків;
- побудова алгоритму як синтезу часткових алгоритмів, причому залучати до аналізу в такому випадку можна не тільки коди словоформ, а й перевірку на конкретні лексеми.
Без сумніву, такий алгоритм буде відрізнятися за обсягом і вмістом правил для поетичного тексту і наукового, але укладається він швидко і, за потреби, легко коригується.