Od poprawnej akustyki wnętrz zależy zrozumiałość mowy (czy też szerzej: czytelność wszelkich sygnałów akustycznych wytwarzanych w tych pomieszczeniach). Ma to znaczenie przy komunikacji słownej, zarówno naturalnej jak i wzmocnionej elektroakustycznie. Niski poziom zrozumiałości mowy w danym pomieszczeniu może oznaczać, że słuchacze w ogóle nie rozumieją przekazu – co sprawia, że jest ono niefunkcjonalne a może nawet niepotrzebne. W bardzo wielu pomieszczeniach zrozumiałość mowy jest dostateczna, ale słuchanie ze zrozumieniem i zapamiętywanie informacji jest znacznie utrudnione. Szczególnie dobrej zrozumiałości mowy wymagają dzieci (przedszkole i nauczanie wczesnoszkolne), osoby dla których język wykładowy nie jest językiem ojczystym (czy też po prostu osoby uczące się języków obcych) a także osoby niedosłyszące (szczególnie te używające implantów ślimakowych).
Zrozumiałość mowy (rozumiana w tym przypadku jako sygnał akustyczny) w konkretnym miejscu pomieszczenia zależy od tzw. odstępu sygnału od szumu czyli różnicy pomiędzy poziomem dźwięku głosu mówcy w miejscu słuchacza a poziomem dźwięku tła akustycznego. Na tło akustyczne składają się wszystkie inne dźwięki docierające do uszu słuchacza ( w klasie lekcyjnej może to być hałas uliczny zza okna, odgłosy lekcji WF prowadzonej na korytarzu, szum rzutnika, ogólny szmer wytwarzany przez uczniów czy też pogłos wzbudzony przez głos mówcy). Najlepiej aby głos mówcy był o co najmniej 15 dB głośniejszy od tła. Oczywiście odstęp sygnału od szumu można zwiększyć poprzez podniesienie głosu mówcy, ale dla zdrowia nauczyciela wskazane jest, aby w trakcie zajęć mógł on mówić normalnym głosem, to jest na poziomie ok. 60 dBA w odległości 1m. Z tego względu, większość norm dotyczących tego tematu zaleca dla pomieszczeń przeznaczonych do komunikacji słownej poziom tła akustycznego na poziomie nie większym niż 35-40 dB(A).
Dodatkowym problem bardzo często występującym w salach lekcyjnych czy wykładowych jest wyraźny pogłos, którego już nie da się przekrzyczeć. W pogłosowym pomieszczeniu każdy wytworzony dźwięk wybrzmiewa przez pewien czas. Jeśli dźwięki są wytwarzane w krótkich odstępach czasu (tak jak ma to miejsce w przypadku mowy) to wcześniejsze nakładają się na późniejsze. W ten sposób głoski i całe sylaby są przez słuchacza tracone co znacznie utrudnia zrozumienie całego przekazu. Sposoby poprawy zrozumiałości mowy w takich warunkach są w zasadzie dwa: znaczne spowolnienie tempa wypowiedzi (tak aby poszczególne głoski mogły wybrzmieć zanim pojawią się następne) co oczywiście jest mało praktyczne lub skrócenie czasu pogłosu przez odpowiednie rozwiązania techniczne. Stąd w salach do komunikacji słownej pożądany jest krótki czas pogłosu: od 0,4-0,6 s w małych pomieszczeniach (o kubaturze rzędu 200 m3) do maksymalnie 0,8-1,0 s w większych.