объединить в логическую "единицу" IP камеру подключенную по RTSP и "клиента" с микрофоном чтобы можно было воспользоваться VAD?
так-то не очень сложная доработка, но будут непонятки при реализации: от кого взять подпись, как это реализовать в интерфейсе, сколько терминалов можно таким образом комбинировать и что делать, если у клиента с микрофоном тоже появится видеопоток

вот только в этом сложности

Очень понравился MyPhone 3... Но беда со звуком..... его нет совсем...
Изучение трассировки может помочь, присылайте, а так - пробуйте Linphone