Posteé una prueba parecida hecha mediante proteus, ahora mismo no me acuerdo, pero cada operación rondaba los 400 microsegundos, en un 18F a 40mhz...
En el manual del CCS, en un PIC16 a 20mhz, pone lo siguiente:
bit add
<1 us
8 bit multiply
9 us
8 bit divide
20 us
16 bit add
2 us
16 bit multiply
48 us
16 bit divide
65 us
32 bit add
5 us
32 bit multiply
138 us
32 bit divide
162 us
float add
32 us
float multiply
147 us
float divide
274 us
exp()
1653 us
ln()
2676 us
sin()
3535 us