quizas esto que estuve poniendo hace algunos meses te pueda servir de ayuda, solo tendrias que parsear con Pos o algo para localizar unicamente las "zonas" que tenga que leer por text to Speech (por ejemplo como el SRT tiene el simbolo "-->" antes de cada frase, podrias utilizarlo con el metodo Pos y luego simplemente saltar a la siguiente linea, pasarlo a un AnsiString y leerlo en Voz con esas funciones que estan en este mensaje que te indico abajo)
https://www.clubdelphi.com/foros/sho...ghlight=speech