Audio to Text: స్పీచ్ రికగ్నిషన్ రంగంలో సంచలనం వచ్చేస్తోంది!
ABN, First Publish Date - 2023-04-23T14:15:07+05:30
ప్రస్తుతం ఏఐ చేస్తున్న అద్భుతాలు అన్నీ ఇన్నీ కావు. Text to Image, Text to Audio, Text to Video... ఎన్నో వచ్చేశాయి. జస్ట్ టెక్స్ట్ ఇస్తే చాలు... ఇమేజ్ ఆడియో వీడియో ఏదయినా.. క్షణాల్లో రెడీ! అయితే ఆడియోను Text గా మార్చే వాయిస్ రికగ్నిషన్ టూల్స్ సంగతేంటి?..
ప్రస్తుతం ఏఐ చేస్తున్న అద్భుతాలు అన్నీ ఇన్నీ కావు. Text to Image, Text to Audio, Text to Video... ఎన్నో వచ్చేశాయి. జస్ట్ టెక్స్ట్ ఇస్తే చాలు... ఇమేజ్ ఆడియో వీడియో ఏదయినా.. క్షణాల్లో రెడీ! అయితే ఆడియోను Text గా మార్చే వాయిస్ రికగ్నిషన్ టూల్స్ సంగతేంటి? ఎస్. ఇప్పుడు ఆ రంగంలో కూడా ఏఐ అడుగుపెట్టింది. అడుగుపెట్టడమే కాదు.. అన్ని విషయాల్లో మాదిరిగానే అక్కడ కూడా అద్భుతాలు చేస్తోంది. Chat GPT లాంటి అద్భుతమైన చాట్ బాట్ని సృష్టించిన ఓపెన్ ఏఐ సంస్థ నుంచి వచ్చిన అద్భుతమైన ఆడియో టూల్ .. విస్పర్ (Whisper ) ... ఇప్పుడు స్పీచ్ రికగ్నిషన్ రంగంలోనే ఇది ఓ సంచలనంగా మారబోతోంది.
ఆడియో టెక్నాలజీ ఎంత పెరిగినా... ఇప్పటికీ స్పీచ్ రికగ్నిషన్ విషయంలో గొప్ప టూల్స్ తయారు కాలేదు అనే చెప్పాలి. ఈ కాలంలో ఏదైనా టైప్ చేయాల్సి వచ్చినప్పుడు - సాధారణంగా speech recognition టూల్స్ మీద ఆధారపడడం మామూలయిపోయింది. వాయిస్ రికగ్నిషన్ టెక్నాలజీ వచ్చిన కొత్తల్లో - డ్రేగాన్ నేచురల్లీ స్పీకింగ్ లాంటి టూల్స్ కొన్ని టెక్నో రంగంలో అడుగుపెట్టాయి. అయితే అవి కూడా అద్భుతమైన అవుట్ ఫుట్ని ఇచ్చాయా? అంటే, లేదనే చెప్పాల్సి ఉంటుంది. ఎందుకంటే వాయిస్ని టెక్స్ట్గా మార్చేటప్పుడు అవి కేవలం శబ్దాన్ని మాత్రమే ఆధారంగా చేసుకుని పనిచేసేవి. వినిపించిన శబ్దాన్ని టెక్స్ట్ రూపంలో ఇచ్చేవి. అయితే ఈ పద్ధతి మనిషి అవసరాలకు పూర్తిగా సరిపోదు. ఎందుకంటే సాధారణంగా మనిషి తన సహజమైన పద్ధతిలో మాట్లాడేటప్పుడు - పదాల్లో ఉన్న ప్రతి అక్షరాన్నీ స్పష్టంగా పలకడు. ముఖ్యంగా వేగంగా మాట్లాడేటప్పుడు... ఎక్కువ విషయాల్ని తక్కువ సమయంలో చెప్పేటప్పుడు... పదాల్లోని అక్షరాల్ని జంప్ చేయడం సాధారణం. ఒకోసారి పదాలకి పదాలే ఎగిరిపోయే అవకాశం ఉంటుంది. మరి ఇలాంటి సహజమైన సంభాషణలు చేసినప్పుడు - పాతకాలం స్పీచ్ రికగ్నిషన్ టూల్స్ సరిగ్గా పనిచేసే అవకాశం ఉండనే ఉండదు. కేవలం వినిపించే శబ్దం మీద మాత్రమే డిపెండవడం వల్ల.. అవుట్ఫుట్ అక్షరాల్లో ఎన్నో తప్పులు వచ్చే ఛాన్సుంది.
మరి అలా - అసమర్థంగా కాకుండా మనిషి ఎంత నేచురల్గా మాట్లాడినా... మరో మనిషి దాని గ్రహించగలిగే టూల్స్ ఉన్నాయా? విన్నది విన్నట్టు కాకుండా.. విన్నది స్పష్టంగా లేకపోయినా... ఎలాంటి తప్పులూ లేకుండా అర్థం చేసుకోగలుగుతాయా? వినిపించిన సౌండ్ క్వాలిటీ ఎలా ఉన్నా... కావలసినదాన్ని కరెక్ట్గా టైప్ చేయగలిగే టూల్స్ ఉన్నాయా? నిన్న మొన్నటి వరకు లేవు. కానీ ఇప్పుడు వచ్చేశాయని చెప్పచ్చు. ముఖ్యంగా ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ వచ్చిన తరవాత ఈ వాయిస్ రికగ్నిషన్ టూల్స్ ... తప్పులు లేని outputని అందించగలుగుతున్నాయి. అలాంటి ఒక అద్భుతమైన టూలే... విస్పర్ (Whisper ).
Chat GPT లాంటి అద్భుతమైన చాట్బాట్ టూల్ని ప్రపంచానికి అందించిన ఓపెన్ ఏఐ సంస్థ నుంచే వచ్చింది విస్పర్ (Whisper ). Chat GPT మాదిరిగానే ఇది కూడా ఒక ఓపెన్ సోర్స్ టూల్. ఈ న్యూరల్ నెట్వర్క్కి వీళ్ళు ఎంతో అద్భుతమైన శిక్షణ ఇచ్చారు. మనుషులు మాట్లాడిన వేలాది, లక్షలాది సంభాషణల్ని ఈ నెట్వర్క్కి అందించడం ద్వారా దీన్ని వీళ్లు ఒక పవర్ఫుల్ టూల్గా తయారు చేయగలిగారు.
మనిషి స్పీడ్గా మాట్లాడినా... పదాలు ఎగరేసి మాట్లాడినా... అక్షరాలు సరిగా పలకపోయినా... అతను అసలు ఏం చెప్పాడన్నది గుర్తించేయగలిగే సామర్ధ్యం ఈ టూల్కి ఉంది. ఉదాహరణకి - మనం వేగంగా మాట్లాడినప్పుడు - ఆ స్పీడ్లో కొన్ని మాటలు మిస్ అవ్వచ్చు, కానీ మనం అలా మాట్లాడినప్పటికీ విస్పర్ మాత్రం పొరబాటుపడదు. అదే దీని స్పెషాలిటీ. దాదాపు 150 పదాలు కేవలం కొన్ని సెకండ్ల కాలంలో త్వరత్వరగా పలికేసినా... అందులోంచి ప్రతి పదాన్నీ గుర్తించి కరెక్ట్గా టైప్ చేసి స్క్రిప్ట్ రూపంలో ఇవ్వగలిగే సామర్థ్యం దీనికుంది. చెప్పాలంటే - వాయిస్ రికగ్నిషన్ లో అత్యంత ఎడ్వాన్స్డ్ టూల్ ఈ విస్పర్ (Whisper ).
స్పీడ్ టాకింగ్ మాత్రమే కాదు, పాప్ సింగర్స్ పాడే పాటల్లోని మాటల్ని కూడా కరెక్ట్గా టైప్ చేయగలిగే సామర్థ్యం దీనికి ఉంది. రాగాలు తీస్తూ స్వరాలు మారుస్తూ అక్షరాల్నీ పదాల్నీ ఇష్టం వచ్చినట్టు విరిచేసినా సాగదీసినా - గుర్తించి Text కరెక్ట్గా ఇవ్వగలగడం దీని ప్రత్యేకత.
ఇంగ్లీష్ మాత్రమే కాదు, ఫ్రెంచ్ లాంటి అనేక ఇతర భాషల్ని కూడా విస్పర్ అద్భుతంగా గుర్తించగలుగుతుంది. కరెక్ట్ పదాల్ని టైప్ చేసి అందించగలుగుతుంది. అనేక రకాల భాషలు మాత్రమే కాదు, ఒకే భాషలోని రకరకాల యాసల్ని కూడా విడిగా గుర్తించడం దీని ప్రత్యేకత. ఎలాంటి యాసలు మాట్లాడినా ఆ పదాల్ని కరెక్ట్గా టైప్ చేసేస్తుంది విస్పర్.
ఉదాహరణకి ఇంగ్లీష్నే తీసుకోండి... అనేక ఇంగ్లీష్ పదాల్ని ఒక్కో దేశం వాళ్లు ఒక్కో రకంగా పలుకుతారు. ఇలా ఎందుకు జరుగుతుందంటే - వాళ్లు తమ తమ దేశాల్లో వాడుకలో ఉన్న తమ సొంత దేశీయ భాషల ఉచ్చారణకి అలవాటుపడి ఉంటారు. ఆ ఉచ్చారణకి అనుగుణంగా - ఇంగ్లీష్ పదాల్ని కూడా మార్చేసి వేరేగా పలుకుతారు. ఇలా స్టాండర్డ్ ఇంగ్లీష్ ఉచ్చారణకి భిన్నంగా అనేక రకాలుగా పదాలు పలికితే... సాధారణమైన స్పీచ్ రికగ్నిషన్ టూల్స్ కచ్చితంగా పొరబాటుపడిపోతాయి. యాస మారడం వల్ల .. తెలిసిన పదమే అయినా శబ్దాన్ని అర్థం చేసుకోలేకపోతాయి. అందువల్ల ఆ పదాల్ని ఈ టూల్స్ స్కిప్ చేస్తూ ఉంటాయి. కానీ ఓపెన్ ఎఐ రూపొందించిన విస్పర్ అలా కాదు. మనం ఎలాంటి యాక్సెంట్లో మాట్లాడినా.. దాన్ని పర్ఫెక్ట్గా గుర్తించి ... కరెక్ట్గా టైప్ చేసి Pure Text అందించగలుగుతుంది.
విస్పర్ సామర్థ్యాలు ఇవి మాత్రమే కాదు, మనం మాట్లాడేటప్పుడు - ఆ ఆడియో వెనక ఏదైనా గందరగోళం, గోల, డిస్టర్బెన్స్ ఉన్నా... దాన్ని కూడా తొలగించి కరెక్ట్ స్క్రిప్ట్ని ఇది అందించగలుగుతుంది. అసలు ఇదంతా ఎలా సాధ్యం? ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ వల్లే ఇది సాధ్యమయింది.
Whisper అనుది మామూలు వాయిస్ రికగ్నిషన్ టూల్ కాదు. ఇది ఎఐబేస్డ్ టూల్ చెప్పాలంటే దీన్ని వాళ్లు ASR అనే పేరుతో పిలుస్తున్నారు. అంటే, ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్. ఈ ఇంజన్కి వాళ్ళు - హ్యూమన్ ఇన్పుట్తో బలమైన ట్రైనింగ్ ఇవ్వడం వల్లే - అవుట్పుట్లో పెర్ఫెక్షన్ సాధ్యమవుతోంది.
స్పష్టంగా చెప్పాలంటే - ఇంటర్నెట్ నుంచి వీళ్లు దాదాపు ఆరు లక్షల 80 వేల గంటల ఆడియోని కలెక్ట్ చేసి ఈ న్యూరల్ నెట్వర్క్కి అందించారు. వేలాది గంటల ఈ ఆడియో సమాచారంలో ఇంగ్లిషే కాదు... అనేక రకాల భాషలు ఉన్నాయి. భాషలు మాత్రమే కాదు... అనేక రకాల యాసల ఆడియో కంటెంట్ ఉంది. అంతేకాదు... బ్యాక్ గ్రౌండ్ నాయిస్ కలిగిన... గోల గోలగా ఉండే ఆడియో ఫైల్స్ కూడా ఎన్నిటినో విస్పర్కి వీళ్లు అందించారు. మామూలు సంభాషణలతో బాటు ప్రత్యేకమైన ఆడియో కంటెంట్ కూడా అందించారు.అంటే... మామూలుగా అర్థం కాని టెక్నికల్ పదాలు, టెక్నికల్ జార్గాన్ కలిగిన వాయిస్ ఫైల్స్ కూడా వీళ్లు ఇచ్చిన ఇన్పుట్లో ఉన్నాయి.
మరి ఇన్ని రకాల సమాచారాన్నీ... ఇన్ని రకాల ఆడియో ఫైల్స్ని స్టడీ చేసి, వాటికి కరస్పాండింగ్ గా ఏ text ఇవ్వాలో అర్థం చేసుకోవడం వల్లే విస్పర్ ఒక పవర్ఫుల్ టూల్గా మారింది. ఇప్పుడు విస్పర్కి ఎలాంటి కొత్త ఆడియో ఇచ్చినా దాన్ని ఈజీగా డీకోడ్ చేసేసి Pure Text ని అవుట్పుట్గా అందించగలుగుతోంది.
విస్పర్కి వీళ్లు inputగా ఇచ్చిన ఆడియోల్ని ఒక్కోటీ 30 సెకండ్ బిట్గా ఉండేలా అందించారు. ఈ విధంగా అది ఎన్నో పదాల్నీ వాక్యాల్నీ నేర్చుకుంది. మనుషులు మాట్లాడిన అత్యంత సహజమైన వేలాది ఆడియో ఫైల్స్ ద్వారా జ్ఞానం తెచ్చుకున్న ఈ న్యూరల్ నెట్వర్క్ ఇప్పుడు ప్రపంచంలోనే అద్భుతమైన స్పీచ్ రికగ్నిషన్ టూల్గా మారిపోతోంది. అయితే ఓపెన్ ఎఐ వాళ్లు ఇంతటితో ఆగలేదు. విస్పర్ని వీళ్లిప్పుడు మరింతగా డెవలప్ చేస్తున్నారు. విస్పర్ కొత్త వెర్షన్స్ పూర్తిగా వాడుకలోకి వచ్చే కొద్దీ... స్పీచ్ రికగ్నిషన్ మిస్టేక్స్ అన్నవి ప్రపంచంలోంచి నెమ్మదిగా కనుమరుగైపోతాయని చెప్పచ్చు.
ఇవి కూడా చదవండి..
Arshdeep Singh: రెండుసార్లు స్టంప్లు విరగ్గొట్టిన అర్ష్దీప్ సింగ్.. బీసీసీఐకి ఎంత నష్టమో తెలుసా?
Akshaya Tritiya: అక్షయ తృతీయ నాడు బంగారమే ఎందుకు?.. స్థోమతలేనివారు ఇలా చేస్తే పసిడి కొన్నట్టే...
Updated Date - 2023-04-23T14:25:51+05:30 IST