Audio to Text: స్పీచ్‌ రికగ్నిషన్‌ రంగంలో సంచలనం వచ్చేస్తోంది!

ABN , First Publish Date - 2023-04-23T14:15:07+05:30 IST

ప్రస్తుతం ఏఐ చేస్తున్న అద్భుతాలు అన్నీ ఇన్నీ కావు. Text to Image, Text to Audio, Text to Video... ఎన్నో వచ్చేశాయి. జస్ట్‌ టెక్స్ట్‌ ఇస్తే చాలు... ఇమేజ్‌ ఆడియో వీడియో ఏదయినా.. క్షణాల్లో రెడీ! అయితే ఆడియోను Text గా మార్చే వాయిస్‌ రికగ్నిషన్ టూల్స్‌ సంగతేంటి?..

Audio to Text: స్పీచ్‌ రికగ్నిషన్‌ రంగంలో సంచలనం వచ్చేస్తోంది!

ప్రస్తుతం ఏఐ చేస్తున్న అద్భుతాలు అన్నీ ఇన్నీ కావు. Text to Image, Text to Audio, Text to Video... ఎన్నో వచ్చేశాయి. జస్ట్‌ టెక్స్ట్‌ ఇస్తే చాలు... ఇమేజ్‌ ఆడియో వీడియో ఏదయినా.. క్షణాల్లో రెడీ! అయితే ఆడియోను Text గా మార్చే వాయిస్‌ రికగ్నిషన్ టూల్స్‌ సంగతేంటి? ఎస్‌. ఇప్పుడు ఆ రంగంలో కూడా ఏఐ అడుగుపెట్టింది. అడుగుపెట్టడమే కాదు.. అన్ని విషయాల్లో మాదిరిగానే అక్కడ కూడా అద్భుతాలు చేస్తోంది. Chat GPT లాంటి అద్భుతమైన చాట్ బాట్‌ని సృష్టించిన ఓపెన్ ఏఐ సంస్థ నుంచి వచ్చిన అద్భుతమైన ఆడియో టూల్‌ .. విస్పర్ (Whisper ) ... ఇప్పుడు స్పీచ్‌ రికగ్నిషన్‌ రంగంలోనే ఇది ఓ సంచలనంగా మారబోతోంది.

ఆడియో టెక్నాలజీ ఎంత పెరిగినా... ఇప్పటికీ స్పీచ్ రికగ్నిషన్ విషయంలో గొప్ప టూల్స్ తయారు కాలేదు అనే చెప్పాలి. ఈ కాలంలో ఏదైనా టైప్ చేయాల్సి వచ్చినప్పుడు - సాధారణంగా speech recognition టూల్స్ మీద ఆధారపడడం మామూలయిపోయింది. వాయిస్ రికగ్నిషన్ టెక్నాలజీ వచ్చిన కొత్తల్లో - డ్రేగాన్ నేచురల్లీ స్పీకింగ్ లాంటి టూల్స్ కొన్ని టెక్నో రంగంలో అడుగుపెట్టాయి. అయితే అవి కూడా అద్భుతమైన అవుట్ ఫుట్‌ని ఇచ్చాయా? అంటే, లేదనే చెప్పాల్సి ఉంటుంది. ఎందుకంటే వాయిస్‌ని టెక్స్ట్‌గా మార్చేటప్పుడు అవి కేవలం శబ్దాన్ని మాత్రమే ఆధారంగా చేసుకుని పనిచేసేవి. వినిపించిన శబ్దాన్ని టెక్స్ట్ రూపంలో ఇచ్చేవి. అయితే ఈ పద్ధతి మనిషి అవసరాలకు పూర్తిగా సరిపోదు. ఎందుకంటే సాధారణంగా మనిషి తన సహజమైన పద్ధతిలో మాట్లాడేటప్పుడు - పదాల్లో ఉన్న ప్రతి అక్షరాన్నీ స్పష్టంగా పలకడు. ముఖ్యంగా వేగంగా మాట్లాడేటప్పుడు... ఎక్కువ విషయాల్ని తక్కువ సమయంలో చెప్పేటప్పుడు... పదాల్లోని అక్షరాల్ని జంప్ చేయడం సాధారణం. ఒకోసారి పదాలకి పదాలే ఎగిరిపోయే అవకాశం ఉంటుంది. మరి ఇలాంటి సహజమైన సంభాషణలు చేసినప్పుడు - పాతకాలం స్పీచ్ రికగ్నిషన్ టూల్స్‌ సరిగ్గా పనిచేసే అవకాశం ఉండనే ఉండదు. కేవలం వినిపించే శబ్దం మీద మాత్రమే డిపెండవడం వల్ల.. అవుట్‌ఫుట్ అక్షరాల్లో ఎన్నో తప్పులు వచ్చే ఛాన్సుంది.

Untitled-3.jpg

మరి అలా - అసమర్థంగా కాకుండా మనిషి ఎంత నేచురల్‌గా మాట్లాడినా... మరో మనిషి దాని గ్రహించగలిగే టూల్స్‌ ఉన్నాయా? విన్నది విన్నట్టు కాకుండా.. విన్నది స్పష్టంగా లేకపోయినా... ఎలాంటి తప్పులూ లేకుండా అర్థం చేసుకోగలుగుతాయా? వినిపించిన సౌండ్‌ క్వాలిటీ ఎలా ఉన్నా... కావలసినదాన్ని కరెక్ట్‌గా టైప్ చేయగలిగే టూల్స్ ఉన్నాయా? నిన్న మొన్నటి వరకు లేవు. కానీ ఇప్పుడు వచ్చేశాయని చెప్పచ్చు. ముఖ్యంగా ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ వచ్చిన తరవాత ఈ వాయిస్‌ రికగ్నిషన్‌ టూల్స్ ... తప్పులు లేని outputని అందించగలుగుతున్నాయి. అలాంటి ఒక అద్భుతమైన టూలే... విస్పర్ (Whisper ).

Chat GPT లాంటి అద్భుతమైన చాట్‌బాట్‌ టూల్‌ని ప్రపంచానికి అందించిన ఓపెన్ ఏఐ సంస్థ నుంచే వచ్చింది విస్పర్ (Whisper ). Chat GPT మాదిరిగానే ఇది కూడా ఒక ఓపెన్ సోర్స్ టూల్. ఈ న్యూరల్ నెట్‌వర్క్‌కి వీళ్ళు ఎంతో అద్భుతమైన శిక్షణ ఇచ్చారు. మనుషులు మాట్లాడిన వేలాది, లక్షలాది సంభాషణల్ని ఈ నెట్‌వర్క్‌కి అందించడం ద్వారా దీన్ని వీళ్లు ఒక పవర్ఫుల్ టూల్‌గా తయారు చేయగలిగారు.

మనిషి స్పీడ్‌గా మాట్లాడినా... పదాలు ఎగరేసి మాట్లాడినా... అక్షరాలు సరిగా పలకపోయినా... అతను అసలు ఏం చెప్పాడన్నది గుర్తించేయగలిగే సామర్ధ్యం ఈ టూల్‌కి ఉంది. ఉదాహరణకి - మనం వేగంగా మాట్లాడినప్పుడు - ఆ స్పీడ్‌లో కొన్ని మాటలు మిస్ అవ్వచ్చు, కానీ మనం అలా మాట్లాడినప్పటికీ విస్పర్ మాత్రం పొరబాటుపడదు. అదే దీని స్పెషాలిటీ. దాదాపు 150 పదాలు కేవలం కొన్ని సెకండ్ల కాలంలో త్వరత్వరగా పలికేసినా... అందులోంచి ప్రతి పదాన్నీ గుర్తించి కరెక్ట్‌గా టైప్ చేసి స్క్రిప్ట్ రూపంలో ఇవ్వగలిగే సామర్థ్యం దీనికుంది. చెప్పాలంటే - వాయిస్‌ రికగ్నిషన్‌ లో అత్యంత ఎడ్వాన్స్డ్ టూల్ ఈ విస్పర్ (Whisper ).

Untitled-5.jpg

స్పీడ్ టాకింగ్ మాత్రమే కాదు, పాప్ సింగర్స్ పాడే పాటల్లోని మాటల్ని కూడా కరెక్ట్‌గా టైప్ చేయగలిగే సామర్థ్యం దీనికి ఉంది. రాగాలు తీస్తూ స్వరాలు మారుస్తూ అక్షరాల్నీ పదాల్నీ ఇష్టం వచ్చినట్టు విరిచేసినా సాగదీసినా - గుర్తించి Text కరెక్ట్‌గా ఇవ్వగలగడం దీని ప్రత్యేకత.

ఇంగ్లీష్ మాత్రమే కాదు, ఫ్రెంచ్ లాంటి అనేక ఇతర భాషల్ని కూడా విస్పర్‌ అద్భుతంగా గుర్తించగలుగుతుంది. కరెక్ట్ పదాల్ని టైప్ చేసి అందించగలుగుతుంది. అనేక రకాల భాషలు మాత్రమే కాదు, ఒకే భాషలోని రకరకాల యాసల్ని కూడా విడిగా గుర్తించడం దీని ప్రత్యేకత. ఎలాంటి యాసలు మాట్లాడినా ఆ పదాల్ని కరెక్ట్‌గా టైప్ చేసేస్తుంది విస్పర్‌.

ఉదాహరణకి ఇంగ్లీష్‌నే తీసుకోండి... అనేక ఇంగ్లీష్ పదాల్ని ఒక్కో దేశం వాళ్లు ఒక్కో రకంగా పలుకుతారు. ఇలా ఎందుకు జరుగుతుందంటే - వాళ్లు తమ తమ దేశాల్లో వాడుకలో ఉన్న తమ సొంత దేశీయ భాషల ఉచ్చారణకి అలవాటుపడి ఉంటారు. ఆ ఉచ్చారణకి అనుగుణంగా - ఇంగ్లీష్‌ పదాల్ని కూడా మార్చేసి వేరేగా పలుకుతారు. ఇలా స్టాండర్డ్ ఇంగ్లీష్ ఉచ్చారణకి భిన్నంగా అనేక రకాలుగా పదాలు పలికితే... సాధారణమైన స్పీచ్ రికగ్నిషన్ టూల్స్ కచ్చితంగా పొరబాటుపడిపోతాయి. యాస మారడం వల్ల .. తెలిసిన పదమే అయినా శబ్దాన్ని అర్థం చేసుకోలేకపోతాయి. అందువల్ల ఆ పదాల్ని ఈ టూల్స్ స్కిప్ చేస్తూ ఉంటాయి. కానీ ఓపెన్ ఎఐ రూపొందించిన విస్పర్ అలా కాదు. మనం ఎలాంటి యాక్సెంట్‌లో మాట్లాడినా.. దాన్ని పర్ఫెక్ట్‌గా గుర్తించి ... కరెక్ట్‌గా టైప్ చేసి Pure Text అందించగలుగుతుంది.

విస్పర్‌ సామర్థ్యాలు ఇవి మాత్రమే కాదు, మనం మాట్లాడేటప్పుడు - ఆ ఆడియో వెనక ఏదైనా గందరగోళం, గోల, డిస్టర్బెన్స్ ఉన్నా... దాన్ని కూడా తొలగించి కరెక్ట్ స్క్రిప్ట్‌ని ఇది అందించగలుగుతుంది. అసలు ఇదంతా ఎలా సాధ్యం? ఆర్టిఫిషియల్ ఇంటెలిజెన్స్‌ వల్లే ఇది సాధ్యమయింది.

Whisper అనుది మామూలు వాయిస్ రికగ్నిషన్‌ టూల్‌ కాదు. ఇది ఎఐబేస్డ్‌ టూల్‌ చెప్పాలంటే దీన్ని వాళ్లు ASR అనే పేరుతో పిలుస్తున్నారు. అంటే, ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్‌. ఈ ఇంజన్‌కి వాళ్ళు - హ్యూమన్‌ ఇన్‌పుట్‌తో బలమైన ట్రైనింగ్ ఇవ్వడం వల్లే - అవుట్‌పుట్‌లో పెర్‌ఫెక్షన్‌ సాధ్యమవుతోంది.

స్పష్టంగా చెప్పాలంటే - ఇంటర్‌నెట్‌ నుంచి వీళ్లు దాదాపు ఆరు లక్షల 80 వేల గంటల ఆడియోని కలెక్ట్ చేసి ఈ న్యూరల్ నెట్‌వర్క్‌కి అందించారు. వేలాది గంటల ఈ ఆడియో సమాచారంలో ఇంగ్లిషే కాదు... అనేక రకాల భాషలు ఉన్నాయి. భాషలు మాత్రమే కాదు... అనేక రకాల యాసల ఆడియో కంటెంట్‌ ఉంది. అంతేకాదు... బ్యాక్ గ్రౌండ్ నాయిస్ కలిగిన... గోల గోలగా ఉండే ఆడియో ఫైల్స్ కూడా ఎన్నిటినో విస్పర్‌కి వీళ్లు అందించారు. మామూలు సంభాషణలతో బాటు ప్రత్యేకమైన ఆడియో కంటెంట్‌ కూడా అందించారు.అంటే... మామూలుగా అర్థం కాని టెక్నికల్ పదాలు, టెక్నికల్ జార్గాన్ కలిగిన వాయిస్ ఫైల్స్ కూడా వీళ్లు ఇచ్చిన ఇన్‌పుట్‌లో ఉన్నాయి.

Untitled-4.jpg

మరి ఇన్ని రకాల సమాచారాన్నీ... ఇన్ని రకాల ఆడియో ఫైల్స్‌ని స్టడీ చేసి, వాటికి కరస్పాండింగ్ గా ఏ text ఇవ్వాలో అర్థం చేసుకోవడం వల్లే విస్పర్‌ ఒక పవర్‌ఫుల్‌ టూల్‌గా మారింది. ఇప్పుడు విస్పర్‌కి ఎలాంటి కొత్త ఆడియో ఇచ్చినా దాన్ని ఈజీగా డీకోడ్ చేసేసి Pure Text ని అవుట్‌పుట్‌గా అందించగలుగుతోంది.

విస్పర్‌కి వీళ్లు inputగా ఇచ్చిన ఆడియోల్ని ఒక్కోటీ 30 సెకండ్ బిట్‌గా ఉండేలా అందించారు. ఈ విధంగా అది ఎన్నో పదాల్నీ వాక్యాల్నీ నేర్చుకుంది. మనుషులు మాట్లాడిన అత్యంత సహజమైన వేలాది ఆడియో ఫైల్స్ ద్వారా జ్ఞానం తెచ్చుకున్న ఈ న్యూరల్ నెట్‌వర్క్ ఇప్పుడు ప్రపంచంలోనే అద్భుతమైన స్పీచ్ రికగ్నిషన్ టూల్‌గా మారిపోతోంది. అయితే ఓపెన్‌ ఎఐ వాళ్లు ఇంతటితో ఆగలేదు. విస్పర్‌ని వీళ్లిప్పుడు మరింతగా డెవలప్ చేస్తున్నారు. విస్పర్‌ కొత్త వెర్షన్స్‌ పూర్తిగా వాడుకలోకి వచ్చే కొద్దీ... స్పీచ్ రికగ్నిషన్ మిస్టేక్స్ అన్నవి ప్రపంచంలోంచి నెమ్మదిగా కనుమరుగైపోతాయని చెప్పచ్చు.

ఇవి కూడా చదవండి..

Arshdeep Singh: రెండుసార్లు స్టంప్‌లు విరగ్గొట్టిన అర్ష్‌దీప్ సింగ్.. బీసీసీఐకి ఎంత నష్టమో తెలుసా?

Akshaya Tritiya: అక్షయ తృతీయ నాడు బంగారమే ఎందుకు?.. స్థోమతలేనివారు ఇలా చేస్తే పసిడి కొన్నట్టే...

Updated Date - 2023-04-23T14:25:51+05:30 IST