Valiny fohy: Ny fanodinana mialoha ny AI dia andiana dingana azo averina izay mamadika ny angon-drakitra manta sy miovaova be ho lasa fidirana modely mitovy, anisan'izany ny fanadiovana, ny fandikana, ny fanasokajiana, ny fanondroana, ary ny fiovan'ny sary. Zava-dehibe izany satria raha tsy mitovy ny fidirana fiofanana sy ny fidirana famokarana, dia mety tsy hahomby mangina ny modely. Raha "mianatra" ny masontsivana ny dingana iray, dia ampidiro ao amin'ny angon-drakitra fiofanana ihany mba hisorohana ny fivoahan'ny data.
Ny fanodinana mialoha ny AI dia izay rehetra ataonao amin'ny angona manta alohan'ny (ary indraindray mandritra) ny fiofanana na ny fanatsoahan-kevitra mba hahafahan'ny modely mianatra avy amin'izany. Tsy "fanadiovana" fotsiny. Fanadiovana, famolavolana, fampitomboana, fanoratana, fampitomboana ary famonosana angona ho lasa fanehoana mitovy izay tsy hanimba ny modelyo any aoriana. [1]
Hevi-dehibe azo tsoahina:
Famaritana : Ny fanodinana mialoha dia manova ny tabilao manta, lahatsoratra, sary ary logs ho endri-javatra vonona ho an'ny modely.
Fifanarahana : Ampiharo ireo fiovana mitovy mandritra ny fiofanana sy ny fanatsoahan-kevitra mba hisorohana ny tsy fahombiazan'ny tsy fitoviana.
Leakage : Ampidiro amin'ny angon-drakitra fiofanana ihany ireo scalers, encoders, ary tokeniser.
Famerenana : Mamorona fantsona misy antontan'isa azo jerena, fa tsy filaharan'ny sela ao amin'ny kahie ad-hoc.
Fanaraha-maso ny famokarana : Araho maso ny fiolahana sy ny fiovaovan'ny vokatra mba tsy hanimba tsikelikely ny fahombiazana ny fidirana.
Lahatsoratra mety ho tianao hovakiana aorian'ity iray ity:
🔗 Ahoana ny fomba fitsapana ireo modely AI ho an'ny fampisehoana tena izy
Fomba azo ampiharina hanombanana haingana ny fahamarinan-toerana, ny faharetana ary ny fitongilanana.
🔗 AI text-to-speech ve ary ahoana ny fiasany?
Manazava ny fototry ny TTS, ny fampiasana azy lehibe, ary ny fetran'ny fampiasana azy amin'izao fotoana izao.
🔗 Afaka mamaky tsara ny sora-tanana mirindra ve ny AI ankehitriny?
Miresaka momba ireo fanamby amin'ny famantarana, ireo fitaovana tsara indrindra, ary ireo torohevitra momba ny fahamarinan'ny sary.
🔗 Ny fahamarinan'ny AI amin'ny asa mahazatra
Mamakafaka ireo anton-javatra momba ny fahamarinan-toerana, ny mari-pamantarana ary ny fahatokisana amin'ny tena fiainana.
Fanodinana mialoha ny AI amin'ny fiteny tsotra (sy izay tsy izy) 🤝
Ny fanodinana mialoha ny AI dia ny fanovana ireo zavatra manta (tabilao, lahatsoratra, sary, logs) ho lasa endri-javatra vonona hampiasaina amin'ny modely. Raha toa ka garazy mikorontana ny angona manta, ny fanodinana mialoha dia ny fametrahana marika ao anaty boaty, fanariana ireo zavatra simba, ary fampivondronana zavatra mba hahafahanao mandehandeha tsy misy ratra.
Tsy ny maodely mihitsy no zava-dehibe. Ny zavatra mahatonga ny maodely ho azo atao:
-
mamadika sokajy ho isa (one-hot, ordinal, sns.) [1]
-
Fampiakarana ireo elanelana isa lehibe ho lasa elanelana salama (fanamafisana, farafahabetsany, sns.) [1]
-
Fametrahana token amin'ny lahatsoratra ho ID fidirana (ary matetika saron-tava) [3]
-
fanovana habe/fanapahana sary ary fampiharana ny fiovana deterministika vs. kisendrasendra araka ny tokony ho izy [4]
-
fananganana fantsona azo averina mba tsy hifangaro amin'ny fomba miafina ny fiofanana sy ny fidirana "tena izy" [2]
Fanamarihana kely azo ampiharina: ny "fikarakarana mialoha" dia ahitana izay rehetra mitranga tsy tapaka alohan'ny ahitan'ny modely ny fidirana . Ny ekipa sasany dia mizara izany ho "fitantanana endri-javatra" sy "fanadiovana angona", fa amin'ny fiainana tena izy dia manjavozavo ireo tsipika ireo.

Nahoana ny fanodinana mialoha ny AI no zava-dehibe kokoa noho ny eken'ny olona 😬
Mpampifanandrify lamina ny môdely, fa tsy mpamaky saina. Raha tsy mifanaraka ny hevitrao, dia hianatra fitsipika tsy mifanaraka ny môdely. Tsy filozofika izany, fa ara-bakiteny.
Ny fanodinana mialoha dia manampy anao:
-
Hatsarao ny fahamarinan'ny fianarana amin'ny alàlan'ny fametrahana endri-javatra ao anaty fanehoana izay azon'ny mpanombana ampiasaina amim-pahatokisana (indrindra rehefa tafiditra ao anatin'izany ny scaling/encoding). [1]
-
Ahena ny tabataba amin'ny fanaovana ny zava-misy mikorontana ho toy ny zavatra azon'ny modely ampiasaina amin'ny ankapobeny (fa tsy ny fitadidiana ireo zavatra hafahafa).
-
Sokafy ireo fomba fiasa tsy misy olana toy ny tsy fitoviana amin'ny fivoahan'ny rano sy ny tsy fitoviana eo amin'ny fampiofanana sy ny fanompoana (ilay karazana toa "mahavariana" amin'ny fanamarinana ary avy eo dia misy fiovana kely amin'ny famokarana). [2]
-
Hafainganina ny famerenana satria ny fanovana azo averina dia mandresy ny spaghetti amin'ny solosaina isan'andro amin'ny herinandro.
Ary koa, avy amin'izany no tena iavian'ny "fampisehoana modely". Mahagaga fa betsaka izany. Indraindray dia toa tsy rariny izany, fa izany no zava-misy 🙃
Inona no mahatonga ny fantsona fanodinana mialoha ny AI ho tsara ✅
Ny "dikan-teny tsara" amin'ny fanodinana mialoha dia mazàna manana ireto toetra ireto:
-
Azo averina : fidirana mitovy → vokatra mitovy (tsy misy kisendrasendra miafina raha tsy hoe fampitomboana niniana natao).
-
Fifanarahana amin'ny fanompoana amin'ny alalan'ny fiofanana : izay rehetra ataonao amin'ny fotoana fiofanana dia ampiharina amin'ny fomba mitovy amin'ny fotoana fanatsoahan-kevitra (parameters mitovy, sarintany sokajy mitovy, config tokenizer mitovy, sns.). [2]
-
Azo antoka amin'ny fivoahan'ny rano
amin'nyfanombanana/fitsapana . (Bebe kokoa momba ity fandrika ity afaka kelikely.) [2] -
Azo jerena : azonao jerena izay niova (statistika momba ny endri-javatra, ny tsy fahampiana, ny isan'ny sokajy) ka tsy injeniera mifototra amin'ny vibes ny debugging.
Raha antontam-baravarankely misy sela ao amin'ny kahie antsoina hoe final_v7_really_final_ok ... dia fantatrao ny fomba fiasany. Miasa izy io mandra-pahatongan'ny tsy fiasany intsony 😬
Ireo singa fototra amin'ny fanodinana mialoha ny AI 🧱
Eritrereto ny fanodinana mialoha ho toy ny andiana singa fanorenana ampiarahinao ao anaty fantsona iray.
1) Fanadiovana sy fanamarinana 🧼
Asa mahazatra:
-
esory ny dika mitovy
-
mitantana ireo sanda tsy hita (manaisotra, manome tsiny, na maneho mazava tsara ny tsy hita)
-
mampihatra karazana, singa ary elanelana
-
mamantatra ireo fidirana tsy ara-dalàna
-
mampifanaraka ny endriky ny lahatsoratra (habaka fotsy, fitsipiky ny fanoratana, quirks Unicode)
Tsy dia manintona loatra ity ampahany ity, fa misoroka ny fahadisoana adaladala loatra. Amim-pitiavana no ilazako izany.
2) Fandikana ny angon-drakitra sokajy 🔤
Ny ankamaroan'ny modely dia tsy afaka mampiasa mivantana ireo tady manta toy ny "red" na "premium_user" .
Fomba fiasa mahazatra:
-
Fandikana mafana tokana (sokajy → tsanganana binary) [1]
-
Fandikana filaharana (sokajy → isa manontolo) [1]
ny no zava-dehibe - fa ny hoe mijanona ho mitovy ny sarintany ary tsy "miova endrika" eo amin'ny fiofanana sy ny fanatsoahan-kevitra. Izany no fomba ahazoanao modely izay toa tsara ivelan'ny aterineto ary miasa toy ny manenjika an-tserasera. [2]
3) Fanatsarana sy fanatsarana ny endri-javatra 📏
Zava-dehibe ny fanovana ny haben'ny endri-javatra rehefa ampiasaina amin'ny sehatra samihafa be ny endri-javatra.
Klasika roa:
-
Fanamarinana : esory ny salan'isa sy ny ambaratonga amin'ny fiovaovan'ny singa [1]
-
Fampiakarana kely indrindra : ampiakarana ny endri-javatra tsirairay ao anatin'ny elanelana voafaritra [1]
Na dia mampiasa modely izay "mahazaka ny ankamaroan'ny olana" aza ianao, ny scaling matetika dia mahatonga ny pipelines ho mora kokoa ny mandinika azy - ary sarotra kokoa ny manapaka tsy nahy.
4) Injeniera endri-javatra (fantatra amin'ny anarana hoe fitaka mahasoa) 🧪
Eto no hanamorana ny asan'ny modely amin'ny alàlan'ny famoronana famantarana tsara kokoa:
-
tahan'ny (tsindrio / fahatsapana)
-
varavarankely mihodina (andro N farany)
-
isa (hetsika isaky ny mpampiasa)
-
Fiovan'ny log ho an'ny fizarana mavesatra
Misy zavakanto eto. Indraindray ianao mamorona endri-javatra iray, mahatsiaro ho mirehareha… nefa tsy misy vokany izany. Na ratsy kokoa aza, maharary izany. Ara-dalàna izany. Aza miraiki-po amin'ny endri-javatra - tsy tia anao izy ireo 😅
5) Fizarana tsara ny angona ✂️
Toa miharihary izany raha tsy hoe:
-
fisarahana kisendrasendra ho an'ny angon-drakitra iid
-
fizarana mifototra amin'ny fotoana ho an'ny andian-tantara
-
fisarahana voangona rehefa miverimberina ireo singa (mpampiasa, fitaovana, marary)
Ary zava-dehibe indrindra: saraho alohan'ny hampidirana ny fanodinana mialoha izay mianatra avy amin'ny angona . Raha "mianatra" ireo masontsivana (toy ny salan'isa, voambolana, sarintany sokajy) ny dingana fanodinana mialoha anao, dia tsy maintsy mianatra azy ireo avy amin'ny fiofanana ihany izy. [2]
Fanodinana mialoha ny AI araka ny karazana angona: tabilao, lahatsoratra, sary 🎛️
Miova endrika ny fanodinana mialoha arakaraka izay ampidirinao amin'ny modely.
Angon-drakitra misy tabilao (takelaka, log, tahiry angona) 📊
Dingana mahazatra:
-
paikady tsy ampy lanja
-
kaody sokajy [1]
-
fandrindrana tsanganana isa [1]
-
fikirakirana outlier (ny fitsipiky ny sehatra dia mandresy ny "random clipping" amin'ny ankamaroan'ny fotoana)
-
endri-javatra azo avy amin'izany (fampivondronana, fahatarana, antontan'isa mihodina)
Torohevitra azo ampiharina: farito mazava tsara ireo vondrona tsanganana (isa vs sokajy vs famantarana). Hisaotra anao ny tenanao amin'ny ho avy.
Angon-drakitra an-tsoratra (NLP) 📝
Matetika ny fanodinana lahatsoratra mialoha dia ahitana:
-
fanovana ho lasa token/teny kely
-
fiovam-po ho ID fidirana
-
famenoana/fanafohezana
-
fananganana saina ho an'ny fanangonana [3]
Fitsipika kely izay tsy dia mandreraka loatra: ho an'ny fametrahana mifototra amin'ny transformer, araho ny fikirana tokenizer andrasana amin'ny modely ary aza manao freestyle raha tsy manana antony ianao. Ny freestyle no fomba hiafaranao amin'ny hoe "mampiofana nefa hafahafa."
Sary (fahitana amin'ny ordinatera) 🖼️
Fikarakarana mialoha mahazatra:
-
habe / hetezo ho endrika mitovy
-
fiovana deterministika ho an'ny fanombanana
-
fiovana kisendrasendra ho an'ny fampitomboana ny fiofanana (ohatra, fanapahana kisendrasendra) [4]
Zavatra iray tsy hitan'ny olona: ny "random transforms" dia tsy vibe fotsiny - maka santionany ara-bakiteny isaky ny antsoina izy ireo. Tsara ho an'ny fampiofanana ny diversity, ratsy ho an'ny fanombanana raha manadino ny mamono ny randomness ianao. [4]
Ny fandrika idiran'ny rehetra: ny fivoahan'ny angon-drakitra 🕳️🐍
Ny fivoahan'ny angon-drakitra dia rehefa miditra an-tsokosoko ao amin'ny fiofanana ny fampahalalana avy amin'ny angon-drakitra fanombanana - matetika amin'ny alàlan'ny fanodinana mialoha. Mety hahatonga ny modelyo ho toa mahagaga mandritra ny fanamarinana izany, ary avy eo dia handiso fanantenana anao amin'ny tena fiainana.
Ireo endrika fivoahan-drano mahazatra:
-
fanasokajiana mampiasa statistika feno (fa tsy fiofanana fotsiny) [2]
-
sarintany sokajy fanorenana mampiasa train+test miaraka [2]
-
fit()nafit_transform()rehetra izay "mahita" ny andiana fitsapana [2]
Fitsipika ankapobeny (tsotra, mahery vaika, mahomby):
-
Izay rehetra misy mety tsara dia tokony ho azo atao mandritra ny fanazaran-tena ihany.
-
Dia manova ny fanamarinana/fitsapana amin'ny fampiasana io transformer mifanaraka amin'izany io ianao. [2]
Ary raha te-hanamarina ny "ratsy ve izany?" ianao: ny antontan-taratasin'ny scikit-learn dia mampiseho ohatra momba ny leakage izay ahazoana fahamarinan'ny filaharana mialoha tsy mety manodidina ny 0.76 amin'ny tanjona kisendrasendra - avy eo dia midina indray amin'ny ~ 0.5 rehefa voavaha ny leakage. Izany no mety ho endriky ny leakage diso. [2]
Fampidirana ny fanodinana mialoha ho amin'ny famokarana tsy misy korontana 🏗️
Maro amin'ireo maodely no tsy mahomby amin'ny famokarana, tsy noho ny hoe "ratsy" ny maodely, fa satria miova ny zava-misy fampidirana - na miova ny pipeline-nao.
Ny fanomanana mialoha ny famokarana dia matetika ahitana:
-
Ireo zavatra voatahiry (encoder mappings, scaler params, tokenizer config) ka ny inference dia mampiasa ireo fiovana nianarana mitovy [2]
-
Fifanarahana fampidirana hentitra (tsanganana/karazana/elanelam-potoana andrasana)
-
Fanaraha-maso ny fiolahana sy ny fiovaovan'ny toetrandro , satria hivezivezy ny angon-drakitra momba ny famokarana [ 5]
Raha mila famaritana mivaingana ianao: Ny Vertex AI Model Monitoring an'ny Google dia manavaka ny fironana amin'ny fiofanana (miovaova arakaraka ny fiofanana ny fizarana vokatra) sy ny fironana amin'ny fanatsoahan-kevitra (miovaova arakaraka ny fotoana ny fizarana vokatra), ary manohana ny fanaraha-maso ho an'ny endri-javatra sokajy sy isa. [5]
Satria lafo vidy ny zavatra tsy ampoizina. Ary tsy ilay karazana mahafinaritra.
Tabilao fampitahana: fitaovana fanodinana mialoha + fanaraha-maso mahazatra (ary ho an'iza izy ireo) 🧰
| Fitaovana / tranomboky | Tsara indrindra ho an'ny | Vidiny | Nahoana no mahomby (ary kely fotsiny ny fahamarinana) |
|---|---|---|---|
| fanodinana mialoha ny scikit-learn | Fantsona ML tabilao | maimaim-poana | Encoders matanjaka + scalers (OneHotEncoder, StandardScaler, sns.) ary fihetsika azo vinavinaina [1] |
| Tokenizers amin'ny tarehy mifamihina | Fiomanana amin'ny fampidirana NLP | maimaim-poana | Mamokatra ID fidirana + saron-tava fijerena tsy tapaka amin'ny alàlan'ny fampiasana/modely [3] |
| fiovan'ny torchvision | Fiovan'ny fahitana + fampitomboana | maimaim-poana | Fomba madio hampifangaroana ny fiovana deterministika sy kisendrasendra ao anaty fantsona iray [4] |
| Fanaraha-maso ny modely Vertex AI | Fitihana fiviliana/fiolahana ao amin'ny prod | Karama (rahona) | Ny fanaraha-maso dia misy "skew/drift" ary mampitandrina rehefa mihoatra ny fetrany [5] |
(Eny, mbola misy hevitra ihany ny tabilao. Fa farafaharatsiny hevitra marina izany 😅)
Lisitra fanamarinana mialoha azo ampiharina azonao ampiasaina 📌
Alohan'ny fiofanana
-
Farito ny tetika fampidirana (karazana, singa, elanelana azo atao)
-
Fanaraha-maso ny sanda tsy ampy sy ny dika mitovy
-
Zarao amin'ny fomba mety ny angona (kisendrasendra / mifototra amin'ny fotoana / voangona)
-
Fikarakarana mialoha ny Fit mandritra ny fiofanana ihany (
fit/fit_transformmijanona amin'ny fiofanana) [2] -
Tehirizo ireo zavatra efa voahodina mialoha mba hahafahan'ny inference mampiasa azy ireo indray [2]
Mandritra ny fiofanana
-
Ampiharo fampitomboana kisendrasendra raha ilaina ihany (matetika ny fizarana fiofanana ihany) [4]
-
Tazomy ho voafaritra mialoha ny fanombanana [4]
-
Araho maso ireo fanovana mialoha ny fanodinana toy ny fanovana modely (satria izany tokoa)
Alohan'ny fametrahana
-
Ataovy azo antoka fa mampiasa ny lalana fanodinana mialoha sy ny artifacts mitovy ny inference [2]
-
Mametraha fanaraha-maso ny fiovaovan'ny endrika/fiolahana (na dia ny fanamarinana ny fizarana endri-javatra fototra aza dia efa manampy betsaka) [5]
Fandalinana lalina: ireo fahadisoana mahazatra amin'ny fanodinana mialoha (sy ny fomba hialana amin'izany) 🧯
Fahadisoana 1: “Hataoko ara-dalàna haingana fotsiny ny zava-drehetra” 😵
Raha kajy ny paramètres de scaling amin'ny angon-drakitra feno ianao dia mamoaka fampahalalana momba ny fanombanana. Ampifanaraho amin'ny fiofanana, ovay ny ambiny. [2]
Fahadisoana 2: sokajy mikorontana 🧩
Raha miova eo anelanelan'ny fiofanana sy ny fanatsoahan-kevitra ny sarintany sokajyo, dia mety ho diso tsipelina mangina izao tontolo izao ny modelyo. Tazomy ho voalamina amin'ny alalan'ny artifacts voatahiry ny sarintany. [2]
Fahadisoana 3: fampidirana kisendrasendra ao anatin'ny fanombanana 🎲
Mahafinaritra ny fanovana kisendrasendra mandritra ny fiofanana, saingy tsy tokony "hiafina" izy ireo rehefa miezaka mandrefy ny fahombiazana ianao. (Ny kisendrasendra dia midika hoe kisendrasendra.) [4]
Fanamarihana farany 🧠✨
Ny fanodinana mialoha ny AI dia ny zavakanto voafehy amin'ny fanovana ny zava-misy mikorontana ho lasa fampidirana modely mitovy. Tafiditra ao anatin'izany ny fanadiovana, ny fanoratana kaody, ny fanatsarana ny endrika, ny fanovana ny endrika, ny fanovana ny sary, ary ny tena zava-dehibe dia ny fantsona sy ny artifact azo averina.
-
Ataovy amim-pitandremana ny fanodinana mialoha, fa tsy atao kisendrasendra. [2]
-
Zarao aloha, ampifanaraho ny fanovana rehefa manao fanazaran-tena ihany, mba tsy hitete. [2]
-
Ampiasao ny fanodinana mialoha mifanaraka amin'ny fomba fiasa (tokenizer ho an'ny lahatsoratra, transform ho an'ny sary). [3][4]
-
Araho maso ny fiolahana/fiovan'ny famokarana mba tsy hivadika tsikelikely amin'ny hadalana ny maodely ampiasainao. [5]
Ary raha sahirana ianao dia manontania tena hoe:
“Mbola hisy dikany ve ity dingana fanodinana mialoha ity raha toa ka hampiasaiko amin'ny angona vaovao rahampitso?”
Raha “uhh… angamba?” ny valiny, dia izany no vahaolana 😬
FAQ
Inona no atao hoe fanodinana mialoha ny AI, raha lazaina tsotra?
Ny fanodinana mialoha ny AI dia andiana dingana azo averina izay mamadika ny angon-drakitra manta misy tabataba sy miovaova be ho lasa fidirana mitovy izay azon'ny modely ianarana. Mety ahitana ny fanadiovana, ny fanamarinana, ny fanoratana sokajy, ny fampitomboana ny sandan'ny isa, ny fanovana ny lahatsoratra ho token, ary ny fampiharana ny fiovan'ny sary. Ny tanjona dia ny hahazoana antoka fa ny fiofanana sy ny famokarana inference dia mahita ny "karazana mitovy" amin'ny fidirana, mba tsy hifindra amin'ny fitondran-tena tsy ampoizina ny modely any aoriana.
Nahoana no tena zava-dehibe ny fanodinana mialoha ny AI amin'ny famokarana?
Zava-dehibe ny fanodinana mialoha satria mora tohina amin'ny fanehoana ny fidirana ny modely. Raha toa ka amboarina, kaodina, asiana token, na ovaina amin'ny fomba hafa ny angon-drakitra fampiofanana raha oharina amin'ny angon-drakitra famokarana, dia mety hahazo tsy fahombiazana amin'ny tsy fitoviana amin'ny fiofanana/fanompoana ianao izay toa tsara ivelan'ny aterineto saingy tsy mahomby mangina an-tserasera. Ny fantsona fanodinana mialoha matanjaka dia mampihena ny tabataba, manatsara ny fahamarinan'ny fianarana, ary manafaingana ny famerenana satria tsy mamaha olana amin'ny solosaina finday ianao.
Ahoana no fomba hisorohana ny fiparitahan'ny angona rehefa fanodinana mialoha?
Misy fitsipika tsotra iray miasa: izay rehetra misy mifanaraka dia tsy maintsy mifanaraka amin'ny angon-drakitra fampiofanana ihany. Tafiditra ao anatin'izany ny scalers, encoders, ary tokeniser izay mianatra masontsivana toy ny means, category map, na voambolana. Mizara aloha ianao, mifanaraka amin'ny training split, avy eo manova ny validation/test amin'ny fampiasana ny transformer mifanaraka amin'izany. Ny leakage dia mety hahatonga ny validation ho toa "majika" tsara ary avy eo dia hihena amin'ny fampiasana famokarana.
Inona avy ireo dingana fanodinana mialoha mahazatra indrindra ho an'ny angona tabilao?
Ho an'ny angon-drakitra misy tabilao, ny pipeline mahazatra dia ahitana ny fanadiovana sy ny fanamarinana (karazana, elanelana, sanda tsy hita), ny fandikana sokajy (one-hot na ordinal), ary ny fanasokajiana isa (standardization na min-max). Maro ny pipeline manampy injeniera endri-javatra tarihin'ny sehatra toy ny tahan'ny, varavarankely mihodina, na isa. Fahazarana azo ampiharina ny mamaritra mazava tsara ny vondrona tsanganana (isa vs sokajy vs famantarana) mba hijanonana ho mitovy ny fiovanao.
Ahoana ny fiasan'ny fanodinana mialoha ho an'ny modely lahatsoratra?
Ny fanodinana mialoha ny lahatsoratra dia mazàna midika hoe fanovana ny token ho token/teny kely, manova azy ireo ho ID fidirana, ary mikarakara ny padding/truncation ho an'ny batching. Maro amin'ireo workflows transformer no mamorona saron-tava miaraka amin'ireo ID. Ny fomba fiasa mahazatra dia ny fampiasana ny fikirakirana tokenizer andrasana amin'ny modely fa tsy ny fanaovana improvisation, satria ny fahasamihafana kely eo amin'ny fikirana tokeniser dia mety hitarika vokatra "miofana nefa mitondra tena tsy ampoizina".
Inona no maha samy hafa ny fanodinana mialoha ny sary ho an'ny fianarana milina?
Ny fanodinana mialoha ny sary dia mazàna miantoka endrika sy fikirakirana piksela mitovy: fanovana habe/fanapahana, fanitsiana ny habe, ary fisarahana mazava eo amin'ny fiovana deterministika sy kisendrasendra. Ho an'ny fanombanana, ny fiovana dia tokony ho deterministika mba hitoviana ny metrika. Ho an'ny fiofanana, ny fampitomboana kisendrasendra (toy ny fambolena kisendrasendra) dia afaka manatsara ny faharetany, saingy ny kisendrasendra dia tsy maintsy ampifandraisina amin'ny fizarana fiofanana, fa tsy avela tsy nahy mandritra ny fanombanana.
Inona no mahatonga ny fantsona fanodinana mialoha ho "tsara" fa tsy marefo?
Azo averina averina, tsy mora mitete, ary azo jerena ny fantsona fanodinana mialoha ny AI tsara. Ny azo averina dia midika fa ny fidirana mitovy dia mamokatra vokatra mitovy raha tsy hoe misy fampitomboana niniana natao noho ny kisendrasendra. Ny azo antoka amin'ny fitete dia midika fa tsy mikasika ny fanamarinana/fitsapana mihitsy ny dingana mifanaraka. Ny azo jerena dia midika fa afaka mijery antontan'isa toy ny tsy fahampiana, ny isan'ny sokajy, ary ny fizarana endri-javatra ianao ka ny fanitsiana ny olana dia mifototra amin'ny porofo, fa tsy amin'ny fahatsapana fotsiny. Ny fantsona dia mihoatra ny filaharan'ny kahie ad-hoc isaky ny mandeha.
Ahoana no fomba hitazonana ny fiofanana sy ny fanodinana mialoha ny fanatsoahan-kevitra ho mitovy?
Ny zava-dehibe dia ny fampiasana indray ireo zavatra nianarana mitovy amin'izany amin'ny fotoana fanaovana inference: ireo parameteran'ny scaler, ny sarintanin'ny encoder, ary ny fikirakirana tokenizer. Mila fifanarahana fampidirana (tsanganana, karazana ary elanelana andrasana) koa ianao mba tsy hahafahan'ny angon-drakitra famokarana miparitaka mangina amin'ny endrika tsy mety. Ny fitoviana dia tsy hoe "manao dingana mitovy" fotsiny - fa "manao dingana mitovy amin'ny parameteran'ny sy sarintanin'ny mitovy."
Ahoana no ahafahako manara-maso ireo olana mialoha ny fanodinana toy ny fiovaovan'ny loko sy ny fiolahana rehefa mandeha ny fotoana?
Na dia matanjaka aza ny pipeline-ny, dia miova ihany ny angon-drakitra momba ny famokarana. Ny fomba fiasa mahazatra dia ny fanaraha-maso ny fiovan'ny fizarana endri-javatra sy ny fampitandremana momba ny fironana amin'ny fiofanana (miovaova ny famokarana amin'ny fiofanana) sy ny fiovaovan'ny inference (miovaova ny famokarana rehefa mandeha ny fotoana). Mety ho maivana ny fanaraha-maso (fanamarinana fizarana fototra) na tantanana (toy ny Vertex AI Model Monitoring). Ny tanjona dia ny mahita mialoha ny fiovan'ny input - alohan'ny hanimbana tsikelikely ny fahombiazan'ny modely.
References
[1] scikit-learn API:
sklearn.preprocessing (encoders, scalers, normalization) [2] scikit-learn: Fandrika mahazatra - Fivoahan'ny angona sy ny fomba hisorohana izany
[3] Antontan-taratasy momba ny Hugging Face Transformers: Tokenizers (ID fidirana, saron-tava)
[4] taratasy momba ny PyTorch Torchvision: Transforms (Resize/Normalize + random transforms)
[5] Antontan-taratasy Google Cloud Vertex AI: Topimaso momba ny fanaraha-maso ny modely (feature skew & drift)