# Text Mix Idee text mix : combinat propotitiile A si B apoi pus loss astfel incat sa le separ. Lossul asta poate fi folosit pentru o preantrenare util pt diverse taskuri cum ai fi detectia de autori sau detectia de anomalii. Posibila implementari: ## Discrete Mix of tokens Construit 1 paragraf din: jumatate din prop A. stop. jumatate din prob B. stop. restul propozitiilor A si B avand cuvintele amestecate. Lossul se pune pe fiecare cuvant amenstecat si se prezice daca vine din prop A sau propozitia B (alternativ putem pune si cuvinte generate, ca in electra si sa prezicem A, B sau generat). Loss-ul precedent poate fi combinat cu un loss de bert sau de electra pe primele 2 parti care sunt curate (neamestecate). Avantaj: - seamana cu electra in obiectiv, asa ca exista sansa mare sa poata fi optimizat. - taskul poate fi mai greu ca la electra, ceea ce poate insemna ca semnalul de supervizare sa fie mai util dar poate mai greu de optimizat - se pliaza bine pe taskul de identificare de autori dar si pe anomalii. in general e bine daca taskul pe care testezi foloseste o metrica foarte asemanatoare cu loss-ul pe care l-ai folosit la invatare. - cea mai simpla folosire pt detectie de autori dupa o preantrenare cu taskul asta ar fi sa dai prop A din autorul A si prop B din autorul B, apoi restul sa fie un query. - pt anomalii presupun ca poate fi folosit similar cu DATE? aici daca ii dai 2 prop A si B normale, el e antrenat sa zica care dintre ele e mai apropiat de fiecare cuvant din query. dar daca niciunul nu e, posibil sa se vada in probabilitatile pt fiecare token (sa fie mai aproape de uniform). din nou, evaluarea pt anomalie e destul de apropiata de metoda de antrenare. - flexibil Posibile adaptari: - A si B sa fie 2 propozitii succesive dintr-un paragraf astfel incat sa nu existe posibilitatea sa faca separarea dupa campul semantic general al cuvintelor. ## Continuous mix of Embeddings 2. luat propozitia A si B de lungime egala si combinat embedingurile fiecarui cuvant: alpha * cuvantA + (1-alpga) cuvantB . La sfarsit de prezis pt fiecare cuvant probabilitatea alpha pt fiecare cuvant. Seamana cu: https://arxiv.org/pdf/2004.12239.pdf ## Creare dataset + pretrain: Dataset PAN v1 pretraining: - Luam textul T1 din PAN, spargem T1 in S1 si S2, amestecam o bucata din S1 cu o bucata din S2, clasificam (binar) bucata din S1 cu bucata din S2 Dateset PAN v2 pretraining: - 1) la fel ca v1 - 2) Luam T1 si T2, putem pp. ca T1 si T2 sunt scrise de autori diferiti, luam S1 din T1 si S2 din T2, facem la fel ca la 1) + poate altceva? (clf binara etc ie. >1 pretext task) ## Related Work Thread / blog post of Cho K: https://twitter.com/kchonyc/status/1476595147001503754 and paper https://arxiv.org/pdf/2112.13969.pdf Paper by Cornelia Caragea 2022 May - with code https://arxiv.org/pdf/2205.03403.pdf Twitter.. https://twitter.com/LChoshen/status/1523625544969252864