IT-praktik (IT-trainee period) #3

Länge sedan senaste uppdateringen. Föreläsningarna för sommarstudenterna har kommit igång. De handlar främst om fysik, men även om teknik från de olika experimenten. T.ex. CMS-experimentet beskrev jag i den förra posten. Ännu en av de bästa sakerna med min praktikperiod här är att jag hela tiden blir visad hur lite jag vet och hur mycket det ännu finns att lära sig 🙂 Föreläsnignarna finns fritt tillgängliga, många som video, se länken nedan. Föreläsningen om detektorer tyckte jag mycket om. För IT-studenter ordnas föreläsningar vid OpenLab -avdelningen, titta på dem och inse hur mycket ni redan vet. Seriöst 🙂 Där kan ni ta er en koll på vad som är aktuellt inom IT.
Kan även passa på att nämna något om mitt jobb. Till mina uppgifter hör att testa och benchmarka ett lagringssystem. Otroligt många faktorer kan påverka resultaten: alla delar från hårdvaran, operativsystemet och programvaran… för att inte tala om mellanminnen (cachen) som finns överallt och förvränger resultaten ifall de inte beaktas. Detta hade jag själv inte tänkt på förut. Mest har jag skriptat och förra veckan lärde jag mig Python. Kan bekräfta att det inte tar så länge att lära sig ett nytt språk när man kan några gamla. Detta var jag inte så övertygad om på ettan i Arcada, då jag just och just lärt mig Java och vi därefter skulle börja ett kursprojekt med C 🙂
Annat jag insett är att databaser är mycket viktiga. Databaserna här innehåller kring 370 TB data. (Säkerhetskopior är inte inkluderade i detta tal.) Snabbare hantering av data är också något som behövs. De flesta har hört att experimenten vid CERN genererar stora mängder data, t.ex. i skala med 35 GB/s. Denna data är dock filtrerad och utvald – 35 GB kan vara kring 10 % av den data som en partikelkollision ger upphov till. Per sekund. Den bortkastade datan är t.ex. data som innehåller information som inte är relevant för det man undersöker just då, felaktig eller något man redan vet. Dessutom finns ingen möjlighet (eller orsak) till att spara så stora datamängder så snabbt på någon större lagringsenhet. På föreläsningarna hörde jag att man siktar på att få “readouts” på 1 terabyte (TB)/s från en partikelkollision om några år. Detta kommer att ge mätresultaten större exakthet men kräva en del mer av hårdvaran.
Ifall någon trodde att dagens nätverk och hårdskivor är helt tillräckligt snabba – nej. Även industrin och samhället (infrastrukturen) har ett behov av bättre teknik även om det kan vara osynligt i vardagen. Metrovagnar som skall styras optimalt och rätt bland hundratals andra i realtid kräver snabba uträkningar. Teleoperatörer, många onlinetjänster och övrig forskning har ganska självklara behov av att kunna hantera stora datamängder. Ävenså alla ägare till bonuskortregister där miljontals inköp kan finnas listade (minst). Så – det finns mycket att göra för alla unga och gamla ingenjörer 🙂
————————–
There’s been some time since the last update. Now the summer student lectures have begun. Mostly they are on physics, but also on engineering related to the different experiments. The CMS-experiment was described in the last post. That’s another good part of the trainee period – I see that there is still so much for me to learn 🙂 Most lectures are available as videos, following this post are some links to them. The detector lectures were nice. Also, for IT-students there are lectures from the OpenLab department, watch and see how much you already know. Look at what the relevant topics in IT currently are.
I’ll also write a few sentences about my tasks here. Among them are to test and benchmark a storage system. Before this, I had not thought about how much the hardware, software, operating system influence your tests. Be careful with caches and make sure you know where they are, they can/will disturb your results. Mostly I’ve been scripting and last week I learned Python. Now I can confirm that it doesn’t take that long to grasp the basics of a new language if you already know some. That’s not what I thought on my first year in Arcada when I barely knew Java and we started a course programming project in C right away!
Another thing I realized is that databases are extremely important. Here, there is about 370 TB data stored in databases. (That number doesn’t include backup data.) Also, there is a need to process data at high rates even faster than now. Often you hear quotes that the CERN experiments can generate data at a rate of i.e. 35 GB/second. Did you also know that this amount of data is filtered and constitutes perhaps 10 % of the data that a particle collision originally creates? Per second. The discarded data can be irrelevant for what the researchers are studying, contain an error or something already known. Also, it is not possible or necessary to store all the data. During the lectures I heard that “readouts” from a particle collision could be done at a rate of 1 TB/s in a few years. Process that.. It can give more exact measurements but demands a bit more from the hardware.
If anyone thought that the data transfer speed in networks or for storage units is fast enough – no. There is a need for improved technology for industry and society (i.e. infrastructure) even if that is invisible in our daily lives. Optimally routing subway trains in large networks requires fast computing. Teleoperators, online services and other areas of research quite obviously need to be able to handle large datasets. The owners of all the bonuscard registers too. So, there is still much to do for old and young eningeers 🙂
– Carolina –
—————————
Summer student lectures: http://indico.cern.ch/categoryDisplay.py?categId=345
OpenLab lectures: http://openlab.web.cern.ch/summer-students-lectures
Another article that makes you reflect upon the accuracy of benchmarking. Do look at the paper that is mentioned: (Lies, Damn Lies and File System Benchmarks) http://www.linux-mag.com/id/7464/
—————————-
Pictures: Swiss cow, lecture in the main auditorium, partial view of one floor of the computing center.